Référencement : Pages bloquées par robot.txt (Joomla)

Nouveau WRInaute
Bonjour,

lors du référencement d'un site, j'ai constaté qu'un grand nombre de page du site étaient annoncées comme innacessible, bloquées par le fichier robots.txt de joomla.

voici le fichier robots.txt concerné:
Code:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
dans les métas j'ai bien partout ceci :
<meta name="robots" content="index, follow" />

dans mon .htaccess rien a signaler, juste:
php1 (pour passer free en php5).
+ 3 redirection pour pages d'erreurs.

Les parametres SEO ne sont pas activés (joomla).

En lisant ce forum j'ai également vérifié qu'il n'y avait pas de saut de lignes. Il n'y en a pas.
Sur le forum Joomla, ils ne voient pas de raison pour ce blocage et me conseillent de me renseigner ici.

J'ai beau revalider mes sitesmap, rien y fait, toujours bloqués par le robots.txt
Au total 6130 pages bloquées par le robots.txt

Comment remédier à ce problème ?

Merci d'avance.
 
WRInaute occasionnel
Pour la question sur le robots.txt, il est heureux que ces pages soient bloquées. Cela n'influe en rien sur la visibilité de tes contenus.
 
Nouveau WRInaute
Pardon :eek: C'est un blague ou quoi ? :eek: lol

Ce n'est absolument pas normal que ces pages soient bloquées.
D'ailleurs sur d'autres de mes sites tout est correcte.

Et celà influence fortement mon référencement ainsi que le nombre de vistes sur mon site ... hé oui!

Je dois absolument régler ce problème qui fait dégringoler mon site!

Merci d'avance.
 
WRInaute accro
Aucune de ces pages (à part éventuellement images) ne livre du contenu utilisateur final. Je confirme qu'il est normal qu'elles soient bloquées. Les images doivent être accessibles par la page internet où elles se trouvent

Ton problème est que ton sitemap n'est pas cohérent avec ton robots.txt
 
Nouveau WRInaute
Marie-Aude a dit:
Aucune de ces pages (à part éventuellement images) ne livre du contenu utilisateur final. Je confirme qu'il est normal qu'elles soient bloquées. Les images doivent être accessibles par la page internet où elles se trouvent
Bonjour,

Alors pourquoi sur d'autres de mes sites (meme cms, meme hébergeur, meme robots.txt) je n'ai pas ce problème ?
Et aussi pourquoi mon site a t'il dégringolé dans le classement ? (il était dans les 10 premiers, maintenant je ne le vois même pas dans les 100 premiers).

Marie-Aude a dit:
Ton problème est que ton sitemap n'est pas cohérent avec ton robots.txt
C'est à dire ?
 
Nouveau WRInaute
Sur un site Joomla, j'ai exactement la même configuration et le site est correctement référencé. Marie-Aude à raison. Cela ne nuit pas à l'utilisateur nuit au référencement.
 
Nouveau WRInaute
J'insite mais ... sur mes autres sites, je n'ai aucunes page bloquées, mes différents liens de sitemap sont lus correctement et les liens sont vu, reconnus et indexés. Ce qui n'est pas le cas avec le site qui pose problème. Et pour moi, quand je vois une grosse croix rouge qui indique erreur, c'est que quelque chose ne va pas.
 
WRInaute occasionnel
djphil a dit:
Pardon :eek: C'est un blague ou quoi ? :eek: lol

Ce n'est absolument pas normal que ces pages soient bloquées.
D'ailleurs sur d'autres de mes sites tout est correcte.

Et celà influence fortement mon référencement ainsi que le nombre de vistes sur mon site ... hé oui!

Je dois absolument régler ce problème qui fait dégringoler mon site!

Merci d'avance.
J'ai une tête à blaguer p'tetre ?
Ça n'a rien à voir ce que tu décris et tes problèmes de seo.
Je le répète, encore heureux que le bot ne va pas dans des répertoires qui n'ont rien à proposer à l'indexation.
Il est absolument sain et normal que ces répertoires ne soient pas visités.
C'est documenté sur Internet d'ailleurs, d'autres que toi se sont posés ces questions. Les répertoires interdits au crawl sont des répertoires de gestion du cms, donc voilà.
 
WRInaute accro
Tu as des erreurs d'exploration parce que le sitemap inclus des urls qui sont bloquées par le robots.txt, j'imagine

Maintenant tu n'as AUCUNE preuve que ce soit CE problème précisément qui fasse dégringoler ton site. Personnellement je dirais que cela n'a aucun impact sur le positionnement de ton site, parce que les fichiers présents dans ces répertoires n'ont pas vocation à être indexés / parcourus, pour des raisons de sécurité.

De plus le sitemap est une aide au crawl, absolument pas un outil pour le positionnement.

Donc il serait peut être intéressant que tu poses la question autrement :
voici mon site donc son url (si tout public), quels sont les facteurs qui peuvent être un frein au référencement ?
 
WRInaute accro
Pas mieux. Pour travailler sur plusieurs Joomla, le blocage de ces dossiers, s'il n'est pas en place, fait parti de mes premières interventions. Et ca n'influe pas de manière négative sur le référencement, vu que ces dossiers et les pages qu'ils contiennent n'ont pas vocation à être indexé (hormis image, si c'est le dossier où sont stockés les images qui sont affichées dans les contenus du site, encore que ça peut être stratégique de ne pas les indexer).
 
Nouveau WRInaute
Bonjour,

ma question est la suivante, comment supprimer ces erreurs dues au robots.txt ? Erreurs qui je le rappel sont uniquement sur ce site, mes autres sites n'ont pas ce problème.

Sur le centre d'aide de google voici ce qui est dit :
•Utilisez un fichier robots.txt sur votre serveur Web. Ce fichier indique aux robots d'exploration les répertoires de votre site qui peuvent ou non être explorés. Vérifiez que ce fichier est adapté à votre site, faute de quoi vous risquez de bloquer l'accès de notre robot d'exploration Googlebot. Pour en savoir plus sur les instructions à donner aux robots qui explorent votre site, consultez la page http://www.robotstxt.org/faq.html. Pour tester votre fichier robots.txt et vérifier que vous en faites une utilisation appropriée, servez-vous de l'outil d'analyse du fichier robots.txt disponible dans les Outils Google pour les webmasters.
... ce qui est un peu opposé à ce qui est dit ici non ?
 
WRInaute occasionnel
djphil a dit:
Bonjour,

ma question est la suivante, comment supprimer ces erreurs dues au robots.txt ? Erreurs qui je le rappel sont uniquement sur ce site, mes autres sites n'ont pas ce problème.

Sur le centre d'aide de google voici ce qui est dit :
•Utilisez un fichier robots.txt sur votre serveur Web. Ce fichier indique aux robots d'exploration les répertoires de votre site qui peuvent ou non être explorés. Vérifiez que ce fichier est adapté à votre site, faute de quoi vous risquez de bloquer l'accès de notre robot d'exploration Googlebot. Pour en savoir plus sur les instructions à donner aux robots qui explorent votre site, consultez la page http://www.robotstxt.org/faq.html. Pour tester votre fichier robots.txt et vérifier que vous en faites une utilisation appropriée, servez-vous de l'outil d'analyse du fichier robots.txt disponible dans les Outils Google pour les webmasters.
... ce qui est un peu opposé à ce qui est dit ici non ?

Ben non, parmi "les répertoires qui peuvent être ou non explorés" dit ton article d'aide. Dans Joomla, ceux qui sont listés n'ont PAS à être explorés. Les Joomla que je gère ont tous cette configuration avec parfois images qui est mis ou pas dans le robots.txt. Maintenant on peut te reformuler la réponse autant que tu voudras, on ne variera pas ... :mrgreen:
Tu relies 2 problèmes qui n'ont pas à l'être.
 
Nouveau WRInaute
Bonsoir,

peut-être que j'explique mal le problème, je recommence.

site n°1, pas de problème, y a un petit V vert :D
poq6mzebbbs2bt7v.jpg


site n°2, y a un problème, y a un X rouge :(
0jh869nwtcmeka5b.jpg


Comment faire pour avoir aussi des V sur le site n°2 ?
(ça fonctionnait, ça ne fonctionne plus).

Merci d'avance ;)
 
WRInaute accro
En débouchant tes oreilles et en réfléchissant un peu.

Premièrement les urls qui sont bloquées et que tu montres sur l'image n'ont strictement RIEN A VOIR avec les répertoires bloqués à l'indexation. Donc là depuis le début, tu trimballes sur un problème qui n'en est pas un.

Deuxièmement, la copie d'écran que tu montres, c'est celle de la page des sitesmaps. Donc là ce que GWT te dit c'est qu'il n'arrive pas à lire les sitemaps du site 2

et là, en regardant d'un peu plus près, on voit que la structure d'url (donc les paramètres passés) n'a strictement rien à voir avec le premier site. C'est un taks=showRSS et tu n'as pas le format=feed

Donc la vraie question que tu dois TE poser c'est "quelle est la différence de paramétrage de plugin / module / theme" entre mes deux sites qui fait que le deuxième déclare de mauvaises url pour les sitemaps.

Et si tu veux qu'on t'aide là dessus, tu dois donner plus de détail (url du site, modules, etc) sinon c'est la boule de cristal
 
Nouveau WRInaute
Par exemple le 1er lien complet du site n°2 est :
http://digitalconcepts.free.fr/index.php?option=com_alphacontent&task= ... mid=100003
(composant alpha content pour j1.5).

de là tu peux remonter sur le site et voir dans le petit menu en haut à gauche "plan" qui est le site map
(composant SefServiceMap pour j1.5).
qui comme tu peux le voir fourni un url de site map au format xml et au autre au format txt spécialement pour google.
Et ces 2 liens ne fonctionnent plus non plus!

Tous ces liens fonctionnaient avant et je n'arrive pas à mettre le doigt sur ce qui a changé sur le site (normalement rien) et qui pourrait provoquer ces blocages.

Merci d'avance pour tout aide à ce sujet.
 
WRInaute accro
Donc on est bien d'accord, le premier lien complet est un flux rss, pas un site map ? Parce que ce qui est marqué en haut c'est une définition de structure de flux, pas de sitemap (c'est pas parce que ça a une tête de document xml que la syntaxe correspond au sitemap). Pour voir la structure d'un sitemap, regarde ton sitemap qui se trouve ici
http://digitalconcepts.free.fr/index.php?option=com_sefservicemap&amp; ... ;no_html=1

(c'est d'ailleurs celui qui est indiqué dans le robots.txt) Il est quasiment vide, donc ça c'est un autre probleme :D mais c'est ça une structure de doc que Google acceptera en sitemap.

Et le sitemap n'a rien à voir dans le positionnement de ton site

(Sinon ton url twitter est fausse aussi, sur ta page d'accueil
 
Nouveau WRInaute
Effectivement le 1er lien complet est un flux rss (lien qui était bien reconnu par google avant).
Le site map au format xml est effectivement quasi vide, celui au format txt est complet et c'est celui que j'utilise dans google et qui ne fonctionne plus non plus.

Tu dis que le site map n'a rien avoir avec le positionnement ...
Expliques moi alors car là je suis largué ...
Pour moi le site map permet a google de bien crawler (indexer) toutes les pages du site.
Ce qui influence donc inévitablement son positionnement dans le moteur de recherche.
Je me trompe ?

Heuuu il a quoi de mauvais l'url twitter ?
 
WRInaute occasionnel
djphil a dit:
Pour moi le site map permet a google de bien crawler (indexer) toutes les pages du site.
Ce qui influence donc inévitablement son positionnement dans le moteur de recherche.
Je me trompe ?
Le "inévitablement" me paraît un peu catégorique. Disposes-tu d'une source, de tests qui le démontrent ?
Proposer un plan de site est une bonne pratique pour permettre une bonne indexation. De là à influencer directement le positionnement ...
Je peux faire un site avec un plan de site, mais si le contenu n'est pas adapté à ma stratégie de mots-clés, mon positionnement restera limité.
 
WRInaute accro
Google a besoin d'une syntaxe précise pour comprendre un sitemap, et les fichiers que tu lui soumets n'y correspondent pas. Donc il ne comprend pas.

Si tu as besoin du sitemap pour que google crawle tes urls, tu as un sérieux problème d'organisation de ton site. Le sitemap permet de "découvrir les urls qui ne seraient pas accessible autrement" et surtout de suivre les problèmes d'indexation.

Le positionnement se fait uniquement sur la base du contenu crawlé, et des liens (pour résumer). Donc si ton contenu est crawlé autrement, même sans sitemap, il est positionné. Et s'il n'est pas crawlé, le problème est ailleurs.

Pour l'url twitter je ne te parle pas de celle en haut à droite, mais du "nous suivre", que tu as d'ailleurs enlevé, et qui n'était pas une url de compte twitter
 
Nouveau WRInaute
Pourquoi avant ça fonctionnait bien avec ces mêmes urls alors ?
Qu'est ce qui a bien pu changer, je l'ignore ...

Pourquoi SefServiceMap utiliserait une syntaxe non reconnue par google ?
C'est un composant prévu à cet effet.

Pourquoi la syntaxe des autres urls serait mauvaise, elle était bonne avant ?
Je ne vois pas quel plugin ou autre aurait modifié quelque chose de ce coté.

Ce n'est pas par fénéantise mais j'ai besoin de plus d'aide pour trouver LE problème.
 
Nouveau WRInaute
Le bloquage automatique des IP du plugin Sentinelle est LA cause de ce "soie disant" problème de pages bloquées par robots.txt

LA solution : Effacer le(s) IP(s) dans la configuration du plugin Sentinelle.
(facultatif : ne pas activer le blocage automatique des IPs).

Eureka! :D

Merci à tous d'avoir essayé de m'aider :cool:
 
Discussions similaires
Haut