Google indexe robots.txt

Nouveau WRInaute
Bonjour,

Je relance ce topic qui date déjà de pas mal d'années, car j'ai un soucis avec le fichiers robots.txt de mon site...celui-ci figure dans l'index de Google. Comment es-ce possible ? Je n'ai aucun lien pointant vers ce fichier.

De plus, il ressort en résultats sur certain mot clé car j'ai dû désindexer des URL via le robots.txt
 
Nouveau WRInaute
Bonjour,

Voici ce que je tape dans google : site:pompes-direct.com robots.txt
Et si je tape une recherche, par exemple : GARDENJETNOX et bien je tombe sur mon robots.txt parce que j'ai dû désindexer l'adresse...

Quelqu'un a t-il une piste ?
 
WRInaute discret
Bonjour,

Comme il a déjà été signalé, s'il existe un lien vers ton fichier robots, c'est pas surprenant. Il te faut trouver le lien en question et le retirer, je ne vois pas d'autre solution. Tu peux aussi essayer de le supprimer de l'index depuis Webmaster tools, mais j'ignore si ce sera permanent.

Juste pour rigoler, quelqu'un à déjà essayé d'interdire l'accès à son robots.txt depuis lui-même ? :lol:

Johann
 
Olivier Duffez (admin)
Membre du personnel
le pb est qu'on ne veut pas empêcher le crawler de consulter la page, mais l'empêcher de l'indexer
 
Nouveau WRInaute
Merci pour vos réponses.

Je vais tester de le disallow dans le robots.txt :D

Sinon comment je peux faire pour trouver le lien par lequel il a été indexer ? J'ai déjà fais une liste des liens avec Xenu et aucune trace du robots.txt.
 
Nouveau WRInaute
Salut!

Il faut utiliser les X-Robots-Tag HTTP headers pour interdire l'indexation du fichier robots.txt.
Pour plus d'informations: http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html (en anglais)

"The X-Robots-Tag can be used as an element of the HTTP header response for a given URL. Any directive that can used in an robots meta tag can also be specified as an X-Robots-Tag. Here's an example of an HTTP response with an X-Robots-Tag instructing crawlers not to index a page....."

Il n'y a pas d'autre solution.
 
WRInaute occasionnel
Ok d'accord ... c'est donc woorank qui m'a fait cette farce aussi ! :roll:

D'ailleurs, je vois plein de sites très bizarres en rapport avec le nom de ma société, exemple :
Capture d'écran des 2 sites + le fameux woorank

On peut voir que pour les 2 premiers, ce sont apparemment une copie pure et simple des pages YouTube ...

tendancefruit a dit:
Il n'y a pas d'autre solution.
Bon ben j'ai modifié mon .htaccess en fonction donc on verra bien ! merci pour le lien !
Code:
<Files ~ "robots\.txt$">
  Header set X-Robots-Tag "noindex"
</Files>
 
Olivier Duffez (admin)
Membre du personnel
Oui tendancefruit je pense que tu as raison... j'y avais pensé mais je ne l'ai jamais testé pour un fichier robots.txt ! pour ceux qui veulent des explications en français : l'entête X-Robots-Tag

ça veut dire qu'il faut gérer le fichier robots.txt par un script serveur qui rajoute l'entête HTTP ? et donc faire de la réécriture d'URL du fichier robots.txt ? Les petits malins découvriront peut-être qu'on peut faire du cloaking sur le fichier robots.txt ;-)

Edit : merci lunicrea pour le code .htaccess, c'est sans doute le plus simple effectivement
 
WRInaute occasionnel
Samantha66 a dit:
Un grand merci (en retard) à tous pour vos réponses !
De rien ;)

D'ailleurs ça m'a permis de vérifier mon code et effectivement mon robots.txt a bel et bien disparu des SERPs comme convenu ! 8)
 
WRInaute accro
WebRankInfo a dit:
ça veut dire qu'il faut gérer le fichier robots.txt par un script serveur qui rajoute l'entête HTTP ? et donc faire de la réécriture d'URL du fichier robots.txt ?
Pas forcement de la réécriture mais le faire interpréter par php.

AddType x-mapp-php5 .txt

ce qui permet au passage de le compresser de lui donner une limite de validité avec le cache etc ... et effectivement de cloaker pour éviter (par exemple) que qui que ce soit a part les moteurs puisse "deviner" la structure du site.
 
Olivier Duffez (admin)
Membre du personnel
En effet c'est une autre façon, mais ça fait interpréter tous les .txt par PHP, pas seulement le robots.txt
 
Discussions similaires
Haut