problème avec le fichier robots.txt
12 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
problème avec le fichier robots.txt
Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site http://www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci
-

UsagiYojimbo - WRInaute accro

- Messages: 5110
- Inscription: Mer Nov 23, 2005 10:38
Re: problème avec le fichier robots.txt
RIACARO a écrit:Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site http://www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci
Tu devrais passer un coup de Xenu Link Sleuth sur ton site, afin de prendre connaissance de l'ensemble des url qui s'y trouve. EN général c'est souvent une faute de frappe qui a été oubliée dans le html.
Salut, en effet l'ensemble des urls est abstrait. je m'explique, j'utilise un fichier php pour génerer les urls et il est clair que GG essaye toutes les combinaisons possibles. Mon probème actuellement se sont les urls qui contiennent deux slashs consécutives(le robots.txt n'arrive pas à bloquer l'indexation de ce type de page).
Merci pour le l'utilitaire Usagi, je suis entrain de le tester.
Merci pour le l'utilitaire Usagi, je suis entrain de le tester.
Re: problème avec le fichier robots.txt
Ben, non!RIACARO a écrit:Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg.
robots.txt n'est pas la bonne solution pour enlever des pages de l'index de Google. Si une page inexistante renvoie un code 404 (not found), Google finira par la supprimer par lui-même. Si ton site ne renvoie pas de code 404 quand une page n'existe pas, ton problème va continuer à exister.
Et puis, pourquoi supprimer ces URL de l'index ? Tu pourrais les rediriger vers des URL existantes (redirection 301) plutôt que de gaspiller ces "mauvaises" URL indexées.
Jean-Luc
Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense. je clarifie encore plus mon problème: le site propose des produits de séjours linguistiques et d'autres dérivés, les programmes changent toujours (ya quelques uns qui sont supprimés, d'autres modifiés...). Les urls sont la combinaison de champs dans la base de données et lorsque des champs sont supprimés l'url change automatiquement avec la même squelette du site.
Je vous donne des exemples:
http://www.nacel.org/cdlp/Work-Experien ... h-JUK2.php
ca correspond à un produit qui a été supprimé. Dans ce cas c seulement le contenu de la page qui est vide.
www.nacel.org/cdlp/Summer-Camps/United- ... glish-.php
pour ce cas la reference du produit n'existe plus mais l'url existe dans l'index.
Cela est un petit exemple de plusieurs centaines d'url resultante de toutes les combinaisons possibles
Merci
Je vous donne des exemples:
http://www.nacel.org/cdlp/Work-Experien ... h-JUK2.php
ca correspond à un produit qui a été supprimé. Dans ce cas c seulement le contenu de la page qui est vide.
www.nacel.org/cdlp/Summer-Camps/United- ... glish-.php
pour ce cas la reference du produit n'existe plus mais l'url existe dans l'index.
Cela est un petit exemple de plusieurs centaines d'url resultante de toutes les combinaisons possibles
Merci
RIACARO a écrit:Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense.
Si ton problème est la présence de "double slash", il devrait suffire d'une ligne de redirection pour toutes les traiter. Un peu comme ceci:
- Code: Tout sélectionner
RewriteRule ^(.*)\/\/(.*)$ $1/$2 [QSA,L,R=301]
(il y a probablement de meilleures regex, mais c'est pas mon fort).
Merci infiniment HawkEye, je pense c'est ce que je cherchais.
Pouviez vous me recommander un article ou un site pour mieux voir le syntaxe de la redirection, je suis pas vraiment connaisseur.
Pour Jean Luc, pourquoi alors tou le monde utilise ce fameux fichier c quoi son réel rapport si on l'utilise.
Merci à tous
Pouviez vous me recommander un article ou un site pour mieux voir le syntaxe de la redirection, je suis pas vraiment connaisseur.
Pour Jean Luc, pourquoi alors tou le monde utilise ce fameux fichier c quoi son réel rapport si on l'utilise.
Merci à tous
Le rôle principal de robots.txt est d'interdire aux robots honnêtes de visiter (crawler) certaines URL.
robots.txt ne sert pas à :
- sécuriser le site (les robots malveillants ne respectent pas les indications se trouvant dans le fichier; ils peuvent même les utiliser pour chercher des informations protégées)
- interdire l'indexation (c'est rare, mais il arrive qu'une page non crawlée soit indexée s'il y a assez de liens qui pointent vers la page)
Pourquoi interdire le crawl de certaines URL:
- pour économiser de la bande passante;
- pour éviter les problèmes de duplicate content.
Jean-Luc
robots.txt ne sert pas à :
- sécuriser le site (les robots malveillants ne respectent pas les indications se trouvant dans le fichier; ils peuvent même les utiliser pour chercher des informations protégées)
- interdire l'indexation (c'est rare, mais il arrive qu'une page non crawlée soit indexée s'il y a assez de liens qui pointent vers la page)
Pourquoi interdire le crawl de certaines URL:
- pour économiser de la bande passante;
- pour éviter les problèmes de duplicate content.
Jean-Luc
Merci Jean Luc, ca devient plus clair comme ca.
Sauf que mon objectif c GG pas les autres moteurs et d'ailleurs c interessant de bloquer ces moteurs malveillants et je pense que ca se fait grace au fichier .htaccess.
Merci
Sauf que mon objectif c GG pas les autres moteurs et d'ailleurs c interessant de bloquer ces moteurs malveillants et je pense que ca se fait grace au fichier .htaccess.
Merci
- Marie-Aude
- WRInaute accro

- Messages: 4920
- Inscription: Lun Juin 05, 2006 14:15
Le fichier robots.txt + la demande de suppression d'url dans GWT c'est très rapide.
Merci Marie Aude, j'ai essayer de faire ca et comme vous le saviez GWT ne supprime les urls que lorsqu'elles sont indiquées dans le robots ou l'entête http est rederigée en 404 ou l'ajout be balise meta robot. mon problème était à cause des slash dans le robots.txt.
Grace aux intervenants j'ai pu trouver une solution qui résoud mon prblème en utilisant les redirection 301 dans le fichier.htaccess.
Merci encore à tous le monde pour leur coopération.
Grace aux intervenants j'ai pu trouver une solution qui résoud mon prblème en utilisant les redirection 301 dans le fichier.htaccess.
Merci encore à tous le monde pour leur coopération.
12 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Déclarer son fichier sitemap dans le fichier robots.txt
- Sortie de GoogleStats v2.01
- Robots.txt : Yahoo supporte les options avancées
- Comment gérer simplement les sitemaps de plusieurs sites au même endroit
- Référencement d'un forum phpBB
- Du nouveau dans le Centre pour Webmasters de Live Search
- Petit changement pour Slurp (le robot de Yahoo)
- Exalead rejoint le protocole Sitemaps.org
- Article sur le fichier .htaccess
- Explications sur le Crawl Caching Proxy de Google
- probleme avec fichier robots.txt fichier bloquer
- Erreurs Robots.txt sans fichier Robots.txt
- Fichier robots efficace?
- Fichier robots txt
- Fichier robots.txt
- Indexation du fichier robots.txt
- Utilisation du fichier robots.txt
- Contenu du fichier robots.txt
- protéger le fichier robots.txt
- Creer un fichier robots.txt?
- Où placer le fichier robots.txt ?
- Wikio et son fichier robots.txt
- [RESOLU] difference fichier robots et htaccess ?
- Index google et fichier robots.txt ?
- Troncature pour un fichier robots.txt
Consultez la description détaillée des produits ou services de Google suivants : Google Feed Fetcher, Google Sitemaps
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités



le forum