problème avec le fichier robots.txt

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

RIACARO
Nouveau WRInaute
 
Messages: 11
Inscription: Jeu Fév 07, 2008 17:31

problème avec le fichier robots.txt

Message le Jeu Mai 08, 2008 8:30

Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site http://www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci


UsagiYojimbo
WRInaute accro
WRInaute accro
 
Messages: 5110
Inscription: Mer Nov 23, 2005 10:38

Re: problème avec le fichier robots.txt

Message le Jeu Mai 08, 2008 8:32

RIACARO a écrit:Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site http://www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci


Tu devrais passer un coup de Xenu Link Sleuth sur ton site, afin de prendre connaissance de l'ensemble des url qui s'y trouve. EN général c'est souvent une faute de frappe qui a été oubliée dans le html.

RIACARO
Nouveau WRInaute
 
Messages: 11
Inscription: Jeu Fév 07, 2008 17:31

Message le Jeu Mai 08, 2008 8:48

Salut, en effet l'ensemble des urls est abstrait. je m'explique, j'utilise un fichier php pour génerer les urls et il est clair que GG essaye toutes les combinaisons possibles. Mon probème actuellement se sont les urls qui contiennent deux slashs consécutives(le robots.txt n'arrive pas à bloquer l'indexation de ce type de page).
Merci pour le l'utilitaire Usagi, je suis entrain de le tester.


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 2654
Inscription: Lun Mai 03, 2004 14:48

Re: problème avec le fichier robots.txt

Message le Jeu Mai 08, 2008 9:15

RIACARO a écrit:Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg.
Ben, non!

robots.txt n'est pas la bonne solution pour enlever des pages de l'index de Google. Si une page inexistante renvoie un code 404 (not found), Google finira par la supprimer par lui-même. Si ton site ne renvoie pas de code 404 quand une page n'existe pas, ton problème va continuer à exister.

Et puis, pourquoi supprimer ces URL de l'index ? Tu pourrais les rediriger vers des URL existantes (redirection 301) plutôt que de gaspiller ces "mauvaises" URL indexées.

Jean-Luc

RIACARO
Nouveau WRInaute
 
Messages: 11
Inscription: Jeu Fév 07, 2008 17:31

Message le Jeu Mai 08, 2008 9:35

Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense. je clarifie encore plus mon problème: le site propose des produits de séjours linguistiques et d'autres dérivés, les programmes changent toujours (ya quelques uns qui sont supprimés, d'autres modifiés...). Les urls sont la combinaison de champs dans la base de données et lorsque des champs sont supprimés l'url change automatiquement avec la même squelette du site.
Je vous donne des exemples:
http://www.nacel.org/cdlp/Work-Experien ... h-JUK2.php
ca correspond à un produit qui a été supprimé. Dans ce cas c seulement le contenu de la page qui est vide.
www.nacel.org/cdlp/Summer-Camps/United- ... glish-.php
pour ce cas la reference du produit n'existe plus mais l'url existe dans l'index.
Cela est un petit exemple de plusieurs centaines d'url resultante de toutes les combinaisons possibles
Merci


HawkEye
Modérateur
Modérateur
 
Messages: 14967
Inscription: Lun Fév 23, 2004 12:33

Message le Jeu Mai 08, 2008 12:17

RIACARO a écrit:Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense.


Si ton problème est la présence de "double slash", il devrait suffire d'une ligne de redirection pour toutes les traiter. Un peu comme ceci:

Code: Tout sélectionner
RewriteRule ^(.*)\/\/(.*)$ $1/$2 [QSA,L,R=301]


(il y a probablement de meilleures regex, mais c'est pas mon fort).

RIACARO
Nouveau WRInaute
 
Messages: 11
Inscription: Jeu Fév 07, 2008 17:31

Message le Jeu Mai 08, 2008 12:39

Merci infiniment HawkEye, je pense c'est ce que je cherchais.
Pouviez vous me recommander un article ou un site pour mieux voir le syntaxe de la redirection, je suis pas vraiment connaisseur.
Pour Jean Luc, pourquoi alors tou le monde utilise ce fameux fichier c quoi son réel rapport si on l'utilise.
Merci à tous

RIACARO
Nouveau WRInaute
 
Messages: 11
Inscription: Jeu Fév 07, 2008 17:31

Message le Jeu Mai 08, 2008 12:42

son réel apport je voulais dire. excusez
Merci


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 2654
Inscription: Lun Mai 03, 2004 14:48

Message le Jeu Mai 08, 2008 13:36

Le rôle principal de robots.txt est d'interdire aux robots honnêtes de visiter (crawler) certaines URL.

robots.txt ne sert pas à :
- sécuriser le site (les robots malveillants ne respectent pas les indications se trouvant dans le fichier; ils peuvent même les utiliser pour chercher des informations protégées)
- interdire l'indexation (c'est rare, mais il arrive qu'une page non crawlée soit indexée s'il y a assez de liens qui pointent vers la page)

Pourquoi interdire le crawl de certaines URL:
- pour économiser de la bande passante;
- pour éviter les problèmes de duplicate content.

Jean-Luc

RIACARO
Nouveau WRInaute
 
Messages: 11
Inscription: Jeu Fév 07, 2008 17:31

Message le Jeu Mai 08, 2008 14:17

Merci Jean Luc, ca devient plus clair comme ca.
Sauf que mon objectif c GG pas les autres moteurs et d'ailleurs c interessant de bloquer ces moteurs malveillants et je pense que ca se fait grace au fichier .htaccess.
Merci

Marie-Aude
WRInaute accro
WRInaute accro
 
Messages: 4920
Inscription: Lun Juin 05, 2006 14:15

Message le Jeu Mai 08, 2008 15:36

Le fichier robots.txt + la demande de suppression d'url dans GWT c'est très rapide.

RIACARO
Nouveau WRInaute
 
Messages: 11
Inscription: Jeu Fév 07, 2008 17:31

Message le Jeu Mai 08, 2008 15:47

Merci Marie Aude, j'ai essayer de faire ca et comme vous le saviez GWT ne supprime les urls que lorsqu'elles sont indiquées dans le robots ou l'entête http est rederigée en 404 ou l'ajout be balise meta robot. mon problème était à cause des slash dans le robots.txt.
Grace aux intervenants j'ai pu trouver une solution qui résoud mon prblème en utilisant les redirection 301 dans le fichier.htaccess.
Merci encore à tous le monde pour leur coopération.


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Feed Fetcher, Google Sitemaps



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités