Robots : Allow et Disallow ?

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

laraider
Nouveau WRInaute
 
Messages: 20
Inscription: Mar Avr 04, 2006 7:51

Robots : Allow et Disallow ?

Message le Jeu Avr 20, 2006 14:39

Bonjour, je suis entrain de créer mon premier robots.txt mais j'ai des doutes sur certains points.

Voilà, je me suis appercue que sur Google, il y avait des pages de mon site qui ne devraient pas y être, comme mes dossiers de pages ADMIN et autres dossier de modules (news, annuaire, annonces phpmyvisite ...).

Alors, par exemple, si je ne veux pas que les dossiers de mon annuaire soit vu, je dois faire quoi (merci de m'indiquer la bonne solution) :

Code: Tout sélectionner
1) User-agent: *
Disallow: /annuaire/admin
Disallow: /annuaire/addout
Disallow: /annuaire/cache
Disallow: /annuaire/gestion
Disallow: /annuaire/im
Disallow: /annuaire/inc
Disallow: /annuaire/lan
Disallow: /annuaire/script
Disallow: /annuaire/.htacsess
Disallow: /annuaire/option.php
Disallow: /annuaire/infos.php
...


Code: Tout sélectionner
2) User-agent: *
Disallow: /annuaire/


Code: Tout sélectionner
3) User-agent: *
Disallow: /annuaire


Mais si je veux bloquer tout le dossier ANNUAIRE mais autorisé 1 des pages, est ce que je dois faire ca (en plus des disallow) :

Code: Tout sélectionner
User-agent: *
Disallow: /annuaire
Allow: /annuaire/index.php


Et pour finir, si j'ai supprimé une page à la racine de mon site mais que malgrès tout, elle existe toujours dans Google, est ce que je dois la noter comme ca (sans le / devant) ?

Code: Tout sélectionner
User-agent: *
Disallow: test.php


Merci d'avance pour vos aides précieuses :)


serval2a
WRInaute accro
WRInaute accro
 
Messages: 3453
Inscription: Lun Mar 21, 2005 18:17

Message le Jeu Avr 20, 2006 15:04

Bonjour,

Pour bloquer tout l'annuaire :
Code: Tout sélectionner
User-agent: *
Disallow: /annuaire/


Pour bloquer l'annuaire + une page du répertoire w2 :
Code: Tout sélectionner
User-agent: *
Disallow: /annuaire/
Disallow: /w2/page-a-bloquer.php


Pour bloquer une page à la racine + annuaire + une page du répertoire w2 :
Code: Tout sélectionner
User-agent: *
Disallow: /annuaire/
Disallow: /w2/page-a-bloquer.php
Disallow: /page-a-bloquer.php


Pour bloquer toutes les pages sauf une :
Utiliser une fonction php

@+

laraider
Nouveau WRInaute
 
Messages: 20
Inscription: Mar Avr 04, 2006 7:51

Message le Jeu Avr 20, 2006 15:34

Salut et merci :)

Donc, j'ai compris pour bloquer TOUT un dossier mais si DANS se dossier, il y a 1 seule page que je ne veux pas bloquer, dois je le noter comme ca ?

Code: Tout sélectionner
User-agent: *
Disallow: /annuaire
Allow: /annuaire/index.php


Pour finir, j'ai une dernière question :
- A l'époque, mon site était en .htm mais depuis 1 an, mes pages sont en .php ... mais Goggle continue à me référencer toutes mes pages .htm alors qu'elles n'existent plus sur mon serveur depuis 1 an.
- Alors, est ce que dois noter TOUTES mes pages .htm a effacer, comme ca :

Code: Tout sélectionner
User-agent: *
Disallow: /jeux/ngage/tr/codes.htm
Disallow: /jeux/tr6/codes.htm
Disallow: /jeux/tr6/savoir.htm
Disallow: /jeux/tr5/fiche.htm
Disallow: /jeux/tr7/scenario.htm
Disallow: /jeux/tr6/commandes.htm
Disallow: /jeux/tr6/mouvements.htm
Disallow: /jeux/tr6/personnages.htm
Disallow: /jeux/tr6/problemes.htm
Disallow: /jeux/tr4/codes.htm
Disallow: /jeux/tr3/codes.htm
Disallow: /jeux/tr2/fiche.htm
Disallow: /achats/jeux.htm
Disallow: /achats/livres.htm
Disallow: /contact.htm
Disallow: /films/angelina/galerie.htm
Disallow: /films/angietr.htm
Disallow: /films/filmtr1.htm
Disallow: /lara/imglara.htm
etc...


Ou y a t'il une astuce pour pouvoir supprimer, TOUTES les pages .htm, tous dossiers confondus ?
P.S : je précise que j'ai au moins 300 pages .htm à supprimer de ggogle, et ces pages .htm n'existent plus, ni dans mon ordi, ni sur le net

Merci :)


serval2a
WRInaute accro
WRInaute accro
 
Messages: 3453
Inscription: Lun Mar 21, 2005 18:17

Message le Jeu Avr 20, 2006 15:49

Bonjour,

Attention, "allow" ne fait pas partie du protocole robots.txt, par conséquent son effet peut-être différent suivant les spiders il vaut mieux à mon avis inclure dans l'annuaire une fonction php qui renverrait suivant les cas une balise meta ROBOTS.

Pour ceux qui l'accèptent il me semble qu'il faut plutôt utiliser :
Code: Tout sélectionner
User-agent: *
Allow: /annuaire/index.php
Disallow: /annuaire


Edit pour précision :
Disallow: /annuaire interdit toutes les pages du dossier annuaire ainsi qu'une éventuelle page annuaire.php
Disallow: /annuaire/ interdit toutes les pages du dossier annuaire mais laisse possible une page annuaire.php.
Dernière édition par serval2a le Jeu Avr 20, 2006 15:59, édité 1 fois.

laraider
Nouveau WRInaute
 
Messages: 20
Inscription: Mar Avr 04, 2006 7:51

Message le Jeu Avr 20, 2006 15:57

serval2a a écrit:Attention, "allow" ne fait pas partie du protocole robots.txt, par conséquent son effet peut-être différent suivant les spiders il vaut mieux à mon avis inclure dans l'annuaire une fonction php qui renverrait suivant les cas une balise meta ROBOTS.

Ok mais comment on crée une fonction php ?
Pour la balise méta, je suppose que tu parles du noindex, nofollow ou index, follow ... si c'est ca, oui je connais e tj'utilise pourtoutes les pages de mo nsite, mais apparemment, ca n'empeche pas Google de les référencer quand même.

serval2a a écrit:Pour ceux qui l'accèptent il me semble qu'il faut plutôt utiliser :
Code: Tout sélectionner
User-agent: *
Allow: /annuaire/index.php
Disallow: /annuaire

Donc, tu préconises de mettre les Allow devant les Disallow ... mais si tu dis que ca n'est pas interprété pareil par tous les robots, vaut mieux que je mette pas de Allow alors, et que je me tappe manuellemement tous mes Dissalow.

Pour mes url en .htm à virer (plus de 300) tu aurai une astuce rapide pour le noter dans mon robots.txt ou je dois là aussi les tapper manuellement ? A moins qu'on puisse faire un truc du genre ? :
Code: Tout sélectionner
User-agent: *
Disallow: /annuaire/.htm
Disallow: /*.htm
etc ...


Merci d'avance.


serval2a
WRInaute accro
WRInaute accro
 
Messages: 3453
Inscription: Lun Mar 21, 2005 18:17

Message le Jeu Avr 20, 2006 16:30

Re,

Sans être sûr et donc c'est à corriger, en plaçant une fonction de ce style à la place de la meta relative aux robots :
Code: Tout sélectionner
<?php
$_SERVER['PHP_SELF']==$url
if   {
$url=="http://ndd/index"
echo"<meta name="ROBOTS" content="INDEX, FOLLOW">";
}
else
{
echo "<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
}
?>

laraider
Nouveau WRInaute
 
Messages: 20
Inscription: Mar Avr 04, 2006 7:51

Message le Jeu Avr 20, 2006 17:36

Ah ok, merci j'ai tout compris (normalement) :)

Juste pour savoir ... c'est normal qu'on peut voir mon fichier robots.txt http://www.laraider.com/robots.txt ... ou il y a un truc pour que ca se vois pas :) Merci.

laraider
Nouveau WRInaute
 
Messages: 20
Inscription: Mar Avr 04, 2006 7:51

Message le Sam Sep 23, 2006 2:36

Up !!!


keroin
WRInaute accro
WRInaute accro
 
Messages: 2299
Inscription: Sam Avr 29, 2006 16:33

Message le Sam Sep 23, 2006 3:55

laraider a écrit:Ah ok, merci j'ai tout compris (normalement) :)

Juste pour savoir ... c'est normal qu'on peut voir mon fichier robots.txt http://www.laraider.com/robots.txt ... ou il y a un truc pour que ca se vois pas :) Merci.

C'est normal il faut que ce fichier soit en libre accès pour être lu par les robots sinon il n'a plus la moindre utilité :wink:

laraider
Nouveau WRInaute
 
Messages: 20
Inscription: Mar Avr 04, 2006 7:51

Message le Sam Sep 23, 2006 3:57

Bon/soir/jour :)

Oui mais du coup, on voit les sections que je veux pas qu'on trouve et on peux essayer d'y aller pour me pirater ... non ?


serval2a
WRInaute accro
WRInaute accro
 
Messages: 3453
Inscription: Lun Mar 21, 2005 18:17

Message le Sam Sep 23, 2006 8:41

Bonjour,
Ca m'étonnerai quand même qu'un pirate lise un robots.txt avant d'agir.
Le robots.txt ne sert qu'a indiquer que certaines parties du site pourtant liées par d'autres sont interdites d'indexation.

Exemple ta page X contient la photo Y du répertoire Z, le moteur indexera la page X mais l'accès au répertoire Z lui étant interdit par le robots.txt, il n'indexera pas la photo Y.

@+


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 2661
Inscription: Lun Mai 03, 2004 14:48

Message le Sam Sep 23, 2006 9:58

Bonjour laraider,

Quelques petites remarques:

1. Disallow: /*.htm$
Cette ligne dans ton robots.txt interdit aux robots de Google d'accéder aux adresses .htm de ton site. Comme Google respecte robots.txt, Google ne vient plus voir ces adresses. Il ne voit donc pas la redirection 301 que tu y as placée. Recommendation : supprimer ce Disallow: néfaste.

2. Combiner robots.txt et balise META "robots"
Il est parfaitement possible d'utiliser robots.txt et balise META "robots"sur le même site, mais normalement pas pour les mêmes pages. Comme au paragraphe précédent, si robots.txt interdit l'accès aux adresses des pages, les robots ne liront pas la balise META.

3. robots.txt et sécurité
Le rôle de robots.txt n'est pas de sécuriser un site. robots.txt est un fichier qui permet au webmaster d'informer les robots. Les "gentils" robots respectent ses directives; les "méchants" robots utilisent ces directives à leur profit. Si des parties d'un site doivent être protégées, il faut utiliser .htaccess et .htpasswd ou d'autres techniques adaptées.

4. Directive Allow:
A éviter (expliqué plus haut par serval2a).

Plus d' infos : FAQ - Protocole d'Exclusion des Robots.

Jean-Luc


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités