Robots : Allow et Disallow ?
12 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
Robots : Allow et Disallow ?
Bonjour, je suis entrain de créer mon premier robots.txt mais j'ai des doutes sur certains points.
Voilà, je me suis appercue que sur Google, il y avait des pages de mon site qui ne devraient pas y être, comme mes dossiers de pages ADMIN et autres dossier de modules (news, annuaire, annonces phpmyvisite ...).
Alors, par exemple, si je ne veux pas que les dossiers de mon annuaire soit vu, je dois faire quoi (merci de m'indiquer la bonne solution) :
Mais si je veux bloquer tout le dossier ANNUAIRE mais autorisé 1 des pages, est ce que je dois faire ca (en plus des disallow) :
Et pour finir, si j'ai supprimé une page à la racine de mon site mais que malgrès tout, elle existe toujours dans Google, est ce que je dois la noter comme ca (sans le / devant) ?
Merci d'avance pour vos aides précieuses
Voilà, je me suis appercue que sur Google, il y avait des pages de mon site qui ne devraient pas y être, comme mes dossiers de pages ADMIN et autres dossier de modules (news, annuaire, annonces phpmyvisite ...).
Alors, par exemple, si je ne veux pas que les dossiers de mon annuaire soit vu, je dois faire quoi (merci de m'indiquer la bonne solution) :
- Code: Tout sélectionner
1) User-agent: *
Disallow: /annuaire/admin
Disallow: /annuaire/addout
Disallow: /annuaire/cache
Disallow: /annuaire/gestion
Disallow: /annuaire/im
Disallow: /annuaire/inc
Disallow: /annuaire/lan
Disallow: /annuaire/script
Disallow: /annuaire/.htacsess
Disallow: /annuaire/option.php
Disallow: /annuaire/infos.php
...
- Code: Tout sélectionner
2) User-agent: *
Disallow: /annuaire/
- Code: Tout sélectionner
3) User-agent: *
Disallow: /annuaire
Mais si je veux bloquer tout le dossier ANNUAIRE mais autorisé 1 des pages, est ce que je dois faire ca (en plus des disallow) :
- Code: Tout sélectionner
User-agent: *
Disallow: /annuaire
Allow: /annuaire/index.php
Et pour finir, si j'ai supprimé une page à la racine de mon site mais que malgrès tout, elle existe toujours dans Google, est ce que je dois la noter comme ca (sans le / devant) ?
- Code: Tout sélectionner
User-agent: *
Disallow: test.php
Merci d'avance pour vos aides précieuses
Bonjour,
Pour bloquer tout l'annuaire :
Pour bloquer l'annuaire + une page du répertoire w2 :
Pour bloquer une page à la racine + annuaire + une page du répertoire w2 :
Pour bloquer toutes les pages sauf une :
Utiliser une fonction php
@+
Pour bloquer tout l'annuaire :
- Code: Tout sélectionner
User-agent: *
Disallow: /annuaire/
Pour bloquer l'annuaire + une page du répertoire w2 :
- Code: Tout sélectionner
User-agent: *
Disallow: /annuaire/
Disallow: /w2/page-a-bloquer.php
Pour bloquer une page à la racine + annuaire + une page du répertoire w2 :
- Code: Tout sélectionner
User-agent: *
Disallow: /annuaire/
Disallow: /w2/page-a-bloquer.php
Disallow: /page-a-bloquer.php
Pour bloquer toutes les pages sauf une :
Utiliser une fonction php
@+
Salut et merci
Donc, j'ai compris pour bloquer TOUT un dossier mais si DANS se dossier, il y a 1 seule page que je ne veux pas bloquer, dois je le noter comme ca ?
Pour finir, j'ai une dernière question :
- A l'époque, mon site était en .htm mais depuis 1 an, mes pages sont en .php ... mais Goggle continue à me référencer toutes mes pages .htm alors qu'elles n'existent plus sur mon serveur depuis 1 an.
- Alors, est ce que dois noter TOUTES mes pages .htm a effacer, comme ca :
Ou y a t'il une astuce pour pouvoir supprimer, TOUTES les pages .htm, tous dossiers confondus ?
P.S : je précise que j'ai au moins 300 pages .htm à supprimer de ggogle, et ces pages .htm n'existent plus, ni dans mon ordi, ni sur le net
Merci
Donc, j'ai compris pour bloquer TOUT un dossier mais si DANS se dossier, il y a 1 seule page que je ne veux pas bloquer, dois je le noter comme ca ?
- Code: Tout sélectionner
User-agent: *
Disallow: /annuaire
Allow: /annuaire/index.php
Pour finir, j'ai une dernière question :
- A l'époque, mon site était en .htm mais depuis 1 an, mes pages sont en .php ... mais Goggle continue à me référencer toutes mes pages .htm alors qu'elles n'existent plus sur mon serveur depuis 1 an.
- Alors, est ce que dois noter TOUTES mes pages .htm a effacer, comme ca :
- Code: Tout sélectionner
User-agent: *
Disallow: /jeux/ngage/tr/codes.htm
Disallow: /jeux/tr6/codes.htm
Disallow: /jeux/tr6/savoir.htm
Disallow: /jeux/tr5/fiche.htm
Disallow: /jeux/tr7/scenario.htm
Disallow: /jeux/tr6/commandes.htm
Disallow: /jeux/tr6/mouvements.htm
Disallow: /jeux/tr6/personnages.htm
Disallow: /jeux/tr6/problemes.htm
Disallow: /jeux/tr4/codes.htm
Disallow: /jeux/tr3/codes.htm
Disallow: /jeux/tr2/fiche.htm
Disallow: /achats/jeux.htm
Disallow: /achats/livres.htm
Disallow: /contact.htm
Disallow: /films/angelina/galerie.htm
Disallow: /films/angietr.htm
Disallow: /films/filmtr1.htm
Disallow: /lara/imglara.htm
etc...
Ou y a t'il une astuce pour pouvoir supprimer, TOUTES les pages .htm, tous dossiers confondus ?
P.S : je précise que j'ai au moins 300 pages .htm à supprimer de ggogle, et ces pages .htm n'existent plus, ni dans mon ordi, ni sur le net
Merci
Bonjour,
Attention, "allow" ne fait pas partie du protocole robots.txt, par conséquent son effet peut-être différent suivant les spiders il vaut mieux à mon avis inclure dans l'annuaire une fonction php qui renverrait suivant les cas une balise meta ROBOTS.
Pour ceux qui l'accèptent il me semble qu'il faut plutôt utiliser :
Edit pour précision :
Disallow: /annuaire interdit toutes les pages du dossier annuaire ainsi qu'une éventuelle page annuaire.php
Disallow: /annuaire/ interdit toutes les pages du dossier annuaire mais laisse possible une page annuaire.php.
Attention, "allow" ne fait pas partie du protocole robots.txt, par conséquent son effet peut-être différent suivant les spiders il vaut mieux à mon avis inclure dans l'annuaire une fonction php qui renverrait suivant les cas une balise meta ROBOTS.
Pour ceux qui l'accèptent il me semble qu'il faut plutôt utiliser :
- Code: Tout sélectionner
User-agent: *
Allow: /annuaire/index.php
Disallow: /annuaire
Edit pour précision :
Disallow: /annuaire interdit toutes les pages du dossier annuaire ainsi qu'une éventuelle page annuaire.php
Disallow: /annuaire/ interdit toutes les pages du dossier annuaire mais laisse possible une page annuaire.php.
Dernière édition par serval2a le Jeu Avr 20, 2006 15:59, édité 1 fois.
serval2a a écrit:Attention, "allow" ne fait pas partie du protocole robots.txt, par conséquent son effet peut-être différent suivant les spiders il vaut mieux à mon avis inclure dans l'annuaire une fonction php qui renverrait suivant les cas une balise meta ROBOTS.
Ok mais comment on crée une fonction php ?
Pour la balise méta, je suppose que tu parles du noindex, nofollow ou index, follow ... si c'est ca, oui je connais e tj'utilise pourtoutes les pages de mo nsite, mais apparemment, ca n'empeche pas Google de les référencer quand même.
serval2a a écrit:Pour ceux qui l'accèptent il me semble qu'il faut plutôt utiliser :
- Code: Tout sélectionner
User-agent: *
Allow: /annuaire/index.php
Disallow: /annuaire
Donc, tu préconises de mettre les Allow devant les Disallow ... mais si tu dis que ca n'est pas interprété pareil par tous les robots, vaut mieux que je mette pas de Allow alors, et que je me tappe manuellemement tous mes Dissalow.
Pour mes url en .htm à virer (plus de 300) tu aurai une astuce rapide pour le noter dans mon robots.txt ou je dois là aussi les tapper manuellement ? A moins qu'on puisse faire un truc du genre ? :
- Code: Tout sélectionner
User-agent: *
Disallow: /annuaire/.htm
Disallow: /*.htm
etc ...
Merci d'avance.
Re,
Sans être sûr et donc c'est à corriger, en plaçant une fonction de ce style à la place de la meta relative aux robots :
Sans être sûr et donc c'est à corriger, en plaçant une fonction de ce style à la place de la meta relative aux robots :
- Code: Tout sélectionner
<?php
$_SERVER['PHP_SELF']==$url
if {
$url=="http://ndd/index"
echo"<meta name="ROBOTS" content="INDEX, FOLLOW">";
}
else
{
echo "<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
}
?>
Ah ok, merci j'ai tout compris (normalement)
Juste pour savoir ... c'est normal qu'on peut voir mon fichier robots.txt http://www.laraider.com/robots.txt ... ou il y a un truc pour que ca se vois pas
Merci.
Juste pour savoir ... c'est normal qu'on peut voir mon fichier robots.txt http://www.laraider.com/robots.txt ... ou il y a un truc pour que ca se vois pas
laraider a écrit:Ah ok, merci j'ai tout compris (normalement)
Juste pour savoir ... c'est normal qu'on peut voir mon fichier robots.txt http://www.laraider.com/robots.txt ... ou il y a un truc pour que ca se vois pasMerci.
C'est normal il faut que ce fichier soit en libre accès pour être lu par les robots sinon il n'a plus la moindre utilité
Bonjour,
Ca m'étonnerai quand même qu'un pirate lise un robots.txt avant d'agir.
Le robots.txt ne sert qu'a indiquer que certaines parties du site pourtant liées par d'autres sont interdites d'indexation.
Exemple ta page X contient la photo Y du répertoire Z, le moteur indexera la page X mais l'accès au répertoire Z lui étant interdit par le robots.txt, il n'indexera pas la photo Y.
@+
Ca m'étonnerai quand même qu'un pirate lise un robots.txt avant d'agir.
Le robots.txt ne sert qu'a indiquer que certaines parties du site pourtant liées par d'autres sont interdites d'indexation.
Exemple ta page X contient la photo Y du répertoire Z, le moteur indexera la page X mais l'accès au répertoire Z lui étant interdit par le robots.txt, il n'indexera pas la photo Y.
@+
Bonjour laraider,
Quelques petites remarques:
1. Disallow: /*.htm$
Cette ligne dans ton robots.txt interdit aux robots de Google d'accéder aux adresses .htm de ton site. Comme Google respecte robots.txt, Google ne vient plus voir ces adresses. Il ne voit donc pas la redirection 301 que tu y as placée. Recommendation : supprimer ce Disallow: néfaste.
2. Combiner robots.txt et balise META "robots"
Il est parfaitement possible d'utiliser robots.txt et balise META "robots"sur le même site, mais normalement pas pour les mêmes pages. Comme au paragraphe précédent, si robots.txt interdit l'accès aux adresses des pages, les robots ne liront pas la balise META.
3. robots.txt et sécurité
Le rôle de robots.txt n'est pas de sécuriser un site. robots.txt est un fichier qui permet au webmaster d'informer les robots. Les "gentils" robots respectent ses directives; les "méchants" robots utilisent ces directives à leur profit. Si des parties d'un site doivent être protégées, il faut utiliser .htaccess et .htpasswd ou d'autres techniques adaptées.
4. Directive Allow:
A éviter (expliqué plus haut par serval2a).
Plus d' infos : FAQ - Protocole d'Exclusion des Robots.
Jean-Luc
Quelques petites remarques:
1. Disallow: /*.htm$
Cette ligne dans ton robots.txt interdit aux robots de Google d'accéder aux adresses .htm de ton site. Comme Google respecte robots.txt, Google ne vient plus voir ces adresses. Il ne voit donc pas la redirection 301 que tu y as placée. Recommendation : supprimer ce Disallow: néfaste.
2. Combiner robots.txt et balise META "robots"
Il est parfaitement possible d'utiliser robots.txt et balise META "robots"sur le même site, mais normalement pas pour les mêmes pages. Comme au paragraphe précédent, si robots.txt interdit l'accès aux adresses des pages, les robots ne liront pas la balise META.
3. robots.txt et sécurité
Le rôle de robots.txt n'est pas de sécuriser un site. robots.txt est un fichier qui permet au webmaster d'informer les robots. Les "gentils" robots respectent ses directives; les "méchants" robots utilisent ces directives à leur profit. Si des parties d'un site doivent être protégées, il faut utiliser .htaccess et .htpasswd ou d'autres techniques adaptées.
4. Directive Allow:
A éviter (expliqué plus haut par serval2a).
Plus d' infos : FAQ - Protocole d'Exclusion des Robots.
Jean-Luc
12 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Robots.txt : Yahoo supporte les options avancées
- Sortie de GoogleStats v2.01
- Les crawlers de Yahoo!
- Les robots MSNbot de Live Search
- Déclarer son fichier sitemap dans le fichier robots.txt
- Petit changement pour Slurp (le robot de Yahoo)
- La balise meta NOYDIR de Yahoo
- Comment gérer simplement les sitemaps de plusieurs sites au même endroit
- Alexa lance un moteur de recherche d'images
- Sortie officielle de GoogleStats v2.0 !
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités





le forum