Interdire tous les robots sauf quelques uns
Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !
Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !
Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).
7 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
- El Bono
- WRInaute discret

- Messages: 91
- Inscription: 1 Sep 2004
Interdire tous les robots sauf quelques uns
Ca y est, je craque ! J'en ai assez, j'en peux plus...
Je m'explique : mon site contient une base de données d'environ 4000 entrées constamment remis à jour (plusieurs fois par jour) avec des enregistrements ajoutés et/ou supprimés (plus de 200 par jour).
Cette BDD représente un enjeux commercial pour plusieurs sociétés. Des petits malins ont recemment eu la bonne idée de "pomper" (indexer) mon site plusieurs fois par jour pour rapatrier les données dans leur propre index. Je ne connais evidemment pas les technologies utilisées... mais ca tire beaucoup sur ma bande passante parce que c'est fait en général en plein milieu de l'après midi !
Je voudrais savoir :
1. s'il est possible d'interdire ces indexations sauvage au moyens de robots.txt (je ne connais pas la technologie utilisée par les "pompeurs") ?
2. si oui, comment parmétreriez-vous le contenu de robots.txt sachant que je ne désire que l'indexation de Google, Yahoo et MSN et que je veux me prémunir de n'importe quel autre Bot ?
J'avais pensé à quelque chose comme ça :
Je m'explique : mon site contient une base de données d'environ 4000 entrées constamment remis à jour (plusieurs fois par jour) avec des enregistrements ajoutés et/ou supprimés (plus de 200 par jour).
Cette BDD représente un enjeux commercial pour plusieurs sociétés. Des petits malins ont recemment eu la bonne idée de "pomper" (indexer) mon site plusieurs fois par jour pour rapatrier les données dans leur propre index. Je ne connais evidemment pas les technologies utilisées... mais ca tire beaucoup sur ma bande passante parce que c'est fait en général en plein milieu de l'après midi !
Je voudrais savoir :
1. s'il est possible d'interdire ces indexations sauvage au moyens de robots.txt (je ne connais pas la technologie utilisée par les "pompeurs") ?
2. si oui, comment parmétreriez-vous le contenu de robots.txt sachant que je ne désire que l'indexation de Google, Yahoo et MSN et que je veux me prémunir de n'importe quel autre Bot ?
J'avais pensé à quelque chose comme ça :
- Code: Tout sélectionner
User-Agent: Googlebot
Disallow :
User-Agent: Slurp
Disallow :
User-Agent: MSNBot
Disallow :
User-Agent: *
Disallow: /
-

webmasterlamogere - WRInaute passionné

- Messages: 1874
- Inscription: 17 Déc 2006
c'est surement pas par le fichier robots.txt que tu va bloquer des voleurs de contenu : il ne le consulte surement pas. il faut passer par un fichier .htaccess
il faut regarder tes log pour déterminer l'adresse IP des serveurs qui récupèrent le contenu et les bloquer.
le risque est qu'ils changent d'ip une fois démasqués.
il faut regarder tes log pour déterminer l'adresse IP des serveurs qui récupèrent le contenu et les bloquer.
le risque est qu'ils changent d'ip une fois démasqués.
-

webmasterlamogere - WRInaute passionné

- Messages: 1874
- Inscription: 17 Déc 2006
un petit lien qui peut t'aider : http://www.toulouse-renaissance.net/c_o ... ure-ip.htm
- El Bono
- WRInaute discret

- Messages: 91
- Inscription: 1 Sep 2004
Merci webmasterlamogere.
Ton lien est très interessant et je vais utiliser cette méthode qui me parait excellente.
Mais j'ai oublié de préciser que je souhaitais aussi interdire le robot de Voila qui revient lui aussi x fois par jour !!
Ton lien est très interessant et je vais utiliser cette méthode qui me parait excellente.
Mais j'ai oublié de préciser que je souhaitais aussi interdire le robot de Voila qui revient lui aussi x fois par jour !!
-

medium69 - WRInaute passionné

- Messages: 2485
- Inscription: 7 Mai 2005
un truc dans ce genre alors :
- Code: Tout sélectionner
# ---------------------------------------------
# Blocage des aspirateurs et de certains robots
# ---------------------------------------------
RewriteCond %{REQUEST_URI} !^/robots.txt
RewriteCond %{REQUEST_URI} !^/sitemap.xml
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ImageWalker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ShopWiki [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Twiceler-0.9 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} VoilaBot [NC,OR]
RewriteCond %{HTTP_REFERER} http://(www.)?127.0.0.1* [NC,OR]
RewriteCond %{HTTP_REFERER} http://(www.)?example.com*
RewriteRule ^.*$ - [NC,F,L]
-

medium69 - WRInaute passionné

- Messages: 2485
- Inscription: 7 Mai 2005
Le bout de script que je te donne autorise tout le monde à lire le robots.txt, le sitemap, mais interdit tout le reste.
soit par le user agent pour les robot indésirable... ou ceux qui génère trop de 404 (voila par exemple).
soit par le referer pour interdire les indésirables
soit par le user agent pour les robot indésirable... ou ceux qui génère trop de 404 (voila par exemple).
soit par le referer pour interdire les indésirables
7 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Interdire certains robots ? Comment ? Quels robots ?
- Interdire l'acces au fichier Robots
- Faut-il interdire certains robots ?
- Interdire aspirateur et bot via le robots.txt
- Robots.txt interdire une url dynamique
- robots.txt : interdire tout sauf la racine
- interdire un dossier sans htaccess no robots.txt ?
- Interdire le passage des robots avec googlestats
- Interdire des pages dynamiques dans robots.txt
- Robots.txt : interdire une partie de mon site
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
