Exclure les robots indésirable : 2 méthodes
14 messages
• Page 1 sur 1
Consultez la formation URL Rewriting et sites dynamiques de WebRankInfo / Ranking Metrics
- bjp
- WRInaute impliqué

- Messages: 602
- Inscription: 12 Mai 2003
Exclure les robots indésirable : 2 méthodes
Voilà, après quelques recherches et surtout après avoir constaté les limites du fichier robots.txt pour exclure les robots indésirables, j'ai vu qu'il est possible d'inscrire des lignes dans le fichier htaccess.
J'ai trouvé 2 manières dont voici des extraits.
La première façon est semble t il très complète mais donne un fichier htacces de 13 k
La seconde manière est la suivante :
D'après vous, quelle manière est la meilleure ? La première solution avec un fichier de 13 k n'allourdit elle pas trop un site ?
J'ai trouvé 2 manières dont voici des extraits.
La première façon est semble t il très complète mais donne un fichier htacces de 13 k
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} .*almaden* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Anarchie* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*ASPSeek* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Atomz* [OR]
RewriteCond %{HTTP_USER_AGENT} .*attach* [OR]
RewriteCond %{HTTP_USER_AGENT} .*autoemailspider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BackWeb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bandit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BatchFTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*bdfetch* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*BlackWidow* [OR]
RewriteCond %{HTTP_USER_AGENT} .*bmclient* [OR]
RewriteCond %{HTTP_USER_AGENT} .*bot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bot\ mailto:craftbot@yahoo.com* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bot\mailto:craftbot@yahoo.com* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Buddy* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bullseye* [OR]
RewriteCond %{HTTP_USER_AGENT} .*bumblebee* [OR]
RewriteCond %{HTTP_USER_AGENT} .*capture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPicker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPickerElite* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPickerSE* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ChinaClaw* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CICC* [OR]
RewriteCond %{HTTP_USER_AGENT} .*clipping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*collage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Collector* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Copier* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Crescent* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Crescent.*Internet.*ToolPak.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*christcrawler* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Custo* [OR]
RewriteCond %{HTTP_USER_AGENT} .*DA* [OR]
RewriteCond %{HTTP_USER_AGENT} .*diagem* [OR]
RewriteCond %{HTTP_USER_AGENT} .*DIIbot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*DISCo* [OR]
RewriteCond %{HTTP_USER_AGENT} .*DISCo\ Pump* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Download* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Download\ Demon* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Download\ Wonder* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Download\Demon* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Download\Wonder* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Downloader* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Drip* [OR]
RewriteCond %{HTTP_USER_AGENT} .*DSurf15a* [OR]
RewriteCond %{HTTP_USER_AGENT} .*dual*proxy* [OR]
RewriteCond %{HTTP_USER_AGENT} .*easydl* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EasyDL/2.99* [OR]
RewriteCond %{HTTP_USER_AGENT} .*eCatch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*efp@gmx\.net* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EirGrabber* [OR]
RewriteCond %{HTTP_USER_AGENT} .*email* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EmailCollector* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EmailSiphon* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EmailWolf* [OR]
RewriteCond %{HTTP_USER_AGENT} .*express* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Express\ WebPictures* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Express\WebPictures* [OR]
RewriteCond %{HTTP_USER_AGENT} .*extractor* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ExtractorPro* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EyeNetIE* [OR]
RewriteCond %{HTTP_USER_AGENT} .*fetch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*FileHound* [OR]
RewriteCond %{HTTP_USER_AGENT} .*FlashGet* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*FlickBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*FrontPage* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GetRight* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GetSmart* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GetWeb!* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GetWebPage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*gigabaz* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Go!Zilla* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Go-Ahead-Got-It* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GornKer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*gotit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*grab* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Grabber* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GrabNet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Grafula* [OR]
RewriteCond %{HTTP_USER_AGENT} .*grub* [OR]
RewriteCond %{HTTP_USER_AGENT} .*grub-client* [OR]
RewriteCond %{HTTP_USER_AGENT} .*hloader* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HMView* [OR]
RewriteCond %{HTTP_USER_AGENT} .*http* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTPConnect* [OR]
RewriteCond %{HTTP_USER_AGENT} .*httpdown* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Image\ Stripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Image\ Sucker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*imagefetch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Indy*Library* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Indy\ Library* [OR]
RewriteCond %{HTTP_USER_AGENT} .*informant* [OR]
RewriteCond %{HTTP_USER_AGENT} .*InterGET* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Internet\ Ninja* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Internet\Ninja* [OR]
RewriteCond %{HTTP_USER_AGENT} .*InternetLinkAgent* [OR]
RewriteCond %{HTTP_USER_AGENT} .*InternetSeer.com* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Iria* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Irvine* [OR]
RewriteCond %{HTTP_USER_AGENT} .*JBH*Agent* [OR]
RewriteCond %{HTTP_USER_AGENT} .*JetCar* [OR]
RewriteCond %{HTTP_USER_AGENT} .*JOC* [OR]
RewriteCond %{HTTP_USER_AGENT} .*JOC\ Web\ Spider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*JustView* [OR]
RewriteCond %{HTTP_USER_AGENT} .*larbin* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LeechFTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LexiBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*lftp* [OR]
RewriteCond %{HTTP_USER_AGENT} .*likse* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Link* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Link*Sleuth* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LINKS\ ARoMATIZED* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LinkWalker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*lotus* [OR]
RewriteCond %{HTTP_USER_AGENT} .*lwp-trivial* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Magnet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Mag-Net* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Mass\ Downloader* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Mass\Downloader* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Memo* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Microsoft.URL* [OR]
RewriteCond %{HTTP_USER_AGENT} .*MIDown\ tool* [OR]
RewriteCond %{HTTP_USER_AGENT} .*MIDown\tool* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Mirror* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Mister\ PiX* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Mister\PiX* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Mozilla*MSIECrawler* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Mozilla.*Indy* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Mozilla.*NEWT* [OR]
RewriteCond %{HTTP_USER_AGENT} .*MSProxy* [OR]
RewriteCond %{HTTP_USER_AGENT} .*multithreaddb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*nationaldirectory* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Navroad* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NearSite* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Net\ Vampire* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Net\Vampire* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetAnts* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetMechanic* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetSpider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetZIP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NICErsPRO* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Ninja* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*obot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Octopus* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Offline* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Offline\ Explorer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Offline\ Navigator* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Offline\Explorer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Offline\Navigator* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Offline\Explorer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Offline\Navigator* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Openfind* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PageGrabber* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Papa\ Foto* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Papa\Foto* [OR]
RewriteCond %{HTTP_USER_AGENT} .*pavuk* [OR]
RewriteCond %{HTTP_USER_AGENT} .*pcBrowser* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PersonaPilot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Ping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PingALink* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Pockey* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Proxy* [OR]
RewriteCond %{HTTP_USER_AGENT} .*psbot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Pump* [OR]
RewriteCond %{HTTP_USER_AGENT} .*QRVA* [OR]
RewriteCond %{HTTP_USER_AGENT} .*RealDownload* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Reaper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Recorder* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ReGet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*replacer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SearchExpress* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Seeker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Siphon* [OR]
RewriteCond %{HTTP_USER_AGENT} .*site* [OR]
RewriteCond %{HTTP_USER_AGENT} .*sitecheck.internetseer.com* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SiteSnagger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Slurp* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*SlySearch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SmartDownload* [OR]
RewriteCond %{HTTP_USER_AGENT} .*snagger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Snake* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SpaceBison* [OR]
RewriteCond %{HTTP_USER_AGENT} .*spider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Sqworm* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Strip* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Stripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Sucker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SuperBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SuperHTTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Surf* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Surfbot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*surfcontrol* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SurfWalker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SurveyBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Szukacz* [OR]
RewriteCond %{HTTP_USER_AGENT} .*tAkeOut* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Teleport* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Teleport\ Pro* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Telesoft* [OR]
RewriteCond %{HTTP_USER_AGENT} .*turingos* [OR]
RewriteCond %{HTTP_USER_AGENT} .*TurnitinBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*TV33_Mercator* [OR]
RewriteCond %{HTTP_USER_AGENT} .*URLSpiderPro* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Vacuum* [OR]
RewriteCond %{HTTP_USER_AGENT} .*vagabondo* [OR]
RewriteCond %{HTTP_USER_AGENT} .*vayala* [OR]
RewriteCond %{HTTP_USER_AGENT} .*visibilitygap* [OR]
RewriteCond %{HTTP_USER_AGENT} .*VoidEYE* [OR]
RewriteCond %{HTTP_USER_AGENT} .*watcher* [OR]
RewriteCond %{HTTP_USER_AGENT} .*web* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Web\ Data\ Extractor* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Web\ Downloader* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Web\ Image\ Collector* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Web\ Sucker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Web\Image\Collector* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Web\Sucker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebAuto* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebBandit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCapture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webclipping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*webcollage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCopier* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebEMailExtrac* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebFetch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebGo\ IS* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebHook* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webinator* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebLeacher* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebMiner* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebMirror* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebReaper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebSauger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Website* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Website\ eXtractor* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Website\ Quester* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webster* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebStripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebStripper/2.09* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebWhacker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebZIP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Wget* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Whacker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*whizbang* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Widow* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Wweb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WWWOFFLE* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Xaldon* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Xaldon\ WebSpider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*x-Tractor* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Zeus* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Zeus.*Webster* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ZyBorg*
RewriteRule ^.*$ http://www.autre_site.com [R,L]
La seconde manière est la suivante :
SetEnvIfNoCase User-Agent "^EmailSiphon" bad_bot
SetEnvIfNoCase User-Agent "^EmailWolf" bad_bot
SetEnvIfNoCase User-Agent "^ExtractorPro" bad_bot
SetEnvIfNoCase User-Agent "^CherryPicker" bad_bot
SetEnvIfNoCase User-Agent "^NICErsPRO" bad_bot
SetEnvIfNoCase User-Agent "^Teleport" bad_bot
SetEnvIfNoCase User-Agent "^EmailCollector" bad_bot
SetEnvIfNoCase User-Agent "^LinkWalker" bad_bot
SetEnvIfNoCase User-Agent "^Zeus" bad_bot
<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
D'après vous, quelle manière est la meilleure ? La première solution avec un fichier de 13 k n'allourdit elle pas trop un site ?
-

WebRankInfo - Administrateur du site

- Messages: 19415
- Inscription: 19 Avr 2002
mon .htaccess fait 19Ko : trouvez-vous la navigation si lente que ça ? je ne sais pas s'il y a une limite raisonnable
-

Qaghan - WRInaute occasionnel

- Messages: 316
- Inscription: 11 Juin 2003
Je ne porte pas de jugement mais la premiere methode ne peut etre utilisee que sur les hebergements supportant l'UR, alors que la deuxieme semble plus universelle...
---
L'utilisation du joker * dans la definition des expressions regulieres des mauvais bots permet quelques petites optimisations:
La deuxieme ligne est superflue car tout UA satisfaisant celle-ci satisfait aussi la premiere...
---
Quoiqu'il en soit si je devais sciemment programmer un robot irrespectueux (dont l'ignorance du fichier robots.txt est un symptôme), je m'arrangerai pour generer des UA aleatoires...
Olivier,
---
L'utilisation du joker * dans la definition des expressions regulieres des mauvais bots permet quelques petites optimisations:
- Code: Tout sélectionner
RewriteCond %{HTTP_USER_AGENT} .*WebStripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebStripper/2.09* [OR]
La deuxieme ligne est superflue car tout UA satisfaisant celle-ci satisfait aussi la premiere...
---
Quoiqu'il en soit si je devais sciemment programmer un robot irrespectueux (dont l'ignorance du fichier robots.txt est un symptôme), je m'arrangerai pour generer des UA aleatoires...
Olivier,
-

Kmacleod - WRInaute accro

- Messages: 3418
- Inscription: 28 Nov 2002
jmarc a écrit:RewriteCond %{HTTP_USER_AGENT} .*WebStripper* [OR]
Cette ré-écriture est générique, c'est à dire que tu peux exclure aussi l'agent qui evoluerai pour devenir WebStripper-v2. Avec le première ecriture, le robot ne serait pas arrété.
=>milkiway
Exclure un robot permet de limier la consommation de bande passante ou de hits pour les robots qui n'apportent rien au site (langue differente ou robot mal intentionnés)
-

Kmacleod - WRInaute accro

- Messages: 3418
- Inscription: 28 Nov 2002
13 ko est un peu beaucoup, d'autant qu'il y a des robots qui ne passent pas sur tout les sites.
Le mieux est de mettre à jour le fichier en fonction de ce que l'on voit dans les logs, ou dans les stats.
Interdire certains robots de mail ne sert à rien, si par exemple il n'y a pas d'adresse mai sur son site, ou si les adresses mail sont déjà protégées.
Le mieux est de mettre à jour le fichier en fonction de ce que l'on voit dans les logs, ou dans les stats.
Interdire certains robots de mail ne sert à rien, si par exemple il n'y a pas d'adresse mai sur son site, ou si les adresses mail sont déjà protégées.
-

Kmacleod - WRInaute accro

- Messages: 3418
- Inscription: 28 Nov 2002
milkiway a écrit:Adresses email protégées ?
Oui en cryptant une adresse email
http://caspam.org/cas_cryptemail.html
D'autres solutions sont possbiles auprès des pro de la sécurité de webrankinfo, qui ont surement d'autres bons liens dans leur favoris.
Sinon essaye d'autres discussions de solution anti spam sur webrankinfo
- stephanelhomme
- Nouveau WRInaute

- Messages: 6
- Inscription: 26 Avr 2005
Bonjour,
Comme le dit si bien Qaghan, il suffit que les robots changent d'UA (un UA vide par exemple) pour contourner le restrictions du fichier htaccess.... Y a pas une autre methode plus efficace pour determiner si un robot arrive (peut etre avec un bout de code php ) ?
Stéphane
Comme le dit si bien Qaghan, il suffit que les robots changent d'UA (un UA vide par exemple) pour contourner le restrictions du fichier htaccess.... Y a pas une autre methode plus efficace pour determiner si un robot arrive (peut etre avec un bout de code php ) ?
Stéphane
14 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation URL Rewriting et sites dynamiques : apprenez comment mettre en place la réécriture d'URL, comment optimiser vos URL et profiter de vos pages dynamiques pour booster votre référencement. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Robots : exclure certains mots?
- que faut il exclure avec le fichier robots.txt?
- Faut-il exclure le fichier index dans le robots.txt
- Exclure les robots des fichiers de log IIS
- exclure certaines pages contenant un mot avec robots.txt
- [regle] peut-on exclure les repertoires // dans robots.txt ?
- robots.txt exclure tous les spiders sauf les plus gros
- Robots.txt : Exclure toute page sauf "telles pages"
- référencement indésirable
- page indésirable
- Sortie de GoogleStats v2.01 - 02-03-2003
- Les crawlers de Yahoo! - 18-03-2004
- Les robots MSNbot de Live Search - 30-11-2006
- Déclarer son fichier sitemap dans le fichier robots.txt - 16-04-2007
- Petit changement pour Slurp (le robot de Yahoo) - 29-03-2007
- La balise meta NOYDIR de Yahoo - 05-03-2007
- Robots.txt : Yahoo supporte les options avancées - 04-11-2006
- Comment gérer simplement les sitemaps de plusieurs sites au même endroit - 28-02-2008
Consultez la description détaillée des produits ou services de Google suivants : Google Web Accelerator
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

