Bien configurer robots.tx

Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !

Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

jncempruntis
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 31
Inscription: 11 Mar 2011

Bien configurer robots.tx

Message le Mer Mar 16, 2011 12:22

Bonjour,
je me demande s'il est nécessaire de lister l'ensemble de "mauvais robots" (où les trouver d'ailleurs) dans le fichier robots.txt.

On trouve de tout et de rien si on va regarder les robots.txt de certains sites.

Que pensez vous d'ailleurs de celui ci ?

Code: Tout sélectionner
User-agent: Alexibot
User-agent: asterias
User-agent: BackDoorBot/1.0
User-agent: Black Hole
User-agent: BlowFish/1.0
User-agent: BotALot
User-agent: BuiltBotTough
User-agent: Bullseye/1.0
User-agent: BunnySlippers
User-agent: Cegbfeieh
User-agent: CheeseBot
User-agent: CherryPicker
User-agent: CherryPickerElite/1.0
User-agent: CherryPickerSE/1.0
User-agent: CopyRightCheck
User-agent: cosmos
User-agent: Crescent
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
User-agent: DISCo Pump 3.1
User-agent: DittoSpyder
User-agent: EmailCollector
User-agent: EmailSiphon
User-agent: EmailWolf
User-agent: EroCrawler
User-agent: ExtractorPro
User-agent: Foobot
User-agent: Harvest/1.5
User-agent: hloader
User-agent: httplib
User-agent: humanlinks
User-agent: InfoNaviRobot
User-agent: JennyBot
User-agent: Kenjin Spider
User-agent: LexiBot
User-agent: libWeb/clsHTTP
User-agent: LinkextractorPro
User-agent: LinkScan/8.1a Unix
User-agent: LinkWalker
User-agent: lwp-trivial
User-agent: lwp-trivial/1.34
User-agent: Mata Hari
User-agent: Microsoft URL Control - 5.01.4511
User-agent: Microsoft URL Control - 6.00.8169
User-agent: MIIxpc
User-agent: MIIxpc/4.2
User-agent: Mister PiX
User-agent: moget
User-agent: moget/2.1
User-agent: NetAnts
User-agent: NetAttache
User-agent: NetAttache Light 1.1
User-agent: NetMechanic
User-agent: NICErsPRO
User-agent: Offline Explorer
User-agent: Openfind
User-agent: Openfind data gathere
User-agent: ProPowerBot/2.14
User-agent: ProWebWalker
User-agent: psbot
User-agent: QueryN Metasearch
User-agent: RepoMonkey
User-agent: RepoMonkey Bait & Tackle/v1.01
User-agent: RMA
User-agent: SiteSnagger
User-agent: SpankBot
User-agent: spanner
User-agent: SuperBot
User-agent: SuperBot/2.6
User-agent: suzuran
User-agent: Szukacz/1.4
User-agent: Teleport
User-agent: Telesoft
User-agent: The Intraformant
User-agent: TheNomad
User-agent: TightTwatBot
User-agent: Titan
User-agent: toCrawl/UrlDispatcher
User-agent: True_Robot
User-agent: True_Robot/1.0
User-agent: turingos
User-agent: URLy Warning
User-agent: VCI
User-agent: VCI WebViewer VCI WebViewer Win32
User-agent: Web Image Collector
User-agent: WebAuto
User-agent: WebBandit
User-agent: WebBandit/3.50
User-agent: WebCopier
User-agent: webcopy
User-agent: WebEnhancer
User-agent: WebmasterWorldForumBot
User-agent: webmirror
User-agent: WebReaper
User-agent: WebSauger
User-agent: website extractor
User-agent: Website Quester
User-agent: Webster Pro
User-agent: WebStripper
User-agent: WebStripper/2.02
User-agent: WebZip
User-agent: WebZip/4.0
User-agent: Wget
User-agent: Wget/1.5.3
User-agent: Wget/1.6
User-agent: WinHTTrack
User-agent: WWW-Collector-E
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: Zeus
User-agent: Zeus 32297 Webster Pro V2.9 Win32
User-Agent: MJ12bot
User-agent: HTTrack
User-agent: HTTrack 3.0
User-agent: TurnitinBot
User-agent: QuepasaCreep
Disallow: /

User-agent: *
Disallow: /clic.php
Disallow: /admin/



J'avais pour habitude de faire uniquement comme cela (ce qui marchait plutôt pas mal)

Code: Tout sélectionner
Sitemap: http://www.exemple.fr/sitemap.xml

User-agent: *
Disallow: /highslide
Disallow: /admin-url
Disallow: /admin

Disallow: /dev


La question est donc... est ce nécessaire de lister tous les robots dans ce fichier ?

Merci d'avance

Bigbangbel
WRInaute discret
WRInaute discret
 
Messages: 163
Inscription: 22 Jan 2008

Re: Bien configurer robots.tx

Message le Mer Mar 16, 2011 14:39

La liste ne comprend pas tous les robots, mais ceux que le site veut exclure, p.ex. des aspirateurs de site comme httrack ou des robots qui parcourent le site sans être un moteur de recherche, comme Xenu Link Sleuth (celui-ci crée un fichier sitemap e.a.).

C'est une mesure de précaution, à toi de voir si c'est nécessaire. En tout cas c'est certainement dur à la maintenir à jour.

jncempruntis
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 31
Inscription: 11 Mar 2011

Re: Bien configurer robots.tx

Message le Mer Mar 16, 2011 14:54

mais c'est quoi le but en fait ? en quoi ils sont "dangereux" ?


Marie-Aude
Modérateur
Modérateur
 
Messages: 11870
Inscription: 5 Juin 2006

Re: Bien configurer robots.tx

Message le Mer Mar 16, 2011 15:49

Ils peuvent utiliser de la bande passante pour rien
Les bots réellement dangereux ne respectent pas le robots.txt donc en ce sens ça ne sert à rien, il faut travailler au niveau du .htaccess

jncempruntis
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 31
Inscription: 11 Mar 2011

Re: Bien configurer robots.tx

Message le Mer Mar 16, 2011 15:53

Est ce qu'il existe une liste maj à ajouter dans le fichier htaccess ?


Leonick
WRInaute accro
WRInaute accro
 
Messages: 19592
Inscription: 8 Aoû 2004

Re: Bien configurer robots.tx

Message le Mer Mar 16, 2011 19:46

moi je fais plutôt le contraire : tu interdit tout le monde et tu n'autorises que certains bots.
Ensuite, tu distingues les "mauvais" robots gentils, qui suivent ces directives et les "mauvais" robots méchants qui ne s'occupent pas de tes directives. Donc obligatoirement bloquer aussi par htaccess

jncempruntis
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 31
Inscription: 11 Mar 2011

Re: Bien configurer robots.tx

Message le Jeu Mar 17, 2011 9:30

Est ce que ça a un gros impact sur le ref nat ? à part libérer un peu de bande passante...
Vous allez me dire OUI vu que la vitesse d'affichage et le nouveau critère 2011 :)

Bigbangbel
WRInaute discret
WRInaute discret
 
Messages: 163
Inscription: 22 Jan 2008

Re: Bien configurer robots.tx

Message le Jeu Mar 17, 2011 9:50

Est ce que ça a un gros impact sur le ref nat ?

Cela n'aura aucun impact sur tes positions dans les SERPs
à part libérer un peu de bande passante...

A moins que les bots ne t'occupent bcp de bande passante, ce qui n'est tout de même pas si fréquent, quel sera l'impact réel ?
Vous allez me dire OUI vu que la vitesse d'affichage et le nouveau critère 2011

Je dirais plutôt non, car la rapidité de réponse de ton serveur n'est pas influencée. A moins que ton serveur ou ta bande passante ne soient déjà surchargés, de toute façon.


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Tester la validité d'un lien
    Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).
  • Similarité et duplicate content
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités