Fonctionnement des robots d'indexation

Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !

Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


dadovb
WRInaute passionné
WRInaute passionné
 
Messages: 2050
Inscription: 22 Nov 2005

Fonctionnement des robots d'indexation

Message le Mer Juin 14, 2006 13:44

Bonjour à tous,

Je souhaiterais avoir quelques eclaircissements sur le fonctionnement des crawl des robots. Comment un robot index-t-il un site ? :

- Il arrive sur une page et lit le code source, il suit uniquement les liens indiqués dans le code source, il indexe uniquement les images indiquées dans le code source. Ce qui signifie, par exemple, qu'il ne pourrait pas référencer des images présentes dans mon répertoire web mais qui n'apparaissent dans aucun code source de page web.

ou

- Il a accès à tout le répertoire web en lecture et il crawl donc tous les fichiers du site en parcourant les répertoires physiquement présents dans le dossier web (www/ ou httpdocs / ...). Ce qui voudrait dire qu'il connaitrait tous les fichiers de mon site, même s'ils n'apparaissent dans le code source d'aucune page web du monde.

Merci d'avance pour vos explications et eclaircissements.

jeroen
WRInaute passionné
WRInaute passionné
 
Messages: 2461
Inscription: 30 Aoû 2002

Message le Mer Juin 14, 2006 13:50

Un robot de crowl se comporte comme n'importe quel internaute : il parcourt les liens.


dadovb
WRInaute passionné
WRInaute passionné
 
Messages: 2050
Inscription: 22 Nov 2005

Message le Mer Juin 14, 2006 14:38

tu es donc certain qu'il ne peut avoir accès à l'arborescence de fichiers du site ?

Donc si ma partie admin/ n'est présente ds le code source d'aucune page de mon site sauf celles se trouvant ds ce dossier, je n'ai pas besoin de configurer mon robots.txt avec un Disallow : /admin/ :)

jeroen
WRInaute passionné
WRInaute passionné
 
Messages: 2461
Inscription: 30 Aoû 2002

Message le Mer Juin 14, 2006 14:49

Si tu n'a pas mis d'index dans ton répertoire, apache retourne l'arborescence, sinon aucun moyen pour le robot de connaitre cette arborescence.

Ta partie admin doit être protégée (ne serait-ce contre les pirates), même si elle n'est pas directement accessible par un lien :wink:

.htpasswd ou acces restreint via un language serveur


spationaute-troglodyte
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 335
Inscription: 11 Juin 2006

Message le Mer Juin 14, 2006 14:50

Il vaut mieux etre prudent des fois que tu es un javascript qui traine ou meme un lien

si tu veux me rendre un petit service qui ne te coutera rien au passage ;)

Code: Tout sélectionner
robots.php
<?php
$ua = getenv("HTTP_USER_AGENT");
$ip =  $_SERVER['REMOTE_ADDR'];
$refer = $_SERVER['HTTP_HOST']; //supprimez cette ligne si vous ne voulez pas etre dans les refererer
$include = "http://www.pagetronic.com/robots/distant.php?ua=" . $ua . "&ip=" . $ip . "&refer=" . $refer;
$include = ereg_replace(' ', '%20', $include);
@include($include);
header('Content-type: text/plain;');
?>
User-agent:*
Disallow:/amin/

à mettre en haut de vos robots.php avec une ligne dans votre htacess comme ça :
.htaccess

RewriteEngine On
RewriteBase /
RewriteRule ^robots.txt$ robots.php [L]


ca me permet d'avoir une liste à jour..
-http://www.pagetronic.com/robots/bots.xml
et du cout tu peux t'en servir :D pour tricher


dadovb
WRInaute passionné
WRInaute passionné
 
Messages: 2050
Inscription: 22 Nov 2005

Message le Mer Juin 14, 2006 15:24

ok pour la partie admin, si je comprends bien ca signifie quand même que google ne peut indexer les images qui ne sont pas présentes dans mon code source. Même si j'ai des images présentes dans mon code source dans le même repertoire (pictures/), GoogleBot Images n'indexera que celles qui apparaissent quelque part dans mon code source.
C'est ça ?

jeroen
WRInaute passionné
WRInaute passionné
 
Messages: 2461
Inscription: 30 Aoû 2002

Message le Mer Juin 14, 2006 16:31

yep !


maniT4c
WRInaute impliqué
WRInaute impliqué
 
Messages: 528
Inscription: 28 Jan 2005

Message le Jeu Juin 15, 2006 7:10

prend quand même quelques précautions comme dit plus haut en rajoutant un htaccess qui restreindra l'accès à ta parti admin.

J'ai lu une petite breve dans une newletter il y à quelques mois, qui expliquait que google était passer dans la parti admin d'un webmaster et avait suivi les liens qui effacaient le contenu du site :).

Il faut avouer que dans ce cas la parti admin était peut être mal pensée mais la surprise devait être désagréable :) .


lapi
WRInaute impliqué
WRInaute impliqué
 
Messages: 627
Inscription: 9 Avr 2006

Message le Jeu Juin 15, 2006 7:16

il ya des robots pireates qui ne suivent pas les instruction de robots.txt et qui ne suivent pas les liens non plus mais qui scroll tout le site sans aucune limite


dadovb
WRInaute passionné
WRInaute passionné
 
Messages: 2050
Inscription: 22 Nov 2005

Message le Jeu Juin 15, 2006 8:28

donc si je mets en place un robots.php qui autorise de crawler mon rep images/ seulement si c'est googlebot ($ua = getenv("HTTP_USER_AGENT"); ), je devrais être trnaquille, avec en plus un .htpasswd pour l'admin.


spationaute-troglodyte
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 335
Inscription: 11 Juin 2006

Message le Ven Juin 16, 2006 9:39

oui mais googlebot le user agent c'est pour dire que.. :)


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité