Fonctionnement des robots d'indexation
Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !
Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !
Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).
11 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

dadovb - WRInaute passionné

- Messages: 2050
- Inscription: 22 Nov 2005
Fonctionnement des robots d'indexation
Bonjour à tous,
Je souhaiterais avoir quelques eclaircissements sur le fonctionnement des crawl des robots. Comment un robot index-t-il un site ? :
- Il arrive sur une page et lit le code source, il suit uniquement les liens indiqués dans le code source, il indexe uniquement les images indiquées dans le code source. Ce qui signifie, par exemple, qu'il ne pourrait pas référencer des images présentes dans mon répertoire web mais qui n'apparaissent dans aucun code source de page web.
ou
- Il a accès à tout le répertoire web en lecture et il crawl donc tous les fichiers du site en parcourant les répertoires physiquement présents dans le dossier web (www/ ou httpdocs / ...). Ce qui voudrait dire qu'il connaitrait tous les fichiers de mon site, même s'ils n'apparaissent dans le code source d'aucune page web du monde.
Merci d'avance pour vos explications et eclaircissements.
Je souhaiterais avoir quelques eclaircissements sur le fonctionnement des crawl des robots. Comment un robot index-t-il un site ? :
- Il arrive sur une page et lit le code source, il suit uniquement les liens indiqués dans le code source, il indexe uniquement les images indiquées dans le code source. Ce qui signifie, par exemple, qu'il ne pourrait pas référencer des images présentes dans mon répertoire web mais qui n'apparaissent dans aucun code source de page web.
ou
- Il a accès à tout le répertoire web en lecture et il crawl donc tous les fichiers du site en parcourant les répertoires physiquement présents dans le dossier web (www/ ou httpdocs / ...). Ce qui voudrait dire qu'il connaitrait tous les fichiers de mon site, même s'ils n'apparaissent dans le code source d'aucune page web du monde.
Merci d'avance pour vos explications et eclaircissements.
-

dadovb - WRInaute passionné

- Messages: 2050
- Inscription: 22 Nov 2005
tu es donc certain qu'il ne peut avoir accès à l'arborescence de fichiers du site ?
Donc si ma partie admin/ n'est présente ds le code source d'aucune page de mon site sauf celles se trouvant ds ce dossier, je n'ai pas besoin de configurer mon robots.txt avec un Disallow : /admin/
Donc si ma partie admin/ n'est présente ds le code source d'aucune page de mon site sauf celles se trouvant ds ce dossier, je n'ai pas besoin de configurer mon robots.txt avec un Disallow : /admin/
- jeroen
- WRInaute passionné

- Messages: 2461
- Inscription: 30 Aoû 2002
Si tu n'a pas mis d'index dans ton répertoire, apache retourne l'arborescence, sinon aucun moyen pour le robot de connaitre cette arborescence.
Ta partie admin doit être protégée (ne serait-ce contre les pirates), même si elle n'est pas directement accessible par un lien
.htpasswd ou acces restreint via un language serveur
Ta partie admin doit être protégée (ne serait-ce contre les pirates), même si elle n'est pas directement accessible par un lien
.htpasswd ou acces restreint via un language serveur
-

spationaute-troglodyte - WRInaute occasionnel

- Messages: 335
- Inscription: 11 Juin 2006
Il vaut mieux etre prudent des fois que tu es un javascript qui traine ou meme un lien
si tu veux me rendre un petit service qui ne te coutera rien au passage
ca me permet d'avoir une liste à jour..
-http://www.pagetronic.com/robots/bots.xml
et du cout tu peux t'en servir
pour tricher
si tu veux me rendre un petit service qui ne te coutera rien au passage
- Code: Tout sélectionner
robots.php
<?php
$ua = getenv("HTTP_USER_AGENT");
$ip = $_SERVER['REMOTE_ADDR'];
$refer = $_SERVER['HTTP_HOST']; //supprimez cette ligne si vous ne voulez pas etre dans les refererer
$include = "http://www.pagetronic.com/robots/distant.php?ua=" . $ua . "&ip=" . $ip . "&refer=" . $refer;
$include = ereg_replace(' ', '%20', $include);
@include($include);
header('Content-type: text/plain;');
?>
User-agent:*
Disallow:/amin/
à mettre en haut de vos robots.php avec une ligne dans votre htacess comme ça :
.htaccess
RewriteEngine On
RewriteBase /
RewriteRule ^robots.txt$ robots.php [L]
ca me permet d'avoir une liste à jour..
-http://www.pagetronic.com/robots/bots.xml
et du cout tu peux t'en servir
-

dadovb - WRInaute passionné

- Messages: 2050
- Inscription: 22 Nov 2005
ok pour la partie admin, si je comprends bien ca signifie quand même que google ne peut indexer les images qui ne sont pas présentes dans mon code source. Même si j'ai des images présentes dans mon code source dans le même repertoire (pictures/), GoogleBot Images n'indexera que celles qui apparaissent quelque part dans mon code source.
C'est ça ?
C'est ça ?
-

maniT4c - WRInaute impliqué

- Messages: 528
- Inscription: 28 Jan 2005
prend quand même quelques précautions comme dit plus haut en rajoutant un htaccess qui restreindra l'accès à ta parti admin.
J'ai lu une petite breve dans une newletter il y à quelques mois, qui expliquait que google était passer dans la parti admin d'un webmaster et avait suivi les liens qui effacaient le contenu du site
.
Il faut avouer que dans ce cas la parti admin était peut être mal pensée mais la surprise devait être désagréable
.
J'ai lu une petite breve dans une newletter il y à quelques mois, qui expliquait que google était passer dans la parti admin d'un webmaster et avait suivi les liens qui effacaient le contenu du site
Il faut avouer que dans ce cas la parti admin était peut être mal pensée mais la surprise devait être désagréable
-

spationaute-troglodyte - WRInaute occasionnel

- Messages: 335
- Inscription: 11 Juin 2006
oui mais googlebot le user agent c'est pour dire que.. 
11 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Fonctionnement des robots
- fonctionnement indexation par flux xml
- robots.txt et indexation
- Indexation robots.txt
- Indexation du fichier robots.txt
- Indexation d'images et robots.txt
- Indexation, robots et url rewriting
- [Robots] Tests , detection , indexation.
- indexation étrange des robots
- indexation du robots.txt!!! bizzare
- Sortie de GoogleStats v2.01 - 02-03-2003
- Les crawlers de Yahoo! - 18-03-2004
- Googlebot, le robot d'indexation de Google - 21-02-2003
- Outil officiel de suppression de pages de l'index Google - 18-04-2007
- Les robots MSNbot de Live Search - 30-11-2006
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot) - 05-09-2008
- Déclarer son fichier sitemap dans le fichier robots.txt - 16-04-2007
- Petit changement pour Slurp (le robot de Yahoo) - 29-03-2007
- Déterminer l'âge d'un site
Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org). - Liste de sous-domaines
Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité

