Réflexions sur l'indexation
3 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
Réflexions sur l'indexation
Bonjour,
Depuis quelques temps, je suis un peu dérouté par l'indexation de mon site principal sur Google : je suis passé en quelques semaines de 96 000 pages indexées à 56 000 puis 66 000 puis 76 000 etc ...
Ça n'arrête pas de monter et de descendre, alors que je ne supprime jamais de pages et que j'ai toujours plus de pages sur mon site. Je constate aussi que l'activité du bot de Google est toujours très active avec une moyenne de 11 000 pages vues par jour.
Du coup j'ai fait pas mal de recherches et en particulier sur ce forum : pourquoi Google fait tant d'effort avec son bot, alors que dans l'index de Google les pages n'apparaissent pas ou bien certaines pages apparaissent et d'autres disparaissent ?
Mes réflexions sont les suivantes :
- quelle est l'influence du sitemap : j'ai 61036 url dans ce fichier dont 51391 indexées et en ce moment, j'ai 76 200 pages dans l'index, soit près de 25 000 de plus que celles du sitemap. Ce sitemap peut-il être un facteur limitant dans le nombre de pages indexées ?
- une explication possible : le duplicate content. Mais avec autant de pages, il est bien difficile de savoir détecter le duplicate content.
J'ai donc pensé développer un outil "maison" pour détecter les pages en duplicate content. Mais je manque de matière première : je recherche des informations suivantes :
- comment un bot voit-il une page ? Suffit-il d'enlever les styles ? les images ? le javascript ?
- existe-il des algorithmes assez simples de comparaison de texte ?
- Est-ce qu'il faut faire une analyse plus fine : densité de mots clés, texte entre balises <b>, <h1> ...
- Est-il possible d'extraire les mots clés de la page en fonctions de l'url, titre, description et texte ? Ce serait intéressant de comparer les mots clés vu des moteurs de recherche avec le mot clé que l'on a associé à la page.
Par ailleurs mon site présente des résultats sportifs historisés : j'essaie de regrouper les résultats des principaux sports en essayant d'avoir un historique toujours plus important. Or rien ne ressemble plus qu'une page présentant les résultats de la 14ème journée d'un championnat avec celle présentant les résultats de la 15ème journée. Et à part les résultats bruts, je ne sais pas trop comment différencier ces pages.
Voilà, j'espère que ce post deviendra une base de travail pour des personnes qui se posent les mêmes questions que moi.
Vincent
Depuis quelques temps, je suis un peu dérouté par l'indexation de mon site principal sur Google : je suis passé en quelques semaines de 96 000 pages indexées à 56 000 puis 66 000 puis 76 000 etc ...
Ça n'arrête pas de monter et de descendre, alors que je ne supprime jamais de pages et que j'ai toujours plus de pages sur mon site. Je constate aussi que l'activité du bot de Google est toujours très active avec une moyenne de 11 000 pages vues par jour.
Du coup j'ai fait pas mal de recherches et en particulier sur ce forum : pourquoi Google fait tant d'effort avec son bot, alors que dans l'index de Google les pages n'apparaissent pas ou bien certaines pages apparaissent et d'autres disparaissent ?
Mes réflexions sont les suivantes :
- quelle est l'influence du sitemap : j'ai 61036 url dans ce fichier dont 51391 indexées et en ce moment, j'ai 76 200 pages dans l'index, soit près de 25 000 de plus que celles du sitemap. Ce sitemap peut-il être un facteur limitant dans le nombre de pages indexées ?
- une explication possible : le duplicate content. Mais avec autant de pages, il est bien difficile de savoir détecter le duplicate content.
J'ai donc pensé développer un outil "maison" pour détecter les pages en duplicate content. Mais je manque de matière première : je recherche des informations suivantes :
- comment un bot voit-il une page ? Suffit-il d'enlever les styles ? les images ? le javascript ?
- existe-il des algorithmes assez simples de comparaison de texte ?
- Est-ce qu'il faut faire une analyse plus fine : densité de mots clés, texte entre balises <b>, <h1> ...
- Est-il possible d'extraire les mots clés de la page en fonctions de l'url, titre, description et texte ? Ce serait intéressant de comparer les mots clés vu des moteurs de recherche avec le mot clé que l'on a associé à la page.
Par ailleurs mon site présente des résultats sportifs historisés : j'essaie de regrouper les résultats des principaux sports en essayant d'avoir un historique toujours plus important. Or rien ne ressemble plus qu'une page présentant les résultats de la 14ème journée d'un championnat avec celle présentant les résultats de la 15ème journée. Et à part les résultats bruts, je ne sais pas trop comment différencier ces pages.
Voilà, j'espère que ce post deviendra une base de travail pour des personnes qui se posent les mêmes questions que moi.
Vincent
-

El-Cherubin - WRInaute occasionnel

- Messages: 204
- Inscription: Dim Déc 09, 2007 15:10
Pour savoir de quelle façon fonctionne les bots tu peux peut etre deja essayer avec google webmaster tool & google analytics, ca te donne pas mal de stats et devraient te permettre d'y voir un peu plus clair sur le fonctionnement de google bot.
Apres, je suis surement pas le plus calé sur le sujet, donc je laisse soin aux spécialistes de WRI de completer tout ca.
Par contre, si tu parviens a developper un bon outil pour le duplicate content, et le distribue en open source, je suis preneur
Apres, je suis surement pas le plus calé sur le sujet, donc je laisse soin aux spécialistes de WRI de completer tout ca.
Par contre, si tu parviens a developper un bon outil pour le duplicate content, et le distribue en open source, je suis preneur
En fait je suis content qu'il y ai une réponse, car je pense que le sujet est intéressant.
Il est possible que mon post soit mal présenté et trop brouillon. Ou alors il est possible que je sois le seul à avoir autant de page crawlée par google (environ 11000 par jour) sans avoir une augmentation constante du nombre de page indexées.
J'ai découvert sur WRI que l'on parlait d'outil de calcul de similarité textuelle entre 2 pages web (http://www.webrankinfo.com/forums/viewtopic_23295.htm) et j'ai commencé à faire des recherches sur l'algorithme Jaccard, mais si quelqu'un a des infos, je suis preneur.
C'est sur aussi que si je fais un outil satisfaisant qui me permet de détecter le duplicate content je pourrai le diffuser.
Il est possible que mon post soit mal présenté et trop brouillon. Ou alors il est possible que je sois le seul à avoir autant de page crawlée par google (environ 11000 par jour) sans avoir une augmentation constante du nombre de page indexées.
J'ai découvert sur WRI que l'on parlait d'outil de calcul de similarité textuelle entre 2 pages web (http://www.webrankinfo.com/forums/viewtopic_23295.htm) et j'ai commencé à faire des recherches sur l'algorithme Jaccard, mais si quelqu'un a des infos, je suis preneur.
C'est sur aussi que si je fais un outil satisfaisant qui me permet de détecter le duplicate content je pourrai le diffuser.
3 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Réflexions sur le fameux rel=nofollow
- Tout pour indexer vos contenus dans Google
- Référencement : stratégies de liens version 2006
- Etude de Googlebot, le robot d'indexation de Google
- Outil de test d'indexation Google + analyse de l'âge d'un site
- Impact du PageRank dans le positionnement Google
- Importer tout son blog dans Google Base
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot)
- Mise à jour de Google Images (16/04/2006)
- la Google Dance de novembre a commencé !
- Tester l'indexation récente d'un site dans Google
Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org). - Trouver les sous-domaines
Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

le forum