Réflexions sur l'indexation

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

duplex13
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 153
Inscription: Jeu Juin 30, 2005 14:43

Réflexions sur l'indexation

Message le Jeu Jan 03, 2008 16:34

Bonjour,

Depuis quelques temps, je suis un peu dérouté par l'indexation de mon site principal sur Google : je suis passé en quelques semaines de 96 000 pages indexées à 56 000 puis 66 000 puis 76 000 etc ...

Ça n'arrête pas de monter et de descendre, alors que je ne supprime jamais de pages et que j'ai toujours plus de pages sur mon site. Je constate aussi que l'activité du bot de Google est toujours très active avec une moyenne de 11 000 pages vues par jour.

Du coup j'ai fait pas mal de recherches et en particulier sur ce forum : pourquoi Google fait tant d'effort avec son bot, alors que dans l'index de Google les pages n'apparaissent pas ou bien certaines pages apparaissent et d'autres disparaissent ?

Mes réflexions sont les suivantes :
- quelle est l'influence du sitemap : j'ai 61036 url dans ce fichier dont 51391 indexées et en ce moment, j'ai 76 200 pages dans l'index, soit près de 25 000 de plus que celles du sitemap. Ce sitemap peut-il être un facteur limitant dans le nombre de pages indexées ?
- une explication possible : le duplicate content. Mais avec autant de pages, il est bien difficile de savoir détecter le duplicate content.

J'ai donc pensé développer un outil "maison" pour détecter les pages en duplicate content. Mais je manque de matière première : je recherche des informations suivantes :
- comment un bot voit-il une page ? Suffit-il d'enlever les styles ? les images ? le javascript ?
- existe-il des algorithmes assez simples de comparaison de texte ?
- Est-ce qu'il faut faire une analyse plus fine : densité de mots clés, texte entre balises <b>, <h1> ...
- Est-il possible d'extraire les mots clés de la page en fonctions de l'url, titre, description et texte ? Ce serait intéressant de comparer les mots clés vu des moteurs de recherche avec le mot clé que l'on a associé à la page.

Par ailleurs mon site présente des résultats sportifs historisés : j'essaie de regrouper les résultats des principaux sports en essayant d'avoir un historique toujours plus important. Or rien ne ressemble plus qu'une page présentant les résultats de la 14ème journée d'un championnat avec celle présentant les résultats de la 15ème journée. Et à part les résultats bruts, je ne sais pas trop comment différencier ces pages.

Voilà, j'espère que ce post deviendra une base de travail pour des personnes qui se posent les mêmes questions que moi.

Vincent


El-Cherubin
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 204
Inscription: Dim Déc 09, 2007 15:10

Message le Ven Jan 04, 2008 9:39

Pour savoir de quelle façon fonctionne les bots tu peux peut etre deja essayer avec google webmaster tool & google analytics, ca te donne pas mal de stats et devraient te permettre d'y voir un peu plus clair sur le fonctionnement de google bot.

Apres, je suis surement pas le plus calé sur le sujet, donc je laisse soin aux spécialistes de WRI de completer tout ca.

Par contre, si tu parviens a developper un bon outil pour le duplicate content, et le distribue en open source, je suis preneur ;)

duplex13
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 153
Inscription: Jeu Juin 30, 2005 14:43

Message le Ven Jan 04, 2008 14:42

En fait je suis content qu'il y ai une réponse, car je pense que le sujet est intéressant.

Il est possible que mon post soit mal présenté et trop brouillon. Ou alors il est possible que je sois le seul à avoir autant de page crawlée par google (environ 11000 par jour) sans avoir une augmentation constante du nombre de page indexées.

J'ai découvert sur WRI que l'on parlait d'outil de calcul de similarité textuelle entre 2 pages web (http://www.webrankinfo.com/forums/viewtopic_23295.htm) et j'ai commencé à faire des recherches sur l'algorithme Jaccard, mais si quelqu'un a des infos, je suis preneur.

C'est sur aussi que si je fais un outil satisfaisant qui me permet de détecter le duplicate content je pourrai le diffuser.


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités