Peut être une explication à propos des pages similaires ...
12 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

Zecat - WRInaute accro

- Messages: 12002
- Inscription: 1 Mar 2005
Peut être une explication à propos des pages similaires ...
Hello the forum,
J'ai peut-être identifié une explication au fait que l'on voit quelquefois GG considérer comme pages similaires des pages qui ne devraient pas l'être ...
Je m'explique :
Il y a 4 mois, j'ai mis en ligne ruesdemaville.free.fr. Durant la période d'indexation il est passé par une phase ou il m'a mis quasiment 70 % de mes pages en pages similaires. Puis au fil des semaines, sans que j'ai rien changé dans mes pages, toutes les pages similaires ont disparu et ont été normalement indéxées comme pages différentes. J'avais interprété ce comportement comme un changement d'alogo de GG qui était bien tombé pour moi ...
Il se trouve que je viens de basculer progressivement tout le site de .free vers .com. Pour différentes raisons j'ai opté pour de rustiques pages de refresh de free vers les nouvelels pages en .com (mais ce n'est pas l'objet de ce post). Et donc GG est en train de procéder à une nouvelle réindexation de toutes les pages et progressivement les .free disparaissent de l'index GG au profit des .com. Et il se trouve que je constate à nouveau le même comportement ... il est dans une pahse ou il considère a nouveau 60 % de pages comme similaires ...
Or il se trouve que toutes mes pages sont effectivement bati avec la meme ossature (donc une grande partie commune) mais que la liste des mots directeurs située en bas de page les rend par contre bien toute tres différentes. mais ca se trouve en fin de page ...
Du coup j'ose avancer l'analyse suivante :
- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.
- Puis une fois la phase 1 terminée (disons une fois que GG a indexé toutes les pages du site - par exemple parce qu'il ne trouve plus de nouveau liens intrnes ou se propager), il passe alors en pahse 2 en reprenant les page mais cette fois dans leur intégralité et la les pages considérées initialement comme similaires disparaissent peu à peu.
C'est ce comportement que j'ai vu lors de la premièere indexation de ruesdemaville.free.fr et c'est semble-t-il ce même comportement que je constate lors de la réindexation de ruesdemaville.com.
Cette explication vous semble t elle cohérente ? Avez-vous déjà constaté la même chose ?
J'ai peut-être identifié une explication au fait que l'on voit quelquefois GG considérer comme pages similaires des pages qui ne devraient pas l'être ...
Je m'explique :
- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.
- Puis une fois la phase 1 terminée (disons une fois que GG a indexé toutes les pages du site - par exemple parce qu'il ne trouve plus de nouveau liens intrnes ou se propager), il passe alors en pahse 2 en reprenant les page mais cette fois dans leur intégralité et la les pages considérées initialement comme similaires disparaissent peu à peu.
C'est ce comportement que j'ai vu lors de la premièere indexation de ruesdemaville.free.fr et c'est semble-t-il ce même comportement que je constate lors de la réindexation de ruesdemaville.com.
Cette explication vous semble t elle cohérente ? Avez-vous déjà constaté la même chose ?
-

fredoche25 - WRInaute passionné

- Messages: 1208
- Inscription: 27 Mai 2004
je te rejoinds zecat
sauf que pour moi, je dirais,
etape 1 : indexation complete des pages lors du 1er crawl
etape 2 : pages mises en duplicate
etape 3 : crawl plus approfondie, les pages semblent sortir du duplicate
d'ailleurs j'ai posté une question today, sans réponse, j'aimerais bien avoir ton avis Zecat ( et celui des autres évidemment )
url : http://www.webrankinfo.com/forums/viewtopic_33116.htm
sauf que pour moi, je dirais,
etape 1 : indexation complete des pages lors du 1er crawl
etape 2 : pages mises en duplicate
etape 3 : crawl plus approfondie, les pages semblent sortir du duplicate
d'ailleurs j'ai posté une question today, sans réponse, j'aimerais bien avoir ton avis Zecat ( et celui des autres évidemment )
url : http://www.webrankinfo.com/forums/viewtopic_33116.htm
-

cloacking - WRInaute impliqué

- Messages: 722
- Inscription: 20 Oct 2004
L'affichage dans google pour les pages en duplicate et celle fraichement connues sont les mêmes, cela ne veut HEUREUSEMENT pas dire que toutes les pages comme celle ci dans Google sont en DC
Regardé par exemple sur des forums qui générent beaucoup de pages ....
Tu as toujours des pages qui semble similaire et suivant le site quelques jours mois aprés google met leurs descriptions.
On rencontre le même phénomène lorsque le site est Neuf (je dirais) qu'il vient juste d'être découvert par google
Exemple :
http://www.google.fr/search?hl=fr&q=www ... ogle&meta=
Regarde cette page demain ou aprés-demain j'espère
Regardé par exemple sur des forums qui générent beaucoup de pages ....
Tu as toujours des pages qui semble similaire et suivant le site quelques jours mois aprés google met leurs descriptions.
On rencontre le même phénomène lorsque le site est Neuf (je dirais) qu'il vient juste d'être découvert par google
Exemple :
http://www.google.fr/search?hl=fr&q=www ... ogle&meta=
Regarde cette page demain ou aprés-demain j'espère
-

Zecat - WRInaute accro

- Messages: 12002
- Inscription: 1 Mar 2005
Oui mais la c'est du DR (Duplicate Roberts)
Plus sérieusement, effectivement, je ne savais pas qu'il signalait page récente comme une similaire ... mais qui de l'oeuf ou de la poule ? Est ce bien parce qu'elle est nouvelle qu'elle est affichée similaire ou parce qu'elle est partiellement traitée qu'elle est similaire au debut ?
Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...
Plus sérieusement, effectivement, je ne savais pas qu'il signalait page récente comme une similaire ... mais qui de l'oeuf ou de la poule ? Est ce bien parce qu'elle est nouvelle qu'elle est affichée similaire ou parce qu'elle est partiellement traitée qu'elle est similaire au debut ?
Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...
-

fredoche25 - WRInaute passionné

- Messages: 1208
- Inscription: 27 Mai 2004
Zecat a écrit:Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...
Je te rejoins à 100% Zecat, et d'ailleurs, (cf mon post plus haut) pour mon cas, j'aide les pages à passer l'étape "similaires" comme tu dis, en placant un lien vers celle ci sur une page bien indexée à fort PR
alors évidemment, quand il y a bcp de page, c'est galère
c'est pour cela que j'espère que l'outil site map de google va aider dans cette démarche
-

Zecat - WRInaute accro

- Messages: 12002
- Inscription: 1 Mar 2005
Bon la c'ets pas trop galère en fait parce que :
- le .com existait depuis le depuis même si tout etait chez free
- il avait une PR4 et du coup l'indexation a vite demarré (la il se tape 5000 pages par jour a peine quelque jours apres la mise en ligne sur le .com alors que le .free il avait mis des semaines avant de lancer le diesel).
- En plus comme j'ai fait des refresh de free vers com, les recherches sur free fonctionnent toujours même si la page est en com ...
Donc au final le passage s'est fait en douceur ... Ce qui m'a interessé c'est surtout d'isoler ce comportement de spages similaires au debut ...
- le .com existait depuis le depuis même si tout etait chez free
- il avait une PR4 et du coup l'indexation a vite demarré (la il se tape 5000 pages par jour a peine quelque jours apres la mise en ligne sur le .com alors que le .free il avait mis des semaines avant de lancer le diesel).
- En plus comme j'ai fait des refresh de free vers com, les recherches sur free fonctionnent toujours même si la page est en com ...
Donc au final le passage s'est fait en douceur ... Ce qui m'a interessé c'est surtout d'isoler ce comportement de spages similaires au debut ...
- Association FdnF
- Nouveau WRInaute

- Messages: 20
- Inscription: 11 Jan 2005
Re: Peut être une explication à propos des pages similaires
Zecat a écrit:
- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.
Hello,
Je pense que tu as raison car j'ai remarqué le point suivant:
- J'ai récemment développé un soft (Keyword Crawler) qui crawl un site web en se faisant passé pour un spider. J'essaie de faire en sorte qu'il se comporte comme un moteur de recherche.
- Après plusieurs utilisation sur mon site, j'ai regarder mes stats (Awstats) au niveau des visites des moteurs de recherches. Voici les différences :
Inktomi Slurp - 3564 visites - 17.66 Mo (5.07 ko/visite)
Unknown robot (identified by 'crawl') - 3766 visites - 53.54 Mo (14.55 ko/visite)
Googlebot - 588 visites - 7.41 Mo (12.9 ko/visite)
- On remarque clairemeent que Google ne crawl pas entièrement les pages, ce qui peut-être du à :
Qu'en pensez-vous?
-

fredoche25 - WRInaute passionné

- Messages: 1208
- Inscription: 27 Mai 2004
Dis voir Zecat, je viens de découvrir encore un truc
Certains diront encore c'est pas nouveaux.
Mais sur mon site, des pages considérées en réel duplicate content, ( page qui existe depuis qqs temps ), n'ont pas de pages en cache,
par contre les pages récentes, qui apparaissent comme duplicate, n'ont pas de page en cache, bien qu'elles aient été crawlées une fois.
tu me suis ?
Certains diront encore c'est pas nouveaux.
Mais sur mon site, des pages considérées en réel duplicate content, ( page qui existe depuis qqs temps ), n'ont pas de pages en cache,
par contre les pages récentes, qui apparaissent comme duplicate, n'ont pas de page en cache, bien qu'elles aient été crawlées une fois.
tu me suis ?
-

GoGueule - WRInaute discret

- Messages: 199
- Inscription: 17 Déc 2003
Pour ma part, j'ai constaté que les pages affichées en temps que -similaires- dans les resultats GG, n'ont aucun code de retour in robostats/googlestats .. , alors que celles qui apparaissent -normalement-, on un code "200" en retour ..
Est-ce le cas également pour d'autres utilisateurs de robostats ?
Si oui, dans ce cas ca voudrait effectivement dire que la page n'est pas -vue- entièrement lors du premier crawl ?
Est-ce le cas également pour d'autres utilisateurs de robostats ?
Si oui, dans ce cas ca voudrait effectivement dire que la page n'est pas -vue- entièrement lors du premier crawl ?
12 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Analyse de pages similaires - 21-02-2005
- Mon Compte WRI : les Google Tools de WebRankInfo - 06-01-2004
- A propos des redirections "sauvages" - 22-09-2004
- Séminaire sur le référencement : ImiTiki - Online 2005 - 18-04-2005
- Voici pourquoi Google fournit peu d'infos sur les backlinks - 25-09-2006
- Google tente d'expliquer le Google Bombing 'Failure' - 11-11-2005
- Nouvelle version du TouchGraph Google Browser - 25-01-2003
- Google Trends : un pas vers le web social ? - 22-12-2005
Consultez la description détaillée des produits ou services de Google suivants : Google SiteLinks, Google Présentations, Google AdWords Editor, Google Base
- Analyse de similarité textuelle
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - TouchGraph Google Browser
Description du TouchGraph Google Browser (outil externe) : il s'agit d'un outil graphique permettant de visualiser des sites similaires (selon Google). On peut sauter de site en site, et se rendre compte facilement des communautés de sites, ou des nébuleuses de sites traitant du même sujet. - Générateur de mots-clés
Cet outil vous fournit une liste de mots sémantiquement proches du mot que vous fournissez en entrée. Il peut servir à vous donner des idées de mots à utiliser sur vos pages, voire de contenus à ajouter.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
