Peut être une explication à propos des pages similaires ...

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Peut être une explication à propos des pages similaires ...

Message le Jeu Juil 28, 2005 18:41

Hello the forum,

J'ai peut-être identifié une explication au fait que l'on voit quelquefois GG considérer comme pages similaires des pages qui ne devraient pas l'être ...

Je m'explique :

:arrow: Il y a 4 mois, j'ai mis en ligne ruesdemaville.free.fr. Durant la période d'indexation il est passé par une phase ou il m'a mis quasiment 70 % de mes pages en pages similaires. Puis au fil des semaines, sans que j'ai rien changé dans mes pages, toutes les pages similaires ont disparu et ont été normalement indéxées comme pages différentes. J'avais interprété ce comportement comme un changement d'alogo de GG qui était bien tombé pour moi ...

:arrow: Il se trouve que je viens de basculer progressivement tout le site de .free vers .com. Pour différentes raisons j'ai opté pour de rustiques pages de refresh de free vers les nouvelels pages en .com (mais ce n'est pas l'objet de ce post). Et donc GG est en train de procéder à une nouvelle réindexation de toutes les pages et progressivement les .free disparaissent de l'index GG au profit des .com. Et il se trouve que je constate à nouveau le même comportement ... il est dans une pahse ou il considère a nouveau 60 % de pages comme similaires ...

:arrow: Or il se trouve que toutes mes pages sont effectivement bati avec la meme ossature (donc une grande partie commune) mais que la liste des mots directeurs située en bas de page les rend par contre bien toute tres différentes. mais ca se trouve en fin de page ...

:?: Du coup j'ose avancer l'analyse suivante :

- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.

- Puis une fois la phase 1 terminée (disons une fois que GG a indexé toutes les pages du site - par exemple parce qu'il ne trouve plus de nouveau liens intrnes ou se propager), il passe alors en pahse 2 en reprenant les page mais cette fois dans leur intégralité et la les pages considérées initialement comme similaires disparaissent peu à peu.

C'est ce comportement que j'ai vu lors de la premièere indexation de ruesdemaville.free.fr et c'est semble-t-il ce même comportement que je constate lors de la réindexation de ruesdemaville.com.

Cette explication vous semble t elle cohérente ? Avez-vous déjà constaté la même chose ?


cloacking
WRInaute impliqué
WRInaute impliqué
 
Messages: 722
Inscription: 20 Oct 2004

Message le Jeu Juil 28, 2005 18:48

Ou est la nouveauté ?


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Message le Jeu Juil 28, 2005 18:51

cloacking a écrit:Ou est la nouveauté ?

Je ne sais pas. Je pose justement la question pour savoir si ce comportement d'indexation d'un petit bout de la page seulement en premiere intention est quelque chose de connu ?


fredoche25
WRInaute passionné
WRInaute passionné
 
Messages: 1208
Inscription: 27 Mai 2004

Message le Jeu Juil 28, 2005 19:23

je te rejoinds zecat

sauf que pour moi, je dirais,

etape 1 : indexation complete des pages lors du 1er crawl

etape 2 : pages mises en duplicate

etape 3 : crawl plus approfondie, les pages semblent sortir du duplicate

d'ailleurs j'ai posté une question today, sans réponse, j'aimerais bien avoir ton avis Zecat ( et celui des autres évidemment )

url : http://www.webrankinfo.com/forums/viewtopic_33116.htm


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Message le Jeu Juil 28, 2005 19:26

ton post semble confirmer mon analyse.


cloacking
WRInaute impliqué
WRInaute impliqué
 
Messages: 722
Inscription: 20 Oct 2004

Message le Jeu Juil 28, 2005 19:31

L'affichage dans google pour les pages en duplicate et celle fraichement connues sont les mêmes, cela ne veut HEUREUSEMENT pas dire que toutes les pages comme celle ci dans Google sont en DC

Regardé par exemple sur des forums qui générent beaucoup de pages ....
Tu as toujours des pages qui semble similaire et suivant le site quelques jours mois aprés google met leurs descriptions.

On rencontre le même phénomène lorsque le site est Neuf (je dirais) qu'il vient juste d'être découvert par google

Exemple :
http://www.google.fr/search?hl=fr&q=www ... ogle&meta=

Regarde cette page demain ou aprés-demain j'espère


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Message le Jeu Juil 28, 2005 19:36

Oui mais la c'est du DR (Duplicate Roberts) :lol: :lol:

Plus sérieusement, effectivement, je ne savais pas qu'il signalait page récente comme une similaire ... mais qui de l'oeuf ou de la poule ? Est ce bien parce qu'elle est nouvelle qu'elle est affichée similaire ou parce qu'elle est partiellement traitée qu'elle est similaire au debut ?

Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...


fredoche25
WRInaute passionné
WRInaute passionné
 
Messages: 1208
Inscription: 27 Mai 2004

Message le Jeu Juil 28, 2005 19:57

Zecat a écrit:Parce que dans le meme temps des milliers de pâge tout aussi nouvelles ne passent pas par l'etape "similaires" ...


Je te rejoins à 100% Zecat, et d'ailleurs, (cf mon post plus haut) pour mon cas, j'aide les pages à passer l'étape "similaires" comme tu dis, en placant un lien vers celle ci sur une page bien indexée à fort PR

alors évidemment, quand il y a bcp de page, c'est galère

c'est pour cela que j'espère que l'outil site map de google va aider dans cette démarche


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Message le Jeu Juil 28, 2005 20:06

Bon la c'ets pas trop galère en fait parce que :

- le .com existait depuis le depuis même si tout etait chez free
- il avait une PR4 et du coup l'indexation a vite demarré (la il se tape 5000 pages par jour a peine quelque jours apres la mise en ligne sur le .com alors que le .free il avait mis des semaines avant de lancer le diesel).
- En plus comme j'ai fait des refresh de free vers com, les recherches sur free fonctionnent toujours même si la page est en com ...

Donc au final le passage s'est fait en douceur ... Ce qui m'a interessé c'est surtout d'isoler ce comportement de spages similaires au debut ...

Association FdnF
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 20
Inscription: 11 Jan 2005

Re: Peut être une explication à propos des pages similaires

Message le Ven Juil 29, 2005 8:30

Zecat a écrit:
- Pour gagner du temps, GG lors de sa première indexation se limiterait a scanner uniquement une partie de la page. cela lui permettrait de deja prendre en compte la page au plus tot en minimisant la ressource d'indexation au strict minimum. Et donc durant cette phase, le taux de pages similaire est dans notre cas important.


Hello,

Je pense que tu as raison car j'ai remarqué le point suivant:

- J'ai récemment développé un soft (Keyword Crawler) qui crawl un site web en se faisant passé pour un spider. J'essaie de faire en sorte qu'il se comporte comme un moteur de recherche.
- Après plusieurs utilisation sur mon site, j'ai regarder mes stats (Awstats) au niveau des visites des moteurs de recherches. Voici les différences :

Inktomi Slurp - 3564 visites - 17.66 Mo (5.07 ko/visite)
Unknown robot (identified by 'crawl') - 3766 visites - 53.54 Mo (14.55 ko/visite)
Googlebot - 588 visites - 7.41 Mo (12.9 ko/visite)


- On remarque clairemeent que Google ne crawl pas entièrement les pages, ce qui peut-être du à:
:arrow: Google reconnait la page et sait que tel contenu ne change pas (les bas de page p.ex.) et crawl "en surface" pour repérer les modification puis refait un crawl "en profondeur".

:arrow: Google effectue des crawl à plusieurs niveau, de plus en plus profondément si la page lui "plait"

Qu'en pensez-vous?


fredoche25
WRInaute passionné
WRInaute passionné
 
Messages: 1208
Inscription: 27 Mai 2004

Message le Ven Juil 29, 2005 8:44

Dis voir Zecat, je viens de découvrir encore un truc

Certains diront encore c'est pas nouveaux.

Mais sur mon site, des pages considérées en réel duplicate content, ( page qui existe depuis qqs temps ), n'ont pas de pages en cache,

par contre les pages récentes, qui apparaissent comme duplicate, n'ont pas de page en cache, bien qu'elles aient été crawlées une fois.

tu me suis ?


GoGueule
WRInaute discret
WRInaute discret
 
Messages: 199
Inscription: 17 Déc 2003

Message le Ven Juil 29, 2005 11:04

Pour ma part, j'ai constaté que les pages affichées en temps que -similaires- dans les resultats GG, n'ont aucun code de retour in robostats/googlestats .. , alors que celles qui apparaissent -normalement-, on un code "200" en retour ..
Est-ce le cas également pour d'autres utilisateurs de robostats ?
Si oui, dans ce cas ca voudrait effectivement dire que la page n'est pas -vue- entièrement lors du premier crawl ?


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Analyse de similarité textuelle
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
  • TouchGraph Google Browser
    Description du TouchGraph Google Browser (outil externe) : il s'agit d'un outil graphique permettant de visualiser des sites similaires (selon Google). On peut sauter de site en site, et se rendre compte facilement des communautés de sites, ou des nébuleuses de sites traitant du même sujet.
  • Générateur de mots-clés
    Cet outil vous fournit une liste de mots sémantiquement proches du mot que vous fournissez en entrée. Il peut servir à vous donner des idées de mots à utiliser sur vos pages, voire de contenus à ajouter.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités