baffes de Google et structure de nos sites.

Consultez la formation sur les stratégies de liens de WebRankInfo / Ranking Metrics


ybet
WRInaute accro
WRInaute accro
 
Messages: 6807
Inscription: Sam Nov 22, 2003 8:37

Message le Mar Aoû 12, 2008 19:59

Un petit résumé des idées me semble intéressant à ce stade. Tous n'est pas forcément juste (sinon, on serait pas en train d'essayer de comprendre, on aurait déjà compris :wink: ), mais je pense que les directions des sanctions actuelles, mais surtout futures (c'est ce qui m'inquiète le plus) sont là. Désolé de ne pas avoir repris tout le monde.

On retrouver différentes parties:
1. le duplicate
2. les liens

1. le duplicate
carole heinz a écrit:Google de repérer des petits bouts de contenus dupliqués même biens mélangés au sein d'une même page, alors qu'avant il y avait une analyse plus "globale" du contenu d'une page.

c'est pourquoi (entre autres), les agrégateurs de flux, même les mieux évolués "techniquement", et les annuaires qui ne contrôlent pas les descriptions dupliquées ont été durement touchés.

ca c'est, à mon avis une des raison de la dégringolade de certaions annuaires. Idée également acceptée par Olivier.

blogger a écrit:Je pense également que google identifie assez rapidement les éléments de type bloc et pondère leur importance.
Je ne pense pas que se soit spécialement un nouveau filtre plutôt un serrage de vis d'un filtre déjà existant,

En ignorant les blocs autres que celui du contenu unique, google se débarrasse des trois quart de liens qui faussent l'algo : blogroll, lien de sympathie, lien seo, lien acheté...

Avec la classique structure en arbre, si google décide d'ignorer un étage, tous les étages inférieurs se retrouvent ignorés faute d'autres chemins pour y accéder.

Si l'on combine ces effets avec un affinage des techniques de détection de contenu dupliqué, on obtient des effets assez boulversants.

Pendant un temps les agrégateurs de contenu étaient un moyen simple de se faire automatiquement des BL vers les pages les plus profondes, générant au passage un maximum de duplicate.



2. les liens
klelugi a écrit:A mon sens, plus l'arborescence est profonde plus Google va avoir du mal à aller chercher les pages en profondeur et à leur donner une importance.

A mon avis, deux moyens peuvent vraisemblablement pallier à ce genre de problème :
...

- Redécouper sa navigation de façon à faire en sorte qu'un site ayant beaucoup de contenu soit plus indexable comme plusieurs plus petits sites. Des sites dans le site. Il devient alors obligatoire de référencer chacun de ses "sous-sites" de manière indépendante.

La navigation principale du site sera alors quelques liens répétés sur chaque page : Les rubriques principales ou "sous-sites" et une navigation différente sur chaque "sous-site".



Par contre, là ...

Cendrillon a écrit:Tout d'abord j'ajouterais à ce qu'a dit Olivier sur la zone de navigation et la zone de contenu, une zone "footer' (souvent blindée de liens) qu'il s'empresse de mettre à la corbeille.

- Structure descendante : elle doit permettre d'atteindre toutes les pages du site en maximum 3 ou 4 clics depuis la page d'accueil. La structure arborescente est celle qui répond le mieux à cette exigence,
et il s'avère que c'est celle qui est la plus utilisée
. L'idéal est que cette arborescence soit le plus plate possible et la PLUS STRUCTUREE POSSIBLE.
- Structure ascendante : elle est essentielle, c'est elle qui permet de dessiner des sous-thématiques. Par exemple si vous avez 200 modèles d'imprimantes à votre catalogue, chacune d'entre elle doit pointer vers la rubrique qui les fédère (la rubrique IMPRIMANTES par exemple :roll: ) avec les ancres qui vont bien ("imprimante + le modèle).

l'idée de sous-thématique a finalement été retenue aussi par klelugi. Plus j'avance dans mes tests sur mes sites grisés, plus je commence à regarder du coté de mes autres sites ... et mon site principal WWW, vestige du référencement de fin des années 90 reprend finalement ce shémas: groupes bien distincts avec les liens "par hasard" entre les pages internes des différents groupes quand ils sont dans un sujet similiare. Par contre, me semble que la majorité des sitres pénalisés avaient tendance à essayer le maximum de liens en pages d'entrées et sous pages (la majorité des annuaires présentent une page d'entrée ne reprenant finalement que des liens, les sites de vente en ligne également (les gros sont tros ... gros pour être pénalisé). Mon OScommerce vient également de prendre une baffe ( :lol: mais mes concurrents passent désormais derrière mes pages de contenu sur le sujet qui renvoit vers ... l'OScommerce de vente en ligne).
Pourtant

Zecat a écrit:Ce seul critère ne doit donc pas etre suffisant. Nécéssaire peut etre mais pas suffisant.


une petite idée également intelligente, mais en contradiction avec la limitation de liens entre pages.
WebRankInfo a écrit:2 clics n'est pas toujours réalisable (exemple : un site avec 2 ou 3 millions de pages) mais ce qu'il faut retenir de ces derniers posts c'est qu'effectivement il faut chercher à limiter la distance entre 2 pages du site (2 pages quelconques, la distance étant mesurée en nombre de liens ou clics)



On pourrait retenir

crughon a écrit:Le problème des structures similaires de page en page (cas des annuaires par exemple), le pb de duplicate et le fort % de lien sur une page / au texte, c'est finalement un meme pb aux yeux de GG : c'est à dire des contenus similaires trop pauvres qui n'apportent rien (de son point de vue) et qui ne méritent pas d'être pageranker (voui cé nouveau)


Finalement, on est parti pour découper nos pages en deux parties: les liens de navigation et le contenu.
Trop de liens de navigation, GG ne voit plus que la partie navigation et duplicate pour toutes les pages à faible contenu, effet boule de neige et toutes les pages internes "faibles" sautent. Du coup, ce sont les liens internes plus pris en compte qui font chuter le site.
Pas assez de liens de navigation, GG ne tient plus compte des pages de niveau 3 ou 4 (surtout s'il détecte un genre de duplicate dans un niveau supérieur au niveau des liens) et de nouveau c'est le site qui descend.

:lol: je vais reconstruire mes site avec un bête éditeur HTML et utiliser le copier / coller avec la commande edit ... :twisted:

crindor
WRInaute accro
WRInaute accro
 
Messages: 1154
Inscription: Ven Nov 22, 2002 0:08

Message le Mer Aoû 13, 2008 0:56

ybet a écrit: Finalement, on est parti pour découper nos pages en deux parties: les liens de navigation et le contenu.
Trop de liens de navigation, GG ne voit plus que la partie navigation et duplicate pour toutes les pages à faible contenu, effet boule de neige et toutes les pages internes "faibles" sautent. Du coup, ce sont les liens internes plus pris en compte qui font chuter le site.
Pas assez de liens de navigation, GG ne tient plus compte des pages de niveau 3 ou 4 (surtout s'il détecte un genre de duplicate dans un niveau supérieur au niveau des liens) et de nouveau c'est le site qui descend.


Je suis assez d’accord avec cette analyse.
D’une façon générale, je pense que vous avez tendance à considérer que GG utilise une grande multitude de critères tous plus compliqués les uns que les autres. Je dirai simplement que si il utilisait vraiment tous les trucs que l’on peut lire sur Wri, il aurait besoin de tellement de ressources qu’il y a longtemps qu’il aurait appliqué l’analyse sémantique. ( la technique est connue et utilisée à petite et moyenne échelle)
Si il ne l’a pas fait, c’est justement pour une histoire de ressources qu’il est impossible de mettre en œuvre au niveau de l’ensemble du web.

Partant de là, on peut se dire que la vérité est ailleurs, que ses méthodes sont beaucoup plus terre à terre.
Je pense qu’il applique au web un certain nombre d’outils qu’il a développé pour le fonctionnement de GG Actu et que les claques que vous évoquez ne viennent nullement d’un problème de structure récurrente d’un site.
Pour ceux qui ont un site sur ce système, vous ne devez pas être sans savoir qu’il est tout à fait capable de repérer le vrai contenu par rapport au reste de la page.
Il est par exemple capable de dire qu’un contenu est trop court par rapport à la page ( d’ailleurs il le dit vraiment dans les « outils webmaster » lorsque c’est le cas et la page est zappée).

Si on considère l’idée que le volume en octets des liens et autres trucs divers soient trop importants par rapport au volume du vrai texte, il n’est pas utopique de penser que ce soit pénalisant. C’est peut-être cela qui plombe beaucoup d’annuaires. On parle souvent de nombre de liens dans une page mais pas de ce cas de figure.

Alors oui, adapter l’environnement du vrai contenu par rapport au vrai contenu lui-même me paraît de plus en plus indispensable. L'environnement doit être adapté autant en volume qu'en pertinence.
GG ne sait pas lire, il mesure, il compte et il compare. C'est un mathématicien pas un littéraire.

Djoudje
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 216
Inscription: Mar Mai 29, 2007 20:36

Message le Mer Aoû 13, 2008 8:20

En tout cas, il y en a un qui s'en sort bien depuis la baffe du 26/06 : chauffeurdebuzz.com
L'extension webdevelopper de firefox sort plus de 300 liens sur la page d'accueil et plus de 200 en allant sur une rubrique.
Le contenu texte ne semble pas prédominant par rapport aux liens dans ce cas. Et c'est le cas de beaucoup de pages.


Zecat
WRInaute accro
WRInaute accro
 
Messages: 7576
Inscription: Mar Mar 01, 2005 2:44

Message le Mer Aoû 13, 2008 8:40

Djoudje a écrit:En tout cas, il y en a un qui s'en sort bien depuis la baffe du 26/06 : chauffeurdebuzz.com
L'extension webdevelopper de firefox sort plus de 300 liens sur la page d'accueil et plus de 200 en allant sur une rubrique.
Le contenu texte ne semble pas prédominant par rapport aux liens dans ce cas. Et c'est le cas de beaucoup de pages.

Je viens de télécharger cette extension. Comment tu obtiens ces nombres (c'est quelle ligne des menus ?)

Djoudje
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 216
Inscription: Mar Mai 29, 2007 20:36

Message le Mer Aoû 13, 2008 8:56

Menu "Information", option "view link information"

Autre utilisation sympa: voir les H1,H2... avec l'option "view document outline"


Zecat
WRInaute accro
WRInaute accro
 
Messages: 7576
Inscription: Mar Mar 01, 2005 2:44

Message le Mer Aoû 13, 2008 9:25

Djoudje a écrit:Menu "Information", option "view link information"

Autre utilisation sympa: voir les H1,H2... avec l'option "view document outline"

Merci.

arfff : 1190 sur cette page : -http://annuaire.yagoort.org/mots/C.html :lol:


dadovb
WRInaute accro
WRInaute accro
 
Messages: 2038
Inscription: Mar Nov 22, 2005 9:50

Message le Mer Aoû 13, 2008 16:04

Cendrillon a écrit:[...] une zone "footer' (souvent blindée de liens) qu'il s'empresse de mettre à la corbeille.


Je dirais qu'il la met de côté, mais pas directement à la poubelle. De toute façon, à moins d'interpréter le CSS, il n'a aucune manière de savoir que les liens se trouvent dans le footer.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15905
Inscription: Ven Avr 19, 2002 19:51

Message le Mer Aoû 13, 2008 18:33

dadovb a écrit:
Cendrillon a écrit:[...] une zone "footer' (souvent blindée de liens) qu'il s'empresse de mettre à la corbeille.


Je dirais qu'il la met de côté, mais pas directement à la poubelle. De toute façon, à moins d'interpréter le CSS, il n'a aucune manière de savoir que les liens se trouvent dans le footer.

peut-être mais une zone HTML bourrée de liens, souvent externes, souvent hors thématique, c'est quand même assez facile à détecter ;-)
et puis je crois que tu sous-estimes un peu les chercheurs chez les moteurs (Google, Yahoo, MSN). Il y a eu des papiers ou brevets là-dessus.


ybet
WRInaute accro
WRInaute accro
 
Messages: 6807
Inscription: Sam Nov 22, 2003 8:37

Message le Mer Aoû 13, 2008 18:51

Zecat a écrit:
Djoudje a écrit:Menu "Information", option "view link information"

Autre utilisation sympa: voir les H1,H2... avec l'option "view document outline"

Merci.

arfff : 1190 sur cette page : -http://annuaire.yagoort.org/mots/C.html :lol:


ca aussi j'ai remarqué, certaines de mes pages fon aussi plus de mille liens et passent, d'autres avec quelques malheureux liens non. A croire qu'à partir d'une certaine limite, ca passe . :evil: Va t'en comprendre.

http://www.google.be/search?sourceid=na ... formatique

mon WW avait dispau depuis des lustres et ... le revoila avec même deux pages.

WebRankInfo a écrit:peut-être mais une zone HTML bourrée de liens, souvent externes, souvent hors thématique, c'est quand même assez facile à détecter ;-)
et puis je crois que tu sous-estimes un peu les chercheurs chez les moteurs (Google, Yahoo, MSN). Il y a eu des papiers ou brevets là-dessus.


même pas en footer, y compris les liens internes de navigation apparament.


Zecat
WRInaute accro
WRInaute accro
 
Messages: 7576
Inscription: Mar Mar 01, 2005 2:44

Message le Mer Aoû 13, 2008 18:55

ybet a écrit:
Zecat a écrit:
Djoudje a écrit:Menu "Information", option "view link information"

Autre utilisation sympa: voir les H1,H2... avec l'option "view document outline"

Merci.

arfff : 1190 sur cette page : -http://annuaire.yagoort.org/mots/C.html :lol:


ca aussi j'ai remarqué, certaines de mes pages fon aussi plus de mille liens et passent, d'autres avec quelques malheureux liens non. A croire qu'à partir d'une certaine limite, ca passe . :evil: Va t'en comprendre.
C'ets peut etre juste l'illustration que ton analyse n'est pas pertinente et que tu analyses ce nombre comme un facteur jouant un rôle alors que non ... du coup des fois oui des fois non ...


ybet
WRInaute accro
WRInaute accro
 
Messages: 6807
Inscription: Sam Nov 22, 2003 8:37

Message le Mer Aoû 13, 2008 20:48

Zecat a écrit:C'ets peut etre juste l'illustration que ton analyse n'est pas pertinente et que tu analyses ce nombre comme un facteur jouant un rôle alors que non ... du coup des fois oui des fois non ...

Où plutôt que l'algo juge qu'à partir d'un seuil, il laisse passer. Ce qui dans certains cas il ne faisait plus depuis des mois. Chauffeurdebuzz n'est pas un exemple, il est trop gros ... (parle du site pas de son anatomie :oops: ) et là dans un sens les liens externes vers ses pages jouent certainement (j'ai aussi tester :wink: )

... mes pages avec beaucoup de liens en contenu + navigation qui repassent sont comme par hasard les pages souvent visitées par les visiteurs hors GG, liens internes importants en pleins textes (j'en conclut merci à la google barre).

crindor
WRInaute accro
WRInaute accro
 
Messages: 1154
Inscription: Ven Nov 22, 2002 0:08

Message le Mer Aoû 13, 2008 21:41

ybet a écrit:Où plutôt que l'algo juge qu'à partir d'un seuil, il laisse passer. Ce qui dans certains cas il ne faisait plus depuis des mois. Chauffeurdebuzz n'est pas un exemple, il est trop gros ... (parle du site pas de son anatomie :oops: ) et là dans un sens les liens externes vers ses pages jouent certainement (j'ai aussi tester :wink: )


Perso, je serai plus catégorique en disant que GG n'applique pas les mêmes restrictions à tout le monde de façon identique. Pour cela, l'arme absolue est le degré de confiance. Ce critère n'est pas définissable par un algo mais par la visite humaine, donc un critère très subjectif.
Vous allez dire que je me réfère toujours à GG Actu mais son observation est une bonne école.
Juste un exemple comme valeur de preuve:
GG Actu a horreur des doublons. Généralement, les articles doublons sont éliminés des résulats "normaux", seul reste celui qu'il l'a publié le premier (ou celui dont GG est allé le prendre en premier, ce qui revient à peu près au même)
Or, me concernant, j'ai constaté à plusieurs reprises qu'un article considéré en "premium" apparaissait bien normalement jusqu'à ce que..... deux jours plus tard, un journal régional reprenne ce même article et devienne premium à ma place, me reléguant de fait comme un doublon.

Moralité: ne comparez pas un petit ou moyen site avec un site très gros concernant la façon dont il est construit, GG n'a pas du tout la même approche.

Pservolex
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 124
Inscription: Jeu Déc 28, 2006 0:02

Message le Jeu Aoû 14, 2008 9:01

salut les arraignées

L'idee d'une qualification de la structure me parait interessante.

Donc, si je resume grossierement les axes probables d'indexation, on pourrait retenir :

- La structure
- l'historique (evolution du nb de pages, evolution du nb de BL)
- les types de liens
- le contenu sémantique

sauf que, indépenament du site, ces paramètres parmis tant d'autres varient en fonction :

- de la geolocalisation du serveur
- de la geolocalisation de l'internaute
- du mot clef (pas meme traitement suivant les mots à concurrence ou non)
- etc.

a cela s'ajoute la possibilité d'une appreciation humaine ...

Pour la question de la structure, j'attire votre attention sur ce que cela presuppose au niveau du principe :

Autrement dit, si la structure d'un site est un critere important, alors un site ne pourra plus depasser une taille critique TC étant donné que seul un nombre maximum de liens est indexé par GG .

En d'autres termes : si GG refuse (pénalise) les pages de plus de 100 liens par pages alors votre site de 100*100*100 pages ne pourra pas avoir une structure avec menu sur le coté car des le deuxieme clic votre menu fera 200 liens (il y a bien evidement d'autres moyens)

ce n'est qu'un exemple, l'important est le principe qu'une structure imposée implique des limitations , et donc des sanctions, et donc une base de ce qui est bien et ce qui est mal.


Enfin, pour ma part, je penche de plus en plus sur une autre approche de l'algo, plus simple et plus rapide : A savoir le MeanShift (ou un algo global du meme genre) appliqué à un espace de pages de n dimensions , chaque dimension etant un critere qualifié . (je vous laisse le soin de chercher la description de cet algo)
En effet, je ne m'expliquai pas pourquoi sur certains mot clef, il sort parfois les home des gros sites et au milieu (dans les 5 premiers) une pages toute seule fin fond de structure. Or, le MeanShift pourrait bien expliquer ce phénomène :
l'algo trouve le "barycentre" (là où il est le plus "dense" selon les N dimensions) d'un mot clef dans un espace de pages comprenant toutes les pages concernées par le mot clef


Enfin, notez que j'apprecie que le nombre de gars qui se prennent une grosse baffe sur leur site grossisse chaque jour, non pas que le malheur des autres me fasse plaisir, mais plutot qu'en parallele, il y a de moins en moins de gars qui viennent dire " Fallait pas tout miser sur GG"

Je vous le dis du haut de mon tabouret à vache : GG n'aime pas les gros sites trop généraliste (annuaires, portails etc), à terme, il les tuera.


ybet
WRInaute accro
WRInaute accro
 
Messages: 6807
Inscription: Sam Nov 22, 2003 8:37

Message le Jeu Aoû 14, 2008 9:34

Pservolex a écrit:.... En d'autres termes : si GG refuse (pénalise) les pages de plus de 100 liens par pages alors votre site de 100*100*100 pages ne pourra pas avoir une structure avec menu sur le coté car des le deuxieme clic votre menu fera 200 liens (il y a bien evidement d'autres moyens)


Pense pas qu'il y a une limitation du nombre de liens dans l'esprit que tu donne, plutôt un rapport entre le nombre de liens de la page (partie navigation) et son contenu, ou même que les différents liens soient dans la même thématique.
C'est claire que les pages reprenant beaucoup de liens ne sont pas forcément les meilleurs pour le référencement (je dois bien en avoir 3 ou 4 qui dépassent à l'aise les 1000). Par contre, certaines sont pénalisées et d'autres non.
http://www.google.fr/search?hl=fr&q=dic ... seau&meta= la troisième est de mon WWW (en plus elle est géolocalisée sur la Belgique et devrait être nettement plus bas sur GG.fr, je sais pas le nombre de liens mais nettement au-dessus des 500 probablement et ... elle s'est repositionnée sur sa requête avec les modifs de l'algo de GG. Pourtant, tous les liens sont dans la même thématique.

Pour beaucoup de pages reprenant beaucoup de liens, le simple fait d'avoir rajouter des petits textes à coté des liesn dans le contenu a repositionné la page (ou au moins dégrisé).


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

Message le Jeu Aoû 14, 2008 10:39

Pservolex a écrit:Enfin, pour ma part, je penche de plus en plus sur une autre approche de l'algo, plus simple et plus rapide : A savoir le MeanShift (ou un algo global du meme genre) appliqué à un espace de pages de n dimensions , chaque dimension etant un critere qualifié . (je vous laisse le soin de chercher la description de cet algo)

:lol: :lol: Réduirais-tu le travail des SEO à un simple bruit gaussien ? :lol:

Plus sérieusement, il convient de ne pas confondre les traitements algorithmiques servant à déterminer la pertinence d'une page / mots clés avec tout ce qui relève de la détection des éventuelles tricheries ou "actions de gens comme nous", qui vu de Google ne font que fausser les modèles et perturber les traitements ("l'historique (evolution du nb de pages, evolution du nb de BL)" en fait partie) ... Le problème est sans doute aujourd'hui la place (l'occupance CPU dans leur cas) que ces traitements (que j'appelle "verrues SEO") commence à prendre dans l'algorithme global ...

Enfin et pour finir une arborescence à 3 niveaux avec 100 liens par niveau cela permet 1 million de pages, c'est déjà pas mal. D'autant qu'en passant à 4 niveaux on arrive à 100 millions de pages, tu en connais beaucoup de sites de 100 millions de pages ?

baffes de Google et structure de nos sites. baffes de Google et structure de nos sites.

Formation recommandée sur ce thème :

Formation Netlinking (liens et référencement) : apprenez ce qu'est réellement un bon lien pour le référencement et surtout comment en obtenir. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités