Retour vers le futur.. les techniques des 90's marchent

Nouveau WRInaute
Bon,

Si vous allez sur google.com et que vous tapez "lease car" jetez un coupo d'oeuil au numero 2.
Incroyable!! Les locations longues durees aux USA c'est un des marches les plus concurrentiels EX: 10 dollars du click sur Overture 8O
Depuis 3 mois je travaille sur la densite de KW, et aussi le rapprochement des KW par theme. Pour moi ca marche bien et je pense que ca a du sens pour les utilisateurs mais la vraiment je ne comprends pas...

la j'ai le meme mot "lease" repete au moins 1000 fois presqu a la suite et pour tant aux USA Google fait vraiment gaf... En Europe c'est facile de tricher google s'en fou un peu.

Vous avez peut etre une explication?

Jeremie
 
WRInaute accro
Madrileño a dit:
Si un googleboy passe sur WRI il va lui faire comprendre que c'est pas bien :lol:

Sur un précédant article, Olivier signalait que des membres de google passaient régulièrement sur ce forum ...
 
WRInaute impliqué
Bonjour Jérémie...

La plupart des moteurs (pour Google on ne sait pas mais c'est probable aussi) ne raisonnent pas du tout en terme de "densité de mots clés" dans une page, mais, compte tenu de la structure des index, en terme de fréquences de mots clés (term frequency) pondérés par l'inverse de la fréquence des documents contenant le mot clé rapportée à la taille du corpus de documents indexés (inverse document frequency).

Chaque moteur à sa formule magique pour mesurer ce truc. Le résultat, c'est que si une page, même spammy, a la bonne équation en terme de tf*idf ou autre mesure du même genre, et/ou un score cohérent en terme d'indice de co-occurrence de mots clés, ta page peut sortir dans les premières...

Donc je ne suis pas étonné que cette page sorte avec un bon score... Essaie un "keyword stuffing" non naturel avec ce genre de requêtes, et tu vas plonger dans les profondeurs du classement, j'en suis à peu près sûr...
 
WRInaute passionné
cariboo a dit:
La plupart des moteurs (pour Google on ne sait pas mais c'est probable aussi) ne raisonnent pas du tout en terme de "densité de mots clés" dans une page, mais, compte tenu de la structure des index, en terme de fréquences de mots clés (term frequency) pondérés par l'inverse de la densité mesurée sur la taille du corpus de documents indexés (inverse document frequency).

Salut Cariboo !

J'ai pas compris. Pondérés par quoi ? Qu'est-ce que "l'inverse de la densité mesurée sur la taille du corpus de documents indexés (inverse document frequency)" ? Merci d'avance si tu prends le temps de répondre.
 
WRInaute accro
La plupart des moteurs (pour Google on ne sait pas mais c'est probable aussi) ne raisonnent pas du tout en terme de "densité de mots clés" dans une page, mais, compte tenu de la structure des index, en terme de fréquences de mots clés (term frequency) pondérés par l'inverse de la densité mesurée sur la taille du corpus de documents indexés (inverse document frequency).

Ben justement vu le doc ca revient au même il devrait être illiminé direct, ca peut pas être naturel autant de keyword en si peu de mots :)

Essaie un "keyword stuffing" non naturel avec ce genre de requêtes, et tu vas plonger dans les profondeurs du classement, j'en suis à peu près sûr...

Y'a pas une notion de texte caché dans le "kyeword stuffing", c'est ce que j'avais cru comprendre ?
 
WRInaute impliqué
Y'a pas une notion de texte caché dans le "kyeword stuffing", c'est ce que j'avais cru comprendre ?

Non, le faire en texte caché est possible, mais ce n'est pas indispensable...

Le "keyword stuffing" ("bourrage de mots clés") consiste à répéter de manière artificielle dans une page les mots clés sur lesquels on souhaite faire référencer sa page, pour sortir en premier. Comme l'ont souligné certains, cette pratique a eu son heure de gloire... Sauf que cela fait belle lurette que les moteurs ont appris à ne pas réagir bêtement en mettant en avant de telles pages...

J'ai pas compris. Pondérés par quoi ? Qu'est-ce que "l'inverse de la densité mesurée sur la taille du corpus de documents indexés (inverse document frequency)" ? Merci d'avance si tu prends le temps de répondre.

J'ai dit inverse de la densité ? Zut, c'est un lapsus, c'est l'inverse de la fréquence...

Pour faire court, si on mesure seulement la fréquence des mots clés dans une page, et si on classe les mots clés présents par fréquence, ce qui sort en premier, ce ne sont pas forcément les mots clés qui révèlent de quoi parle la page, mais plutôt les articles comme "de, le etc...".

Pour éviter ce biais, on calcule la fréquence des pages contenant les mots clés dans tout le corpus (corpus=l'ensemble des pages indéxées par le moteur, dans la pratique un échantillon suffisamment volumineux représentatif de ces pages suffit). Sur tout le corpus, les mots comme "de, le , pas, est" etc... sont présents dans les pages avec une fréquence élevée, beaucoup plus élevée que les mots qui caractérisent le contenu d'une page isolée...

Donc, si on classe les pages non pas en fonction de la seule fréquence des mots clés, mais en fonction de cette fréquence multipliée par l'inverse de la fréquence des pages contenants ces mots clés dans le corpus, cette fois ci, ce qui sort en premier, ce sont les mots clés vraiment caractéristiques d'une page donnée.

Dès qu'un moteur utilise une mesure à la "tf*idf", le résultat c'est que le keyword stuffing marche de manière très différente d'une requête à l'autre...

Reste que sur des moteurs sophistiqués, la co-occurrence des termes et la proximité ont aussi une influence...
 
WRInaute impliqué
Sauf que les 'mots vides' : le, la, de, ... ne sont 'généralement) pas dans l'index
Ils sont (en général) sautés lors de l'indexation des pages et non pris en compte dans la requête, à une nuance près : il existe quelque chose entre les mots, quoi exactement ?
 
WRInaute impliqué
cariboo a dit:
Donc, si on classe les pages non pas en fonction de seule fréquence des mots clés, mais en fonction de cette fréquence multipliée par l'inverse de la fréquence des mots clés dans le corpus, cette fois ci, ce qui sort en premier, ce sont les mots clés vraiment caractéristiques d'une page donnée.

Ceci signifie que si on crée une page qui n'a aucun rapport avec le site (ou éloigné avec le sujet), même en bourrant la page de mot clés, celle-ci sera très mal référencée?

Si c'est la cas, comment des sites généralistes peuvent-ils tirer leur épingle du jeu?

Enfin, à quoi correspondent les terme de la formule dont tu parle?

Merci d'avance pour cet éclairage!!
 
WRInaute impliqué
ybet a dit:
Madrileño a dit:
Si un googleboy passe sur WRI il va lui faire comprendre que c'est pas bien :lol:

Sur un précédant article, Olivier signalait que des membres de google passaient régulièrement sur ce forum ...

J'ai cherché cet article mais je ne le trouve pas (peut être mal cherché aussi !). Tu n'aurais pas le lien ?

Merci d'avance.
 
WRInaute impliqué
haderach a dit:
Ceci signifie que si on crée une page qui n'a aucun rapport avec le site (ou éloigné avec le sujet), même en bourrant la page de mot clés, celle-ci sera très mal référencée?

Non, la thématique du site n'a aucune importance si le moteur utilise juste une mesure de type tf*idf...

Donc on peut parfaitement bien référencer une page qui n'est pas dans la thématique du site. Il semble que Google ait "instillé" quelques éléments sensibles à la thématique dans son algo, mais c'est light, et on peut donc toujours y arriver.

Ce que je veux dire, c'est que le keyword stuffing basé sur la seule densité de mots clés sans tenir compte de l'inverse de la fréquence des documents contenant le mot clé, aboutit à créer des pages dont on peut détecter facilement "l'artificialité".

Le keyword stuffing se détecte facilement en mesurant le niveau de "co-occurence" des termes dans les pages et/ou de la distance. On peut le faire uniquement sur les requêtes concurrentielles par exemple. Ensuite, on détermine des seuils pour indiquer ce qui est normal, et ce qui ne l'est pas. Au dela d'une certaine limite, on déclasse la page...

Le keyword stuffing est par ailleurs plus efficace si le terme "df" est faible. Mais plus visible aussi...
 
Olivier Duffez (admin)
Membre du personnel
cariboo, penses-tu que Google (ou d'autres moteurs) prenne le temps de calculer tous les indices de co-occurrence des termes entre eux dans les pages, pour détecter du keyword stuffing ? La combinatoire me semble extrêmement élevée (ou alors je ne t'ai pas bien compris).

Par ailleurs tu dis que
Le keyword stuffing est par ailleurs plus efficace si le terme "df" est faible. Mais plus visible aussi...
Pourtant plus df est faible, plus tf peut être faible pour une même "efficacité", non ? Dans ce cas pourquoi dis-tu que le keyword stuffing est plus visible ?
 
WRInaute impliqué
WRI a dit:
cariboo, penses-tu que Google (ou d'autres moteurs) prenne le temps de calculer tous les indices de co-occurrence des termes entre eux dans les pages, pour détecter du keyword stuffing ?

Tu as raison de souligner l'explosion rapide du nombre de calculs nécessaires. Heureusement, il est inutile de se taper le calcul pour tous les termes, juste pour les termes extraits des requêtes les plus populaires sur les thématiques où l'on souhaite faire le ménage...

Et comme les calculs à effectuer sont simples, c'est rapide économique et très efficace...

Pourtant plus df est faible, plus tf peut être faible pour une même "efficacité", non ? Dans ce cas pourquoi dis-tu que le keyword stuffing est plus visible ?

Quand on parle de keyword stuffing, on parle en fait d'augmenter tf à df quasi constant...
On ne peut pas jouer sur df, la fréquence dans le corpus.. Et on compare des pages qui sortent sur une requête donnée, donc aussi sur des df constants.

si df est élevé, l'augmentation de tf est "diluée", l'augmentation de tf*idf est faible . Si df est faible, un point de tf en plus crée un delta plus important sur les tf*idf que dans le premier cas.

Et l'impact du keyword stuffing augmente...
 
Olivier Duffez (admin)
Membre du personnel
oui on est d'accord : si df est faible, le keyword stuffing a + d'impact mais il n'est pas "plus visible" car sur la page en question il n'est pas nécessaire d'avoir un tf très fort.

à part ça, comment peut-on évaluer le terme df, à part bosser chez Google ?
 
WRInaute impliqué
Ca ce n'est pas très difficile, les lois de la statistique nous aident. On peut travailler sur un échantillon du corpus.

Mais je n'ai jamais dit que l'on pouvait vraiment utiliser la formule du tf*idf pour améliorer son référencement. Mon propos était d'expliquer pourquoi le "keyword stuffing" est plus ou moins efficace sur la plupart des moteurs, selon les requêtes.

Chaque moteur a sa cuisine, les mesures de "poids des mots" de type tf*idf sont souvent utilisées, mais il existe de nombreuses variantes, et savoir laquelle est réellement utilisée est une véritable gageure.

En plus, on est pas obligé d'utiliser le poids des mots : des alternatives existent, comme les méthodes probabilistes...

Par contre ce qui est sûr c'est que raisonner avec juste en tête la "densité de mots clés" conduit à faire des erreurs grossières. On utilise jamais ce critère non pondéré, cela donne des résultats désastreux...
 
WRInaute impliqué
Pour l'histoire de la "visibilité" du keyword stuffing : en fait, je pensais à une technique simple que j'ai déjà vue dans une publication.

Pour évaluer une "spammy page", on surveille (vraiment) cette fois ci la densité de mots clés, c'est à dire le ratio Nombre d'occurences du mot dans le document/Nombre total de mots dans le document, et on le pondère par la fréquence de ce ratio dans le corpus pour une taille de documents donnée (une densité d'1/5 est normal pour deux mots sur un document de 10mots, mais si le texte fait 3000 mots, c'est louche), et par le "df" (la fréquence des documents contenant le terme) : si le terme est fréquent dans tout le corpus, une densité élevée est aussi normale...

Si le ratio dépasse un certain seuil, cela déclenche une alarme...

On imagine pas toujours le nombre de méthodes automatiques qui existent pour détecter les tricheurs... Par contre, on se demande aussi pourquoi elles ne sont pas plus utilisées (il faut dire qu'elles font aussi à la marge des dégâts collatéraux et des victimes innocentes).

Ce que je voulais donc dire, c'est que dans ce contexte, avec un df faible, le keyword stuffing est efficace, mais face à ce genre de "tests", il est très bien détecté...

Tiens au passage, je viens de me relire et je rend compte que j'ai dit plus haut deux bêtises sur tf*idf...

idf, c'est bien l'inverse de la fréquence des documents contenant le terme ( Nb de documents/nb de documents contenant le terme). En tant que pondération, on prend le log de ce ratio, qui prend tout de suite des valeurs très grande.

J'ai dit une fois "'linverse de la fréquence dans les documents", au lieu de l'inverse de la fréquence des documents, et une autre fois "l'inverse de la fréquence des mots clés dans le corpus" ce qui est faux...

Je corrige ça tout de suite
 
WRInaute impliqué
Ensuite, on détermine des seuils pour indiquer ce qui est normal, et ce qui ne l'est pas. Au dela d'une certaine limite, on déclasse la page....
Des seuils ? A mon avis trop facile
Et on compare des pages qui sortent sur une requête donnée
Ca, je n'ai pas compris
Sinon, résumé des techniques auquel j'adhère
Et à creuser, la thématique du site (site référencé dans dmoz par exemple)
 
WRInaute impliqué
Salut les amis.

Content de constater qu'on s'intéresse sur WRI à la co-occurrence et la connectivité sémantiques...depuis le temps que j'essaye d'attirer votre attention, sans grand succès il est vrai, sur les posts du Dr. Garcia, alias Orion, sur le forum de SearchEngineWatch.
Heureusement, Cariboo arrive à la rescousse et il a décidé d'utiliser des moyens bien plus persuasifs que mes pauvres incitations à aller lire de longs threads en anglais sur des forums US dont la plupart d'entre vous ne connaissent même pas le nom.
Tout d'abord, permettez-moi de renouveler mes appels à la lecture de ces chefs d'oeuvre de l'analyse sémantique appliquées aux moteurs de recherche.
D'autant plus que le Dr. Garcia, depuis qu'il a fait son coming out, nous a bien gentiment communiqué l'adresse de son site www.miislita.com
Voici un résumé des différents threads et ressources sur le sujet:

Sa 1ère discussion, Keywords Co-occurrence and Semantic Connectivity sur le forum de SEW
http://forums.searchenginewatch.com/showthread.php?t=48
Keywords Co-occurrence and Semantic Connectivity sur MiIslita, le site du Dr. Garcia
http://www.miislita.com/semantics/c-index-1.html
On-Topic analysis sur le forum de SEW :
http://forums.searchenginewatch.com/sho ... php?t=2031
On-Topic analysis sur MiIslita, le site du Dr ; Garcia
http://www.miislita.com/exp1/on-topic-analysis.html
Temporal Link Analysis sur le forum de SEW
http://forums.searchenginewatch.com/sho ... php?t=2317
Term Vector Theory and Keyword Weights sur le forum de SEW
http://forums.searchenginewatch.com/sho ... .php?t=489
Block Analysis 101 sur le forum de SEW
http://forums.searchenginewatch.com/sho ... php?t=2119
Local Context Analysis sur le forum de SEW
http://forums.searchenginewatch.com/sho ... php?t=2030
Le site du Dr. Garcia, une vraie mine d’or :
http://www.miislita.com/

Comment parler du Dr. Garcia sans évoquer le travail titanesque de Cariboo ?
En effet, Cariboo, charmé par le chant sémantique de la co-occurrence et de la connectivité des mots clés (à peu de chose près) s'en est allé demander au brave Dr. si celui-ci lui permettrait de traduire ses interventions sur le forum SEW.
Sans entrer dans les détails de cette aventure que Cariboo vous racontera lui-même (le problème c'est qu'il est tellement modeste qu'il faut bien que quelqu'un le fasse un peu à sa place) le Dr. Garcia lui a permis de traduire ce qu'il avait mis en ligne sur son site...ce que Cariboo a fait dans une série de 4 articles que je ne peux que vous conseiller de lire, puisqu'ils sont, à ma connaissance, les seuls échos que nous avons en France d'une série de sujets les plus actifs et les plus riches qui se discutent depuis près de 6 mois sur les forums US.
Vous comprendrez en les lisant pourquoi ils sont si importants : ils constituent un changement dans la manière d'aborder le référencement puisque le Dr. Garcia propose de mettre à disposition des référenceurs, des outils d'analyse sémantiques réservés jusqu'ici aux seuls scientifiques...et donc aux ingénieurs qui développent les algorithmes des moteurs de recherche.
Nous voici théoriquement, en mesure de les combattre à armes égales…oui, oui, j’ai bien dis de les combattre, pour ceux que le ton intrigue, ils n’ont qu’à se référer à un des mes précédents post :
https://www.webrankinfo.com/forum/highl ... htm#170030
J'espère qu'Olivier ne m’en voudra pas puisque ces 4 articles se situent sur WebMaster Hub, le forum "concurrent" de WRI.
Vous les trouverez dans la partie publication, 4 articles + une annexe.
Bonne lecture.
 
WRInaute impliqué
Quand je disais :
Des seuils ? A mon avis trop facile
Je pensais à l'utilisation de fuzzy sets qui évitent les effets de seuil, de tout ou rien
Merci pour tes adresses turulillo
J'ai de la lecture pour un petit moment
 
WRInaute impliqué
Je pensais à l'utilisation de fuzzy sets qui évitent les effets de seuil, de tout ou rien

Pourquoi pas ?

L'utilisation des "ensembles flous" permet en effet d'éviter les effets de seuil parasites, lorsqu'en réalité on essaie "d'étiqueter" des objets avec des attributs qui décrivent des états dont les limites sont floues.

Un bon exemple est donné par l'arc en ciel. Notre oeil distingue clairement le vert du bleu. Pourtant, il n'y a pas de "limite" entre le vert et le bleu, juste un continuum de longueurs d'ondes, et dans la zone "vert-bleu", on est bien en peine de dire si c'est vert ou si c'est bleu. En fait, la logique floue est utile pour décrire "notre" logique humaine, qui arrive à tenir des raisonnements juste avec des concepts "flous" (si je mélange du jaune et du bleu, j'obtiens du vert).

Sauf que lorsqu'il s'agit de déterminer si une page est spammy ou non, il arrive un moment où l'on doit déterminer si on garde la page, ou si on l'élimine... Et dans ce cas là, l'apport de la logique floue n'est pas très évident. Parce que la page ne peut pas être "enlevée à 30%" ou "plus ou moins gardée".

La logique floue en fait peut-être utilisée, mais en amont, pour évaluer des combinaisons de critères formant des règles complexes, ou des critères (comme les couleurs plus haut) que l'on étiquette en fonction de niveaux de valeurs non déterminés...
 
WRInaute discret
Pour en revenir au sujet principal:
Oui ta technique marche comme beaucoup d'autre d'ailleur .
Le problème est de savoir combien de temps tu passera à travers les filets.
Car comme on dit certains ici .. le blacklistage finit toujours par frapper les plus férru de techniques interdites par GG.

A bon entendeur A+
 
WRInaute impliqué
cariboo a dit:
Parce que la page ne peut pas être "enlevée à 30%" ou "plus ou moins gardée".

Mais la page est marquée, en attente, puis un jour
- soit durée sans correction -> page éliminée
- soit agrégation de pages même marque -> page(s) éliminée(s)
- soit une toute petite modification dans le mauvais sens -> page éliminée

Je ne comrends pas 8O je n'ai rien changé :lol:
 
WRInaute accro
personnellement je reste admirative devant les avancées faîtes par les moteurs de recherche dans les # domaines de la recherche d'information en mode "full text" ...

malheureusement, comme dans beaucoup de domaines nécessitant beaucoup de calculs, ce qui pose problème n'est pas tant l'arsenal d'outils mathématiques à la disposition des chercheurs, mais la capacité de les mettre en oeuvre sur les matériels cibles avec des temps de traitements compatibles avec le volume d'information à traiter et les puissances de traitement disponibles (sachant que ces traitements sont bien entendus temps réels et/ou reccurents) ... :wink:
 
WRInaute impliqué
J'ai de la lecture pour un petit moment
Ca y est j'ai lu.
Mais bof, c'est assez creux, IA parlant, et Lucene a été mis opensource en 2000. Dr Garcia n'est pas le seul à avoir inventé le tf*idf !

personnellement je reste admirative devant les avancées faîtes par les moteurs de recherche dans les # domaines de la recherche d'information en mode "full text" ...
Attends, puisqu'on parle aussi de sémantique de sites, comme moi des résultats du projet SEKT : http://www.sekt-project.com/
Connais-tu d'autres projets sur l'indexation recherche ?
Ne lance pas la requête https://www.google.fr/search?hl=fr&c2cof ... cher&meta=
 
WRInaute impliqué
Mais bof, c'est assez creux, IA parlant,

lol

Oui, c'est normal, il ne parle d'IA dans ces articles là, mais plutôt de linguistique statistique, et même pas de sémantique appliquée (ou très peu).

et Lucene a été mis opensource en 2000. Dr Garcia n'est pas le seul à avoir inventé le tf*idf !

Dans le même temps, il n'a jamais prétendu avoir inventé quoi que ce soit et cite ses sources... Il s'agit d'articles de vulgarisation destinés aux référenceurs par ailleurs, pas de papiers scientifiques.

Sur le projet Sekt, il s'agit d'un des nombreux travaux sur le web sémantique. Je signale au passage que quand on parle de sémantique appliquée, cela ne fait pas allusion au web sémantique.

Qu'appelles-tu l'indexation recherche ocsima ?
 
WRInaute impliqué
Bonjour,

Je me calme, j'étais énervé :oops: car déçu. :(
Plein de liens transmis, l'un a pour titre (et terme repris sur la page) : "Integrated Optimization, Artificial Intelligence, Scientific Marketing". Ma réaction : Chic, des documents qui parlent mon langage, je vais voir des documents qui partent de (qui s'appuient sur des) bases que je connais.
Déception, malgré ce titre, il ne parle pas d'IA.

L'indexation recherche est généralement réalisée par le même outil, Google par exemple : il indexe les documents (indexation), et renvoie une liste de résultats en réponse à une requête (recherche). C'est avec ce sens que j'utilise ces termes.
Lorsque les balises meta sont correctement utilisées l'indexeur peut s'en servir, mais elles ne le sont pas sur le web. Indexer des documents xml (non détournés pour des raisons publicitaires, commerciales, …), c'est génial, on peut utiliser les nœuds xml comme autant de meta data, et ensuite effectuer des recherches dessus (exemple classique : je cherche des documents dont l'auteur est Victor Hugo, et je ne veux pas de tous les documents qui parlent de Victor Hugo). Le Web sémantique permettra l'utilisation des documents par des machines, l'indexation recherche en profitera. D'autre part un des objectifs de Sekt semble être la détermination de thésaurus à partir de pages Web.

La thématique d'un site ou d'une page est un autre sujet je l'admets. Est-ce que Google détermine la thématique d'une page, d'un site ? C'est une question à laquelle je ne sais pas répondre. J'essaye (parfois avec, parfois sans succès) d'optimiser une page sur un mot clef et le succès me semble d'autant plus facile que ce mot-clef est 'sémantiquement' voisin de mon sujet principal. C'est pourquoi c'est un sujet sur lequel j'aimerais avoir d'autres réponses, d'autres résultats de tests : "Et à creuser, la thématique du site".
Un peu de tout ? Pas très clair ? Désolé, pas facile de faire court.
 
Olivier Duffez (admin)
Membre du personnel
au contraire ocsima, c'est intéressant ! quels genres de tests faudrait-il faire pour savoir si Google détermine la thématique d'une page, d'un site ? Comment le mesurer ?

que penser par exemple du test suivant :
Je crée une nouvelle page sur WRI qui parle de Victor Hugo (exemple complètement au hasard...). Si Google la positionne aussi bien voire mieux qu'un site qui ne parle que de Hugo ou de littérature, pourrais-je en déduire que Google ne gère pas la thématique d'un site ?
 
WRInaute accro
ocsima a dit:
le succès me semble d'autant plus facile que ce mot-clef est 'sémantiquement' voisin de mon sujet principal. C'est pourquoi c'est un sujet sur lequel j'aimerais avoir d'autres réponses, d'autres résultats de tests : "Et à creuser, la thématique du site"..
J'ai un exemple concret car j'ai fait un test : dans un site d'immo j'ai fourré UNE page sur les roms gba ( strictement rien a voir donc) ben elle navigue en la une et troisième page de google ( 626 000 réponses sur la requete ) exactement comme les autres dans leur thématique qui est celle du site (immobilier donc ) Et ce depuis 6 mois
On peut penser que GG ne gère pas la thématique d'un site
 
Nouveau WRInaute
Deux choses sont vraies:

1. Toutes les methodes de spamming, pages de redirections ect... sont possibles en europe (peut etre pas UK) mais pas aux US. J'ai vu tellement de concurrents utiliser ces methodes en Allemagne, France etc.. que je n'aiplus de doutes la dessus. Est ce que c'est parce que google n'a personne en europe ?? je ne sais pas ca ne devrait pas jouer pourtant.

2. En ce qui concerne la thematique je suis certain que ca a une importance mais cela depend des themes. Tous les moteurs de recherches sont en train de developper le cote local de leurs recherches (google local, yahoo local etc...). Donc pour moi le keyword Paris n'est pas considere comme le keyword bonbon. Je pense que google reconnais que pqris est un keyword de location et bonbon un keyword comme les autres.
Partant de la un site d'immobilier bien construit par exemple voudra placer ses locations en sub-domains: paris.monsite.com lyon.monsite.com etc...
Apres cela il est certain que pour tout theme aborde par le monsite et associe a paris les resultats seront bons.
En reaction au test (une page qui n'a rien a voir avec le reste du site et qui sort comme les sutres pages du site je restes perplexe...)
Je pense que tout comme les "locations" paris, france, mexique... il y a des themes qui sont reconnus par google peut etre grace aux grand annuaires. les themes seraient repris des categories de ces annuaires: immobilier, rencontre, cinema... Pour qu'un test soit probant il faudrait le faire sur des themes concurrentiels comme faire sortir une page "rencontre" dans un site immobilier. Je ne pense pas etre capable de faire cela.

Jeremie
 
WRInaute impliqué
Je ne pense pas que Google inclut une quelconque thématique dans l'index français.
Déjà parce que la masse de données à traiter serait monumentale : qui classe le site? DMOZ peut être... Mais la majorité des sites n'y sont pas. Il faut donc des évaluateurs humains ce qui prend "un peu " de temps.
Cela implique que pour Google il existe en plus de toutes les données d'un domaine qu'il stocke, il a aussi plusieurs mots clés définissant le site et sa thématique, et qu'à chaque recherche, il fouille sur tous les sites de l'index si certains ont une thématique en rapport avec la recherche.

Ok, supposons que ce soit possible techniquement. Mais qui définit la thématique des mots tapés dans la recherche?
Un script fait ça? Tous les mots de la langue française indéxé en tableaux avec les thématiques en correspondace?

Google n'a pas de limites mais là ça fait beaucoup, surtout qu'il le faire pour chaque langue.
Je pense que si la notion de recherche sémantique existe sur Google, déjà elle est limitée à l'anglais pour des raisons techniques évidentes.
Ensuite, je n'ai jamais vu aucune trace de ceci au cours de mes recherches : les topics de WRI se placent toujours excellement, alors que les sujets restent variés dans certains forums.
Nous avons tous -à notre grande surprise- des bons résultats "accidentels" : une page traitant d'un sujet X sur un site parlant de Y qui sort avant plusieurs sites parlant de X.
(Voir les résultats de l'annuaire WRI!)
Ca se voit surtout dans les forums, où il est possible de voir un des topics classé correctement alors qu'il n'a aucun rapport avec le reste du site.

Google a déjà beaucoup à gérer avec les BL, les PR, les ancres, le texte et ses balises etc.... sans avoir à inclure une nouvelle donnée.
 
WRInaute impliqué
Oscima, tu te mets dans de ces états !
Il faut clairement relativiser ce que dit Garcia, sur le forum de SEW, à des référenceurs, en espérant qu'il va y gagner quelque chose un de ces 4...soit.

Maintenant si tu veux parler d'IA appliquée à l'analyse sémantique, les ouvrages cités dans les annexes des posts de Garcia sur SEW et de Cariboo sur le Hub te permettront peut être d'aller plus loin...c'est déja pas mal.
Je crois me rappeler qu'il y a 2 ou 3 catégories de DMOZ en anglais qui proposent quelques sites sympa.
Mais tu avoueras quand même que c'etait plus interessant que le tiret ou l'underscore dans l'URL ? Non ? Bon et bien reprenons la où nous en étions auparavant :
Bon, alors, est ce que c'est mieux de faire http://mot-cle-concurrentiel.mon-site.com ou alors http://www.mon-site.com/mot-cle-concurrentiel.html ?
Parceque j'hésite un peu...co-occu... quoi ? Séman... qui ? Vous pouvez répéter ? :arrow:
 
Olivier Duffez (admin)
Membre du personnel
Jeremie, je pense qu'on peut trouver bcp de cas avec des pages bien classées sur des requêtes concurrentielles alors que le thème de la page diffère du thème du site.
Exemple (certainement temporaire mais bon) : une page de l'annuaire WRI se trouve 8ème sur 750 000 résultats pour la requête de notre âne préféré : "annonces immobilieres gratuites"
 
WRInaute accro
Je signale a ce sujet aux suspicieux qu'on peut encore etre devant une page WRI. L'avantage c'est d'occuper 20% des résultats de la une :lol: :lol:
dommage ça le fait pas pour annonces immobilier
 
Nouveau WRInaute
MMMMMMmmmmm

Extrement interessant en effet cela au moins c'est une vrai experience (meme si ce n'est peut etre pas une experience au depart).

2 choses neanmoins:

1. annonces immobilieres gratuites c'est 2000 queries / mois et annonces immobilieres c'est 80 0000. Statistiques Overture. Donc peut on considerer annonces immobiliere comme une query tres "competitive" ?
2. Il y a enormement de participants a WRI qui ont soit un site immobilier soit une section immobiliere. Ont ils un lien vers WRI? si oui cela pouraait verifier la premiere hypothese, google pourrait penser que le contenu de WRI se rapporche de l'immobilier.

3. Je ne parlais pas de tout le dictionnaire classe par categories mais seulement certaines categories (peut etre 10 avec des Keywords associes). Et d'un autre cote toutes les "locations", et avoir les 33 000 communes de france c'est quand meme pas bien complique...


Jeremie
 
WRInaute impliqué
après une minutieuse lecture de cette discussion très intéressante,
je peux vous apporter quelques infos sur la relation "page et thématique du site".

pour un site généraliste :
même pour des requêtes hautement concurrentielles (+ de 500 000 à 4 000 000 résultats) il n'y a pas de rapport entre la page et le thème du site (puisqu'il n'y a pas de thème dans un site généraliste).
on arrive à placer très facilement des pages dans différents domaines (immobilier, petites annonces, gites, vetements, ...).

pour un site spécialisé :
par contre je n'ai jamais essayé de faire l'inverse,
essayer de classer une page A qui se trouve dans un site très spécialisé B.
là peut être qu'il y a un critère thématique ?
 
Olivier Duffez (admin)
Membre du personnel
petite remarque en passant : il est intéressant de remarquer comment Google AdSense cible les pubs sur les pages qui viennent d'être mises en ligne sur un site qu'il connait déjà bien. En effet ça informe sur le thème du site connu par Google AdSense.

Exemple sur WRI : une page qui vient d'être mise en ligne, pas encore crawlée par Mediapartner, aura droit à des pubs pour du référencement et rien d'autre.

Cela n'a sans doute / peut-être rien à voir avec la recherche web de Google, mais Google possède la techno qui lui donne la thématique d'un site ou d'une page.
 
Nouveau WRInaute
1. Ce que tu dis a beaucoup de sens. Un site generaliste peut effectivemt placer des pages particulieres (immo, rencontre) plutot bien mais jamais aussi bien que les specialistes.
Un site generaliste n'a jamais reussit a me passer devant par exemple.

2. Je ne pense pas que le nombre de resultats soit un element a considerer en terme de concurrence.

Je pense que le nombre de queries/temps est plus important. 50 000 queries / mois
Il doit y avoir une correlation de toutes les manieres...

Egalement le prix du click....

EX:

New york mover: 550 000 resultats 2500 queries / mois (overture) $13 click.
roommate: 6 800 000 resultas 80 000 queries / mois (overture) $1 click
annonces immobilieres gratuites: 96 900 resultats 2000 queries / mois (overture) pas d'enchere
annonces immobilieres: 560 000 resultats 80 000 queries / mois (overture) 20 cemts click.

Les premiers resultats sont des sites specialistes et il n'y a aucune chance de leur passer devant avec un site generaliste et une page super bien optimisee.

Ces site ont enormement de liens venant de sites egalement specialises dans les domaines que ces sites couvrent.

Jeremie
 
WRInaute impliqué
Dr Dlp a dit:
Déjà parce que la masse de données à traiter serait monumentale : qui classe le site? DMOZ peut être... Mais la majorité des sites n'y sont pas. Il faut donc des évaluateurs humains ce qui prend "un peu " de temps

Ce n'est pas simple, mais pas besoin d'intervention humaine pour y arriver... Déterminer la thématique d'une page à partir d'une bonne ontologie, c'est un problème soit de statistiques, soit de logique, soit d'IA (ah, Ocsima, nous y voila).

A titre perso pour ma boîte, je suis en train de mettre au point un algo de clustering (classement par typologie de pages) à l'aide d'une ontologie simple, un algorithme bayésien, et quelques données d'entrainement. Tu appuies sur le bouton, et le truc te classe tes pages tout seul...

Google sait déterminer la thématique d'une page et d'un site... Adsense existe, et c'est ce que la technologie Adsense permet de faire.

Google a intégré des données liées aux pagerank thématiques dans son index par ailleurs. C'est ce que l'on voit à l'oeuvre dans -http://labs.google.com/personalized

Par contre, est-ce que la thématique et la sémantique est utilisée dans l'algorithme utilisé à l'heure actuelle par Google ?

Il est possible que la réponse soit : non, pas encore.

Mais il est aussi possible que oui, mais à dose tellement homéopathique que l'on arrive pas à en voir les effets subtil, sauf sur quelques requêtes particulières...

L'observation de caro est très juste.

Ce que remarquent la plupart des observateurs plaide au mieux pour une "instillation" de sensibilité à la thématique, mais pas plus. Il semble que sur la plupart des requêtes, on soit confronté un bon vieil algo pas très subtil, mais que sur des requêtes concurrentielles, on relève des ajustements, surtout depuis Florida.

Mais on me dirait qu'il y'a zéro prise en compte de la thématique et de la sémantique dans l'algo aujourd'hui, que je n'en serai pas plus surpris que ça !

Parce qu'il est facile (enfin hum ! possible...) de déterminer la thématique d'une page, ou d'un site (pas dans tous les cas, il y'a des cas où le système "ne sait pas")
Par contre, faute de contexte, déterminer la thématique d'une suite de trois mots n'est pas très aisé. Donc, si on ne connait pas le thème de la requête, fournir des réponses en fontion du thème diminue le "rappel" du moteur (cela ne ramène pas toutes les pages pertinentes...). Bref, les pages de résultats sont perçues comme "globalement moins pertinentes".

Pour que cela marche bien, il faut donner des infos de contexte en même temps que la requête (comme le profil dans le "personalized search" de Google Labs.
 
WRInaute accro
caro a dit:
pour un site spécialisé :
par contre je n'ai jamais essayé de faire l'inverse,
essayer de classer une page A qui se trouve dans un site très spécialisé B.
là peut être qu'il y a un critère thématique ?
j'ai donné un exemple a priori il n'y a pas de critère thématique
 
WRInaute impliqué
Hélas un exemple ne prouve rien...

Il existe des "filtres" sur certaines requêtes. En fait, Google ne classe pas les sites exactement de la même façon sur des requêtes concurrentielles, on le voit de manière spectaculaire depuis Florida...

Ces filtres sont ils basés sur la thématique du site ? ou de la page ? C'est une hypothèse plausible.
 
WRInaute accro
cariboo a dit:
Hélas un exemple ne prouve rien...

Il existe des "filtres" sur certaines requêtes. En fait, Google ne classe pas les sites exactement de la même façon sur des requêtes concurrentielles, on le voit de manière spectaculaire depuis Florida...

Ces filtres sont ils basés sur la thématique du site ? ou de la page ? C'est une hypothèse plausible.

on en avait déjà discuté. Même si je suis persuadé que GG filtre différamment certaines requêtes commerciales concurrentielles. As tu des preuves ou des critères qui positionne une recherche comme filtrée "concurrentielle"?
 
WRInaute impliqué
Je pollue le web (à mon échelle! :oops: ) autour de 'connaissances' avec mes deux sites. Quelque chose + connaissances, une page sort (avec la requête que j'ai indiquée au-dessus, il y a cinq réponses dans les 10ères qui arrivent).
Un de mes départs de cette pensée de 'thématique' du site est mon impossibilité de me placer (correctement, mieux que 100ème) sur la recherche 'google'.
Ma page google est sur optimisée ? Peut-être maintenant, mais 1) avant d'en arriver à cette densité j'ai commencé léger et 2) cette page sort (évidemment) très bien avec 'google connaissances'
Un test ne prouve rien (Erazor a un test qui dit le contraire), mais c'est un exemple avec un domaine spécialisé et une requête généraliste.
 
WRInaute accro
J'ai un peu plus qu'un exemple car un de mes sites immo sort pas trop mal sur des requetes "vacances + autre mot clé (un département par ex)" C'est moins bien postionné que du pur immo mais pas trop mal non plus genre 30 / 40eme sur des requetes a 1 M de résutats et le domaine vacances est concurentiel.
C'est peut etre un peu moins probant comme exemple car si les thématiques sont différentes on peut éventuellement les lier : immobilier > location > vacances . La théma est différente mais proche quand même dans ce cas .Faudrait savoir a quel degré un moteur les associe ( si il associe quoi que soit bien sur et j'en doute)
 
Nouveau WRInaute
qu'entendez vous par requette concurrentielle??

que pensez vous de cela?

2. Je ne pense pas que le nombre de resultats donnes par google pour une requette soit un element a considerer en terme de concurrence.
Je pense qu'il faut plus se baser sur le nombre de requettes par mois et le prix que sont prets a payer certaines entreprises par exemple.

EX:

New york mover: 550 000 resultats 2500 queries / mois (overture) $13 click.
roommate: 6 800 000 resultas 80 000 queries / mois (overture) $1 click
annonces immobilieres gratuites: 96 900 resultats 2000 queries / mois (overture) pas d'enchere
annonces immobilieres: 560 000 resultats 80 000 queries / mois (overture) 20 cemts click.

Les premiers resultats sont des sites specialistes et il n'y a aucune chance de leur passer devant avec un site generaliste et une page super bien optimisee.

Il n'est donc pas eonnant de pouvoir sortir facilement sur "annonces immobilieres gratuites" alors qu'il est bien plus difficile de sortir sur "annonces immobilieres" si on a pas un site specialise avec un peu de bouteille.

Jeremie
 
WRInaute accro
Re: qu'entendez vous par requette concurrentielle??

jeremie a dit:
Il n'est donc pas eonnant de pouvoir sortir facilement sur "annonces immobilieres gratuites" alors qu'il est bien plus difficile de sortir sur "annonces immobilieres" si on a pas un site specialise avec un peu de bouteille.
pour les annonces avec gratuites je suis d'accord c'est + facile J'ai quand même vu un site se placer en 4/5 mois sur la requete annonces immobilières tout court Ce n'est pas forcément une question d'age a priori
Par ailleurs regarde la requete "immobilier" ( c'est concurentiel je pense ) dans les 20 premiers il y a quand même des journaux , un repertoire yahoo, et ..domaine.fr
Pour les journaux on ne peux pas dire qu'ils soient "spécialistes" du domaine mais ils ont référencé des répertoires pour et ça marche (enfin pas tous :lol: )
Et le plus amusant c'est le sims immobilier ..
 
WRInaute impliqué
on en avait déjà discuté. Même si je suis persuadé que GG filtre différamment certaines requêtes commerciales concurrentielles. As tu des preuves ou des critères qui positionne une recherche comme filtrée "concurrentielle"?

Je n'ai pas bien compris ta position en fait sur ce point ?

On voit le filtre "Florida" encore à l'oeuvre avec la manip suivante

On prend une requête donnée :
"location paris"

On cherche "location paris xyzertyui" qui renvoie zéro résultat puisque ce mot (xyzertui) n'est pas présent dans les pages

Normalement "location paris -xyzertyui" doit renvoyer les mêmes réponses que "location paris" puisque xyzertyui n'est pas dans les pages.

Pourtant non... Il est intéressant de voir que les pages de résultat sont différentes. Certains ont prétendu qu'il s'agissait d'un filtre manuel (ça c'est impossible), d'autres un filtre antispam quelconque (le filtre n'élimine pas que les spammy pages) d'autres voient Hilltop, et une sensibilité à la thématique...

Si on veut rester honnête, c'est impossible à déterminer avec certitude...
 
WRInaute passionné
cariboo a dit:
Certains ont prétendu qu'il s'agissait d'un filtre manuel (ça c'est impossible

Pourquoi est-ce impossible ? Ne peut-on pas penser que, par exemple, les critères de classements sont pondérés différemment selon telle ou telle requête et que GG se cale pour tenter de minimiser les effets du spam à la mode sur ces requêtes-là ?
 
WRInaute impliqué
Ne peut-on pas penser que, par exemple, les critères de classements sont pondérés différemment selon telle ou telle requête

Compte tenu du nombre impressionnant de requêtes possibles (vraiment, vraiment impressionnant), il est impossible d'avoir une règle par requête . Par contre, on peut imaginer ajouter un filtre spécifique pour certaines requêtes...

Sauf que...

On peut l'imaginer, mais si je travaillais chez Google, j'éviterais comme la peste de mettre le doigt dans ce genre d'engrenage... Quand on commence à corriger "à la main" les résultats d'un moteur, cela signifie que l'algorithme de classement est mauvais. Si l'algorithme de classement a des failles, cela signifie que ce n'est pas quelques dizaines de réponses par langue que je dois corriger, mais des millions, voire des centaines de millions de requêtes.

Dans ce cas là, le bon réflexe, c'est de corriger l'algorithme.
 
WRInaute passionné
Je vois ce que tu veux dire, mais j'insiste. 8)

Les requêtes vraiment polluées, c'est à dire au point que l'internaute se trouve devant une page de résultats dégueulasse, ne sont pas si nombreuses que ça. Mettons quelques dizaines de thèmes ?

Il est possible de reconnaître que sur ces requêtes-là, l'algo de base n'est pas performant, sans qu'il soit pour autant mauvais. Analogie pourave : je suis bibliothécaire, je classe les bouquins par ordre alphabétique des titres des ouvrages. Manque de bol, tous les livres traitant de voiture s'appellent "Automobile" et tous les livres traitant de peinture à l'huile s'intitulent "Peinture à l'huile". Pour ces ouvrages-là, je décide de les classer par nom de l'auteur, ce qui serait pas terrible pour les livres sur la cuisine car, coincidence malheureuse, tous les auteurs de bouquins de recettes se nomment Michel, Dupont et Petit.

Est-il réellement nécessaire de modifier un algo qui marche pour 90 % des requêtes, pour améliorer seulement 10 % d'entre elles ?

En matière de bizness, on arrive, en travaillant proprement, à satisfaire 95 % d'une clientèle. En général, vouloir en satisfaire 96 % coûte très cher, 97 % deux fois plus que très cher, etc. Il n'est pas raisonnable pour une entreprise d'essayer de parvenir à ces performances. Ne peut-on prêter à Google un calcul de ce type ?
 
WRInaute accro
cariboo a dit:
Ne peut-on pas penser que, par exemple, les critères de classements sont pondérés différemment selon telle ou telle requête

Compte tenu du nombre impressionnant de requêtes possibles (vraiment, vraiment impressionnant), il est impossible d'avoir une règle par requête . Par contre, on peut imaginer ajouter un filtre spécifique pour certaines requêtes...

Oui et non. Qaund je parle de requêtes concurrentielles, je parle forcément de celle qui rapporte soit beaucoup de visiteurs, soit beaucoup de retombées financières.

GG pourrait utiliser un système très simple pour juger en automatique de la valeur d'une requête, le nombre d'adsence positionné sur cette recherche (sites et recherches confondues). Comme il est plus probable que la recherche "location paris" rapporte plus d'adword que la recherche "fleur" de pissenlis", GG ^pourrait utiliser un filtre différent, y compris pour es recherches à 15 mots mais utilisant des mots souvent repris dans les recherches, genre "location appartement région parisienne 15 eme", on retrouve location et paris
 
WRInaute impliqué
Est-il réellement nécessaire de modifier un algo qui marche pour 90 % des requêtes, pour améliorer seulement 10 % d'entre elles ?

Sauf que pour un moteur international grand public, même 1% des requêtes possibles, dans toutes les langues gérées, tous les index nationaux, cela représente un boulot titanesque... Donc à la place de Google, je ferais bosser 10 de leurs PhD pendant 3 mois, et j'obtiendrai un résultat automatiquement qu'une armée de philippins sous payés (bien qu'obligatoirement polyglottes et experts dans tous les domaines) ne parviendrait pas à atteindre en un an...
 
WRInaute passionné
Oki, je vais le dire autrement.

J'ai l'impression que l'hypothèse de base est que tous les thèmes sont homogènes, qu'il est possible de trouver un algo pertinent sur tous les sujets, que les structures des langages spécifiques à chaque domaine sont superposables.

Je n'en suis pas persuadé.

Quelques exemples : peut-on réellement comparer des pages sur l'informatique, sans cesse envahies par de nouveaux mots anglais francisés, ou employés tels quels, ou encore utilisés avec des glissements de sens, avec, au hasard, des pages sur le sexe riches d'un argot phénoménal, de métaphores anciennes et renouvelées, ou encore avec des pages sur la musique classique contenant des termes bien codés et spécifiés depuis des siècles ?

Je crois qu'une façon de classer des pages peut être valable sur un thème et désolante sur un autre. Et je ne parle même pas de la différence entre la façon de monter des pages destinées à vendre et des pages destinées à distraire ou à informer.

Des ajustements manuels me paraissent donc inévitables. Qu'en penses-tu ?
 
WRInaute impliqué
Il y'a des requêtes sur lesquelles des gens cherchent véritablement à se positionner (genre "téléchargement mp3" ou "Paris Hilton") et d'autres moins évidentes.

Sur les premières, il y'a de fortes chances que des pages "spammy" soient présentes, et que certains cherchent à optimiser leurs pages sur ces requêtes.

Sur d'autres pas du tout.

La lutte antispam peut justifier des interventions humaines. On sait que Google "blackliste" des sites à la main. D'autres automatiquement...

Par contre, il est faux de dire qu'il faut changer d'algo en fonction de la thématique parce que le contenu change. Je sais que cela heurte le sens commun, mais la linguistique statistique marche quelle que soit la langue, quel que soit le niveau de langage. L'algo de Google peut ainsi être le même pour la version anglaise, allemande et française, à quelques adaptations près... Et ça, parce qu'en pratique, on mesure la similarité entre la requête et la page comme critère de classement numéro 1 dans un moteur de recherche... Et cette similarité est calculable de la même façon quelle que soit le contexte linguistique.

Donc oui, il est possible de trouver un algo qui donne des résultats identiques sur tous les sujets... Par contre, si on veut améliorer la pertinence, il faut ajouter la possibilité de comprendre soit le contexte de la requête, soit le sens de la requête elle même... Et là il faut parfois ajouter des informations complémentaires, sujet par sujet (ontologie, taxonomie).
 
Nouveau WRInaute
WebRankInfo a dit:
petite remarque en passant : il est intéressant de remarquer comment Google AdSense cible les pubs sur les pages qui viennent d'être mises en ligne sur un site qu'il connait déjà bien. En effet ça informe sur le thème du site connu par Google AdSense.

Exemple sur WRI : une page qui vient d'être mise en ligne, pas encore crawlée par Mediapartner, aura droit à des pubs pour du référencement et rien d'autre.

Cela n'a sans doute / peut-être rien à voir avec la recherche web de Google, mais Google possède la techno qui lui donne la thématique d'un site ou d'une page.
Est-ce qu'il ne se base pas tt simplement sur la page Referer (qui est indexé ls plus svt sur un vieux site) pour trouver la sémantique d'une page non encore indexé ?
 
WRInaute impliqué
Apparemment non.

Cela se vérifie en créant des pages ex nihilo, dans le domaine mais sans lien en provenance d'autres pages.

Dans un tel cas, Adsense sert des annonces contextualisées en fonction de la thématique générale attribuée au domaine...
 
Discussions similaires
Haut