Retour vers le futur.. les techniques des 90's marchent

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

Franco
WRInaute impliqué
WRInaute impliqué
 
Messages: 812
Inscription: 2 Oct 2004

Message le Mer Déc 01, 2004 14:17

ybet a écrit:
Madrileño a écrit:Si un googleboy passe sur WRI il va lui faire comprendre que c'est pas bien :lol:


Sur un précédant article, Olivier signalait que des membres de google passaient régulièrement sur ce forum ...


J'ai cherché cet article mais je ne le trouve pas (peut être mal cherché aussi !). Tu n'aurais pas le lien ?

Merci d'avance.


cariboo
WRInaute impliqué
WRInaute impliqué
 
Messages: 770
Inscription: 8 Fév 2003

Message le Sam Déc 04, 2004 9:28

haderach a écrit:Ceci signifie que si on crée une page qui n'a aucun rapport avec le site (ou éloigné avec le sujet), même en bourrant la page de mot clés, celle-ci sera très mal référencée?


Non, la thématique du site n'a aucune importance si le moteur utilise juste une mesure de type tf*idf...

Donc on peut parfaitement bien référencer une page qui n'est pas dans la thématique du site. Il semble que Google ait "instillé" quelques éléments sensibles à la thématique dans son algo, mais c'est light, et on peut donc toujours y arriver.

Ce que je veux dire, c'est que le keyword stuffing basé sur la seule densité de mots clés sans tenir compte de l'inverse de la fréquence des documents contenant le mot clé, aboutit à créer des pages dont on peut détecter facilement "l'artificialité".

Le keyword stuffing se détecte facilement en mesurant le niveau de "co-occurence" des termes dans les pages et/ou de la distance. On peut le faire uniquement sur les requêtes concurrentielles par exemple. Ensuite, on détermine des seuils pour indiquer ce qui est normal, et ce qui ne l'est pas. Au dela d'une certaine limite, on déclasse la page...

Le keyword stuffing est par ailleurs plus efficace si le terme "df" est faible. Mais plus visible aussi...
Dernière édition par cariboo le Sam Déc 04, 2004 15:14, édité 1 fois.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 19422
Inscription: 19 Avr 2002

Message le Sam Déc 04, 2004 10:36

cariboo, penses-tu que Google (ou d'autres moteurs) prenne le temps de calculer tous les indices de co-occurrence des termes entre eux dans les pages, pour détecter du keyword stuffing ? La combinatoire me semble extrêmement élevée (ou alors je ne t'ai pas bien compris).

Par ailleurs tu dis que
Le keyword stuffing est par ailleurs plus efficace si le terme "df" est faible. Mais plus visible aussi...
Pourtant plus df est faible, plus tf peut être faible pour une même "efficacité", non ? Dans ce cas pourquoi dis-tu que le keyword stuffing est plus visible ?


cariboo
WRInaute impliqué
WRInaute impliqué
 
Messages: 770
Inscription: 8 Fév 2003

Message le Sam Déc 04, 2004 13:47

WRI a écrit:cariboo, penses-tu que Google (ou d'autres moteurs) prenne le temps de calculer tous les indices de co-occurrence des termes entre eux dans les pages, pour détecter du keyword stuffing ?


Tu as raison de souligner l'explosion rapide du nombre de calculs nécessaires. Heureusement, il est inutile de se taper le calcul pour tous les termes, juste pour les termes extraits des requêtes les plus populaires sur les thématiques où l'on souhaite faire le ménage...

Et comme les calculs à effectuer sont simples, c'est rapide économique et très efficace...

Pourtant plus df est faible, plus tf peut être faible pour une même "efficacité", non ? Dans ce cas pourquoi dis-tu que le keyword stuffing est plus visible ?


Quand on parle de keyword stuffing, on parle en fait d'augmenter tf à df quasi constant...
On ne peut pas jouer sur df, la fréquence dans le corpus.. Et on compare des pages qui sortent sur une requête donnée, donc aussi sur des df constants.

si df est élevé, l'augmentation de tf est "diluée", l'augmentation de tf*idf est faible . Si df est faible, un point de tf en plus crée un delta plus important sur les tf*idf que dans le premier cas.

Et l'impact du keyword stuffing augmente...


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 19422
Inscription: 19 Avr 2002

Message le Sam Déc 04, 2004 13:58

oui on est d'accord : si df est faible, le keyword stuffing a + d'impact mais il n'est pas "plus visible" car sur la page en question il n'est pas nécessaire d'avoir un tf très fort.

à part ça, comment peut-on évaluer le terme df, à part bosser chez Google ?


cariboo
WRInaute impliqué
WRInaute impliqué
 
Messages: 770
Inscription: 8 Fév 2003

Message le Sam Déc 04, 2004 14:29

Ca ce n'est pas très difficile, les lois de la statistique nous aident. On peut travailler sur un échantillon du corpus.

Mais je n'ai jamais dit que l'on pouvait vraiment utiliser la formule du tf*idf pour améliorer son référencement. Mon propos était d'expliquer pourquoi le "keyword stuffing" est plus ou moins efficace sur la plupart des moteurs, selon les requêtes.

Chaque moteur a sa cuisine, les mesures de "poids des mots" de type tf*idf sont souvent utilisées, mais il existe de nombreuses variantes, et savoir laquelle est réellement utilisée est une véritable gageure.

En plus, on est pas obligé d'utiliser le poids des mots : des alternatives existent, comme les méthodes probabilistes...

Par contre ce qui est sûr c'est que raisonner avec juste en tête la "densité de mots clés" conduit à faire des erreurs grossières. On utilise jamais ce critère non pondéré, cela donne des résultats désastreux...


cariboo
WRInaute impliqué
WRInaute impliqué
 
Messages: 770
Inscription: 8 Fév 2003

Message le Sam Déc 04, 2004 15:06

Pour l'histoire de la "visibilité" du keyword stuffing : en fait, je pensais à une technique simple que j'ai déjà vue dans une publication.

Pour évaluer une "spammy page", on surveille (vraiment) cette fois ci la densité de mots clés, c'est à dire le ratio Nombre d'occurences du mot dans le document/Nombre total de mots dans le document, et on le pondère par la fréquence de ce ratio dans le corpus pour une taille de documents donnée (une densité d'1/5 est normal pour deux mots sur un document de 10mots, mais si le texte fait 3000 mots, c'est louche), et par le "df" (la fréquence des documents contenant le terme) : si le terme est fréquent dans tout le corpus, une densité élevée est aussi normale...

Si le ratio dépasse un certain seuil, cela déclenche une alarme...

On imagine pas toujours le nombre de méthodes automatiques qui existent pour détecter les tricheurs... Par contre, on se demande aussi pourquoi elles ne sont pas plus utilisées (il faut dire qu'elles font aussi à la marge des dégâts collatéraux et des victimes innocentes).

Ce que je voulais donc dire, c'est que dans ce contexte, avec un df faible, le keyword stuffing est efficace, mais face à ce genre de "tests", il est très bien détecté...

Tiens au passage, je viens de me relire et je rend compte que j'ai dit plus haut deux bêtises sur tf*idf...

idf, c'est bien l'inverse de la fréquence des documents contenant le terme ( Nb de documents/nb de documents contenant le terme). En tant que pondération, on prend le log de ce ratio, qui prend tout de suite des valeurs très grande.

J'ai dit une fois "'linverse de la fréquence dans les documents", au lieu de l'inverse de la fréquence des documents, et une autre fois "l'inverse de la fréquence des mots clés dans le corpus" ce qui est faux...

Je corrige ça tout de suite

ocsima
WRInaute impliqué
WRInaute impliqué
 
Messages: 602
Inscription: 4 Sep 2004

Message le Sam Déc 04, 2004 16:44

Ensuite, on détermine des seuils pour indiquer ce qui est normal, et ce qui ne l'est pas. Au dela d'une certaine limite, on déclasse la page....

Des seuils ? A mon avis trop facile
Et on compare des pages qui sortent sur une requête donnée
Ca, je n'ai pas compris
Sinon, résumé des techniques auquel j'adhère
Et à creuser, la thématique du site (site référencé dans dmoz par exemple)


turulillo
WRInaute impliqué
WRInaute impliqué
 
Messages: 631
Inscription: 27 Juin 2003

Message le Lun Déc 06, 2004 16:53

Salut les amis.

Content de constater qu'on s'intéresse sur WRI à la co-occurrence et la connectivité sémantiques...depuis le temps que j'essaye d'attirer votre attention, sans grand succès il est vrai, sur les posts du Dr. Garcia, alias Orion, sur le forum de SearchEngineWatch.
Heureusement, Cariboo arrive à la rescousse et il a décidé d'utiliser des moyens bien plus persuasifs que mes pauvres incitations à aller lire de longs threads en anglais sur des forums US dont la plupart d'entre vous ne connaissent même pas le nom.
Tout d'abord, permettez-moi de renouveler mes appels à la lecture de ces chefs d'oeuvre de l'analyse sémantique appliquées aux moteurs de recherche.
D'autant plus que le Dr. Garcia, depuis qu'il a fait son coming out, nous a bien gentiment communiqué l'adresse de son site www.miislita.com
Voici un résumé des différents threads et ressources sur le sujet:

Sa 1ère discussion, Keywords Co-occurrence and Semantic Connectivity sur le forum de SEW
http://forums.searchenginewatch.com/showthread.php?t=48
Keywords Co-occurrence and Semantic Connectivity sur MiIslita, le site du Dr. Garcia
http://www.miislita.com/semantics/c-index-1.html
On-Topic analysis sur le forum de SEW :
http://forums.searchenginewatch.com/sho ... php?t=2031
On-Topic analysis sur MiIslita, le site du Dr ; Garcia
http://www.miislita.com/exp1/on-topic-analysis.html
Temporal Link Analysis sur le forum de SEW
http://forums.searchenginewatch.com/sho ... php?t=2317
Term Vector Theory and Keyword Weights sur le forum de SEW
http://forums.searchenginewatch.com/sho ... .php?t=489
Block Analysis 101 sur le forum de SEW
http://forums.searchenginewatch.com/sho ... php?t=2119
Local Context Analysis sur le forum de SEW
http://forums.searchenginewatch.com/sho ... php?t=2030
Le site du Dr. Garcia, une vraie mine d’or :
http://www.miislita.com/

Comment parler du Dr. Garcia sans évoquer le travail titanesque de Cariboo ?
En effet, Cariboo, charmé par le chant sémantique de la co-occurrence et de la connectivité des mots clés (à peu de chose près) s'en est allé demander au brave Dr. si celui-ci lui permettrait de traduire ses interventions sur le forum SEW.
Sans entrer dans les détails de cette aventure que Cariboo vous racontera lui-même (le problème c'est qu'il est tellement modeste qu'il faut bien que quelqu'un le fasse un peu à sa place) le Dr. Garcia lui a permis de traduire ce qu'il avait mis en ligne sur son site...ce que Cariboo a fait dans une série de 4 articles que je ne peux que vous conseiller de lire, puisqu'ils sont, à ma connaissance, les seuls échos que nous avons en France d'une série de sujets les plus actifs et les plus riches qui se discutent depuis près de 6 mois sur les forums US.
Vous comprendrez en les lisant pourquoi ils sont si importants : ils constituent un changement dans la manière d'aborder le référencement puisque le Dr. Garcia propose de mettre à disposition des référenceurs, des outils d'analyse sémantiques réservés jusqu'ici aux seuls scientifiques...et donc aux ingénieurs qui développent les algorithmes des moteurs de recherche.
Nous voici théoriquement, en mesure de les combattre à armes égales…oui, oui, j’ai bien dis de les combattre, pour ceux que le ton intrigue, ils n’ont qu’à se référer à un des mes précédents post :
http://www.webrankinfo.com/forums/highl ... htm#170030
J'espère qu'Olivier ne m’en voudra pas puisque ces 4 articles se situent sur WebMaster Hub, le forum "concurrent" de WRI.
Vous les trouverez dans la partie publication, 4 articles + une annexe.
Bonne lecture.

ocsima
WRInaute impliqué
WRInaute impliqué
 
Messages: 602
Inscription: 4 Sep 2004

Message le Lun Déc 06, 2004 18:47

Quand je disais :
Des seuils ? A mon avis trop facile

Je pensais à l'utilisation de fuzzy sets qui évitent les effets de seuil, de tout ou rien
Merci pour tes adresses turulillo
J'ai de la lecture pour un petit moment


cariboo
WRInaute impliqué
WRInaute impliqué
 
Messages: 770
Inscription: 8 Fév 2003

Message le Mar Déc 07, 2004 8:34

Je pensais à l'utilisation de fuzzy sets qui évitent les effets de seuil, de tout ou rien


Pourquoi pas ?

L'utilisation des "ensembles flous" permet en effet d'éviter les effets de seuil parasites, lorsqu'en réalité on essaie "d'étiqueter" des objets avec des attributs qui décrivent des états dont les limites sont floues.

Un bon exemple est donné par l'arc en ciel. Notre oeil distingue clairement le vert du bleu. Pourtant, il n'y a pas de "limite" entre le vert et le bleu, juste un continuum de longueurs d'ondes, et dans la zone "vert-bleu", on est bien en peine de dire si c'est vert ou si c'est bleu. En fait, la logique floue est utile pour décrire "notre" logique humaine, qui arrive à tenir des raisonnements juste avec des concepts "flous" (si je mélange du jaune et du bleu, j'obtiens du vert).

Sauf que lorsqu'il s'agit de déterminer si une page est spammy ou non, il arrive un moment où l'on doit déterminer si on garde la page, ou si on l'élimine... Et dans ce cas là, l'apport de la logique floue n'est pas très évident. Parce que la page ne peut pas être "enlevée à 30%" ou "plus ou moins gardée".

La logique floue en fait peut-être utilisée, mais en amont, pour évaluer des combinaisons de critères formant des règles complexes, ou des critères (comme les couleurs plus haut) que l'on étiquette en fonction de niveaux de valeurs non déterminés...


FroZenDooM
WRInaute discret
WRInaute discret
 
Messages: 161
Inscription: 11 Aoû 2004

Message le Mar Déc 07, 2004 9:54

Pour en revenir au sujet principal:
Oui ta technique marche comme beaucoup d'autre d'ailleur .
Le problème est de savoir combien de temps tu passera à travers les filets.
Car comme on dit certains ici .. le blacklistage finit toujours par frapper les plus férru de techniques interdites par GG.

A bon entendeur A+

ocsima
WRInaute impliqué
WRInaute impliqué
 
Messages: 602
Inscription: 4 Sep 2004

Message le Mar Déc 07, 2004 10:34

cariboo a écrit: Parce que la page ne peut pas être "enlevée à 30%" ou "plus ou moins gardée".


Mais la page est marquée, en attente, puis un jour
- soit durée sans correction -> page éliminée
- soit agrégation de pages même marque -> page(s) éliminée(s)
- soit une toute petite modification dans le mauvais sens -> page éliminée

Je ne comrends pas 8O je n'ai rien changé :lol:


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4940
Inscription: 17 Aoû 2004

Message le Mar Déc 07, 2004 13:08

personnellement je reste admirative devant les avancées faîtes par les moteurs de recherche dans les # domaines de la recherche d'information en mode "full text" ...

malheureusement, comme dans beaucoup de domaines nécessitant beaucoup de calculs, ce qui pose problème n'est pas tant l'arsenal d'outils mathématiques à la disposition des chercheurs, mais la capacité de les mettre en oeuvre sur les matériels cibles avec des temps de traitements compatibles avec le volume d'information à traiter et les puissances de traitement disponibles (sachant que ces traitements sont bien entendus temps réels et/ou reccurents) ... :wink:

ocsima
WRInaute impliqué
WRInaute impliqué
 
Messages: 602
Inscription: 4 Sep 2004

Message le Jeu Déc 09, 2004 2:31

J'ai de la lecture pour un petit moment

Ca y est j'ai lu.
Mais bof, c'est assez creux, IA parlant, et Lucene a été mis opensource en 2000. Dr Garcia n'est pas le seul à avoir inventé le tf*idf !

personnellement je reste admirative devant les avancées faîtes par les moteurs de recherche dans les # domaines de la recherche d'information en mode "full text" ...

Attends, puisqu'on parle aussi de sémantique de sites, comme moi des résultats du projet SEKT : http://www.sekt-project.com/
Connais-tu d'autres projets sur l'indexation recherche ?
Ne lance pas la requête http://www.google.fr/search?hl=fr&c2cof ... cher&meta=

Retour vers le futur.. les techniques des 90's marchent Retour vers le futur.. les techniques des 90's marchent

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités