[Outil] Calcul de similarité textuelle entre 2 pages web


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15890
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Fév 22, 2005 0:05

j'ai bien précisé que pour l'instant cet outil se base sur les occurrences des mots dans les pages
je parle ici du texte visible, donc je commence par supprimer les balises HTML
pour l'instant je n'ai pas intégré de listes de "stop words" mais c'est envisagé

le pb est qu'on ignore totalement ce qui est utilisé par les moteurs :-(
c'est pourquoi je souhaite développer un outil qui fasse plusieurs calculs selon plusieurs méthodes, et qu'ensuite on en discute en confrontant les résultats de l'outil avec des situations réelles de désindexation ou autres problèmes !


Jeff-44
WRInaute passionné
WRInaute passionné
 
Messages: 593
Inscription: Ven Sep 03, 2004 14:27

Message le Mar Fév 22, 2005 8:31

Bonjour
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?

gatcweb
WRInaute impliqué
WRInaute impliqué
 
Messages: 296
Inscription: Mer Mai 05, 2004 7:05

Message le Mar Fév 22, 2005 10:14

Bonjour,

J'ai fait des tests avec "Similar Page Checker", "WRI Dice" et "WRI Jacard" (voir les URL au début du topic) avec 6 pages différentes.

Page 1 - page de référence doit voici le code :
Code: Tout sélectionner
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<title>Lorem ipsum dolor consectetuer adipiscing elit</title>
<meta name="description" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
<meta name="keywords" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
</head>
<body>
<h1>Lorem ipsum dolor sit consectetuer adipiscing elit</h1>
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Morbi interdum, mauris eu porta hendrerit, nunc eros vulputate purus, vel vestibulum nibh nunc eu augue. In lacus orci, adipiscing id, iaculis condimentum, iaculis sit amet, ligula. Sed a nunc eget arcu pharetra ornare. Vestibulum gravida consequat lorem. Nam lobortis magna volutpat dolor. Donec lacus nulla, molestie blandit, vehicula non, sollicitudin eu, nulla. Pellentesque commodo ligula in velit. Curabitur a mauris. Etiam luctus est sit amet leo. Morbi gravida tortor ut magna. Vestibulum vitae urna. Vivamus in metus. Donec fringilla commodo nulla. Proin mauris metus, cursus a, accumsan sit amet, lacinia in.
</body>
</html>

Page 2 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <title>
Page 3 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="description">
Page 4 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="keywords">
Page 5 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <h1>
Page 6 - Idem à page 1 mais suppression du "L" de "Lorem" au début du texte

Voici les résultats :
Image
[En rouge] On constate qu'il y a des cas où "WRI Dice" et "WRI Jacard" ne voient pas de différence entre les pages alors que "Similar Page Checker", oui.

Voilà... A vos commentaires...


yannouk
WRInaute accro
WRInaute accro
 
Messages: 2138
Inscription: Sam Oct 11, 2003 12:35

Message le Mar Fév 22, 2005 10:34

pas croyable j'ai teste les deux pages les mieux référencées de ùmon site. Voila ce que j'obtiens:

Dice 92.94% 18.18% 57.89% 60.00%
Jacard 86.81% 10.00% 40.74% 42.86%

c'est grave doncteur?
a priori, non, ces pages sont sur google depuis longtemps et occupent de tres bonnes positions sur leurs mots cles respectifs


macjee
WRInaute impliqué
WRInaute impliqué
 
Messages: 403
Inscription: Mar Avr 29, 2003 10:15

Message le Mar Fév 22, 2005 10:52

J'ai fait un outil de densité et le premier truc qui m'est venu c'est de virer des mots trop communs. Alors je ne connais pas les méthodes que tu utilises et leur algo, peut être que ces mots communs n'ont finalement pas d'incidence.

Théophraste
WRInaute passionné
WRInaute passionné
 
Messages: 900
Inscription: Jeu Juil 22, 2004 14:17

Message le Mar Fév 22, 2005 11:52

Oui, il semblerait logique de virer les : le, la, les du, de, des, avec, l, et, etc, etc.
Tous ces trucs que font que deux pages peuvent parraitre similaire pour rien...
Les moteurs, lors de recherches, les ignorent bien généralement...


ericdebra
WRInaute discret
WRInaute discret
 
Messages: 62
Inscription: Ven Juin 25, 2004 18:22

Message le Mar Fév 22, 2005 12:42

Mon site site principal ainsi que mes 2 autres sites sont actuellement en cours de transfert, google à crawler mon site principal juste avant de changer les dns, j'ai cliqué sur "pages similaires" dans google et y m'en affiche "des tonnes" (20/30) ... le thème etant "gagner de l'argent", quelqu'un sait sur quel pourcentage se base google pour les afficher ?


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15890
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Fév 22, 2005 14:28

il faudrait que je vérifie mais je pense que dans les algos utilisés les mots communs aux 2 pages ne font pas augmenter le taux de similarité. On se base surtout sur le nb de mots différents.

mais je vais supprimer les stop words, c'est vrai que ce serait mieux. qui a des liens vers des listes de stop words (en français et dans d'autres langues éventuellement) ?


hervelaf
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 161
Inscription: Mer Nov 13, 2002 9:08

Message le Mar Fév 22, 2005 14:52

Bonjour,

Il y a ce lien :
http://www.ranks.nl/tools/stopwords.html qui propose des stopwords pour plusieurs langues.


macjee
WRInaute impliqué
WRInaute impliqué
 
Messages: 403
Inscription: Mar Avr 29, 2003 10:15

Message le Mar Fév 22, 2005 16:23

Merci pour ce lien. Le stop word français est quand même bizarre (contenant des verbes, etc...) mais pourquoi pas, façon faut faire un essai amha

net-annoo
Nouveau WRInaute
 
Messages: 41
Inscription: Mer Jan 21, 2004 20:31

pages similaires

Message le Mer Fév 23, 2005 6:26

salut à vous :)
je constate que je n'etais pas tant à coté de la plaque que ça avec ma théorie de desindexation.. :)
a+


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15890
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Mar 08, 2005 10:29

j'ai mis à jour l'outil en ignorant tous les mots trop courants en français ("stop words"). Merci à Jean Véronis pour son aide !

Olivier

RG
WRInaute discret
WRInaute discret
 
Messages: 68
Inscription: Lun Aoû 04, 2003 18:45

Message le Lun Mai 23, 2005 19:12

-Supprimé-
Dernière édition par RG le Lun Sep 26, 2005 15:08, édité 1 fois.

Pholus
Nouveau WRInaute
 
Messages: 29
Inscription: Jeu Avr 21, 2005 21:40

Message le Mar Mai 31, 2005 22:33

jeffousse a écrit:Bonjour
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?


Pour info, même constat. Sur 200 pages référencées environ, nous sommes descendus progressivement à 118 pages et cela semble se stabiliser. En terme de similitude, nous sommes également dans les 90%.
Coïncidence ?


Jeff-44
WRInaute passionné
WRInaute passionné
 
Messages: 593
Inscription: Ven Sep 03, 2004 14:27

Message le Mar Mai 31, 2005 22:51

Après moulte travail sur mes pages, il semble important de maintenir un niveau inférieur à 70%. De même, il semblerait qu'une similitude au niveau des headers et des h1 jouent un rôle négatif.

[Outil] Calcul de similarité textuelle entre 2 pages web [Outil] Calcul de similarité textuelle entre 2 pages web

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Compute

  • Similarité et duplicate content
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
  • Calculer le ratio de liens profonds
    Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.
  • Calculer l'indice de densité
    Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page.
  • Calculer l'indice de co-occurrence
    Cet outil vous permet de calculer l'indice de co-occurrence de 2 ou 3 termes, ainsi que le ratio E/F. L'indice de co-occurrence mesure le relation entre les termes : plus cet indice est élevé, plus les termes sont reliés. Concrètement, plus l'indice est élevé, plus il est fréquent de trouver des documents qui contiennent les différents termes.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités