[Outil] Calcul de similarité textuelle entre 2 pages web

WebRankInfo · 21 Février 2005

Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).

Certains pensent que Google utilise cette notion dans son algorithme. Avoir des pages trop similaires pourrait entraîner des problèmes d'indexation...

Cet outil vous permettra peut-être de vérifier si cette hypothèse a du sens, en tout cas pour vos pages.

C'est encore largement une version beta, donc je compte sur vos remarques (constructives) pour améliorer l'outil

https://www.webrankinfo.com/outils/similarite.php

macjee · 21 Février 2005

Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi...

Sinon trés bonne idée merci.

TOMHTML · 21 Février 2005

ça fonctionne la premiere fois
mais sur la page du resultat tu as remis le même formulaire en bas ==> pas l'air de fonctionner celui là

edit : et ça vire les variables ton truc. blabla.php?action=article&id_article=76214&id_rubrique=11499 devient blabla.php .
donc ça affiche :

Résultats
Erreur : calcul de similarité des titres impossible.

Erreur : calcul de similarité des balises meta description impossible.

gatcweb · 21 Février 2005

Calcul de similarité textuelle entre 2 pages web

WebRankInfo a dit:
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).

Bonsoir,
J'ai fait un test sans voir de bug.
Par contre, j'ai comparé avec "Similar Page checker". J'en avais parlé le 20/01/05 dans ce post :
Taux de similarité entre 2 pages

Et sur ce site là (mais je ne connais pas l'alogorithme utilisé), j'obtiens des valeurs inférieures (avec les mêmes URL):

WRI Dice : 83.72%
WRI Jacard : 71.99%
Similar Page checker : 59.28%

De quoi perdre son latin...

WebRankInfo · 21 Février 2005

je n'arrive pas à reproduire le pb de macjee
quel est ton navigateur ? peux-tu m'indiquer en MP les URL que tu as testées et qui font planter ?

gatcweb · 21 Février 2005

macjee a dit:
Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi...

Moi aussi, sous WinIE 6.0 sp1 mais pas sous Firefox 1.0.
Voilà....

rituel · 21 Février 2005

Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension.

WebRankInfo · 21 Février 2005

OK j'ai corrigé le bug indiqué par macjee

rituel a dit:
Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension.

j'ignore pour l'instant uniquement le http mais effectivement je pourrais ajouter www ainsi que les extensions

macjee · 21 Février 2005

Ok désolé je m'étais absenté :lol: un petit bug de jeunesse sinon c trés bien et surement instructif (jai des pages à plus de 90% de similarité avec mon site qui a plongé dans google...)

JeunZ · 21 Février 2005

J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.

macjee · 21 Février 2005

JeunZ a dit:
J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.

Beh moi j'ai compris que plus c'est fort plus c'est similaire puisque c'est un test de similarité.

JeunZ · 21 Février 2005

Oui j'allais aussi dans ce sens. Il vaut mieux un faible %, qui signifie que les pages sont pas vraiment similaires.

WebRankInfo · 21 Février 2005

oui + c'est fort + les pages sont similaires
par contre il reste à "étalonner" l'outil, c'est à dire à se rendre compte des valeurs car dans certains cas on trouve 80% de similarité alors que les pages sont assez différentes.

j'aimerais trouver une méthode qui se base aussi sur la position des mots dans les pages.

macjee · 21 Février 2005

Je suppose que cela aussi est sans les tags HTML, je veux dire sans les surlignage, mise en gras, etc...Si tu veux tenir compte de la position des mots il faudrait peut être tenir compte aussi de leurs poids ?

Enfin moi je dis ça comme ça , c'est peut être une bêtise..

Autre question est-ce que les méthodes que tu utilises éliminent les mots courant dans le texte ou c'est vraiment brut (élimination des articles, le, la, etc...)

rituel · 21 Février 2005

N'oublies pas également de ne pas compter toute la syntaxe HTML, car tes % sont vraiment élevés même entre ton site et le mien ce qui ne rime à rien puisqu'ils ne sont en rien identiques !

Sinon tu peux t'amuser à faire le distinguo entre la similarité du squelette HTML et le contenu, l'indicateur serait plus fiable et donc plus intéressant

WebRankInfo · 22 Février 2005

j'ai bien précisé que pour l'instant cet outil se base sur les occurrences des mots dans les pages
je parle ici du texte visible, donc je commence par supprimer les balises HTML
pour l'instant je n'ai pas intégré de listes de "stop words" mais c'est envisagé

le pb est qu'on ignore totalement ce qui est utilisé par les moteurs :-(
c'est pourquoi je souhaite développer un outil qui fasse plusieurs calculs selon plusieurs méthodes, et qu'ensuite on en discute en confrontant les résultats de l'outil avec des situations réelles de désindexation ou autres problèmes !

Jeff-44 · 22 Février 2005

Bonjour
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?

gatcweb · 22 Février 2005

Bonjour,

J'ai fait des tests avec "Similar Page Checker", "WRI Dice" et "WRI Jacard" (voir les URL au début du topic) avec 6 pages différentes.

Page 1 - page de référence doit voici le code :

Code:

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<title>Lorem ipsum dolor consectetuer adipiscing elit</title>
<meta name="description" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
<meta name="keywords" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
</head>
<body>
<h1>Lorem ipsum dolor sit consectetuer adipiscing elit</h1>
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Morbi interdum, mauris eu porta hendrerit, nunc eros vulputate purus, vel vestibulum nibh nunc eu augue. In lacus orci, adipiscing id, iaculis condimentum, iaculis sit amet, ligula. Sed a nunc eget arcu pharetra ornare. Vestibulum gravida consequat lorem. Nam lobortis magna volutpat dolor. Donec lacus nulla, molestie blandit, vehicula non, sollicitudin eu, nulla. Pellentesque commodo ligula in velit. Curabitur a mauris. Etiam luctus est sit amet leo. Morbi gravida tortor ut magna. Vestibulum vitae urna. Vivamus in metus. Donec fringilla commodo nulla. Proin mauris metus, cursus a, accumsan sit amet, lacinia in.
</body>
</html>

Page 2 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <title>
Page 3 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="description">
Page 4 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="keywords">
Page 5 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <h1>
Page 6 - Idem à page 1 mais suppression du "L" de "Lorem" au début du texte

Voici les résultats :

[En rouge] On constate qu'il y a des cas où "WRI Dice" et "WRI Jacard" ne voient pas de différence entre les pages alors que "Similar Page Checker", oui.

Voilà... A vos commentaires...

yannouk · 22 Février 2005

pas croyable j'ai teste les deux pages les mieux référencées de ùmon site. Voila ce que j'obtiens:

Dice 92.94% 18.18% 57.89% 60.00%
Jacard 86.81% 10.00% 40.74% 42.86%

c'est grave doncteur?
a priori, non, ces pages sont sur google depuis longtemps et occupent de tres bonnes positions sur leurs mots cles respectifs

macjee · 22 Février 2005

J'ai fait un outil de densité et le premier truc qui m'est venu c'est de virer des mots trop communs. Alors je ne connais pas les méthodes que tu utilises et leur algo, peut être que ces mots communs n'ont finalement pas d'incidence.

Théophraste · 22 Février 2005

Oui, il semblerait logique de virer les : le, la, les du, de, des, avec, l, et, etc, etc.
Tous ces trucs que font que deux pages peuvent parraitre similaire pour rien...
Les moteurs, lors de recherches, les ignorent bien généralement...

ericdebra · 22 Février 2005

Mon site site principal ainsi que mes 2 autres sites sont actuellement en cours de transfert, google à crawler mon site principal juste avant de changer les dns, j'ai cliqué sur "pages similaires" dans google et y m'en affiche "des tonnes" (20/30) ... le thème etant "gagner de l'argent", quelqu'un sait sur quel pourcentage se base google pour les afficher ?

WebRankInfo · 22 Février 2005

il faudrait que je vérifie mais je pense que dans les algos utilisés les mots communs aux 2 pages ne font pas augmenter le taux de similarité. On se base surtout sur le nb de mots différents.

mais je vais supprimer les stop words, c'est vrai que ce serait mieux. qui a des liens vers des listes de stop words (en français et dans d'autres langues éventuellement) ?

hervelaf · 22 Février 2005

Bonjour,

Il y a ce lien :
http://www.ranks.nl/tools/stopwords.html qui propose des stopwords pour plusieurs langues.

macjee · 22 Février 2005

Merci pour ce lien. Le stop word français est quand même bizarre (contenant des verbes, etc...) mais pourquoi pas, façon faut faire un essai amha

net-annoo · 23 Février 2005

pages similaires

salut à vous

je constate que je n'etais pas tant à coté de la plaque que ça avec ma théorie de desindexation..

a+

WebRankInfo · 8 Mars 2005

j'ai mis à jour l'outil en ignorant tous les mots trop courants en français ("stop words"). Merci à Jean Véronis pour son aide !

Olivier

RG · 23 Mai 2005

-Supprimé-

Pholus · 31 Mai 2005

jeffousse a dit:
Bonjour
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?

Pour info, même constat. Sur 200 pages référencées environ, nous sommes descendus progressivement à 118 pages et cela semble se stabiliser. En terme de similitude, nous sommes également dans les 90%.
Coïncidence ?

Jeff-44 · 31 Mai 2005

Après moulte travail sur mes pages, il semble important de maintenir un niveau inférieur à 70%. De même, il semblerait qu'une similitude au niveau des headers et des h1 jouent un rôle négatif.

Pholus · 1 Juin 2005

Oui et cela oblige à appliquer une mise en forme ultra simple pour limiter le code.
C'est également notre objectif d'approcher les 70%. J'ai un site dont toutes les pages sont référencées avec un taux moyen de 70/73% (méthode Dice) et 55/58% (méthode Jacard).

J'ai donc l'impression qu'à 90% de similitude GG nettoie progressivement sa base pour ne garder que 50% des pages. Vers 70%, il les considère toutes différentes.

C'est un constat perso à prendre avec des pincettes.

gueritee · 7 Juin 2005

Bonjour à tous,

Comment se fait-il que j'obtienne des taux de similarité :

Méthode de calcul Page entière : Dice 39.23% / Jacard 24.40%

aussi élevés entre deux pages écrites en deux langues différentes (fr, es) et dans lesquelles ne sont vraiment identiques que quelques noms propres ou de marque :?:

Pholus · 7 Juin 2005

Probablement à cause du code (mise en forme, menu...) qui doit être identique.

39%, j'en reve....

alfred99 · 26 Août 2005

pages similaires a plus de 99%

Bonjour,
J'ai essayé d'améliorer le referencement de mes pages de news en incluant des meta description et keyword dynamiques en plus du title deja dynamique, mais le test de similarite de wri me donne plus 99% de similarite sur les pages ! Pourtant, lorsque j affiche la source des pages, les meta sont bien differentes selon les pages de news. Where is the problem ?

Pholus · 26 Août 2005

Moi j'ai abandonné ces histoires de similarité, meme si nous avons un peu amelioré les resultats de ce cote la.
On en est reste la vu les efforts à fournir et le tres peu de resultat obtenu.

Surtout que finalement, malgre un taux de similarite eleve, nos pages sont enfin referencees. Je pense que cela est dû à l'ancienneté du site car nous n'avions rien fait de plus ormi d'avoir soufflé notre premiere bougie... Probable qu'il y ait une histoire de sandbox.

A voir avec ceux qui ont plus d'experience si ce fait ce confirme.

WebRankInfo · 26 Août 2005

alfred99, as-tu un exemple à nous donner ?

alfred99 · 26 Août 2005

Bonsoir,
oui, j'ai modifié le script pour faire des meta dynamiques aujourd'hui, je me mets au php, c est facile en fait, et j'ai fait le test sur les 2 adresses :***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337 et ***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 qui ont un contenu different meme si la decoration reste celle du cms. Le taux de similarite dans les 2 methodes depasse le 99 % !!! Pour toutes mes news, c est pareil ! Le reste, ca va... Merci de me conseiller.

alfred99 · 27 Août 2005

help svp, je n'ai pas d'idées pour solutionner.

Cendrillon · 27 Août 2005

en attendant qu'Olivier te réponde ... tu peux également comparer tes résultats avec ceux de cet outil : http://www.webconfs.com/similar-page-checker.php ... :wink:

[edit] je viens de faire l'essai et j'obtiens bien :

ht*p://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 is 91.569932415003% percentage similar to
ht*p://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337

vinset · 21 Avril 2006

Bonjour,

à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ?

Merci de vos réponses.

Cendrillon · 23 Avril 2006

vinset a dit:
à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ?

par expérience, il vaut mieux rester en dessous de 70% de similarité pour passer sans risque les filtres de similarité de Google ... :wink:

XoSt · 6 Novembre 2006

L'outil regarde le code html aussi ? parceque j'ai deux sites différents et c'est presque similaire partout, mais j'ai utilisé le meme code html

WebRankInfo · 6 Novembre 2006

non seulement le texte

pitbulle · 6 Novembre 2006

Je ne suis pas sure du tout de l'efficacité de cet outil et j'obtiens des resultats que je ne comprends pas :

(URL supprimée par WRI, les règles interdisent toute dénonciation)

pour moi, ces pages là ne sont issues d'aucun travail de la part du webmaster, les tags sont à hurler en plus. pourtant, ces 2 pages sont en premiere page de Google sur les requetes concernées !

Autre exemple, totalement different :
(URL supprimée par WRI, les règles interdisent toute dénonciation)

Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site" :cry:

Quelqu'un comprend t-il ce curieux phénomène ? Je ne peux pas croire que cela ne soit lié qu'à l'ancienneté du site :-(

Cendrillon · 12 Novembre 2006

pitbulle a dit:
Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site" :cry:

Bon, je crois bien que tu confonds beaucoup de choses. Une similarité de pages trop élevée conduit au transfert de l'une, l'autre ou les deux pages dans l'index secondaire de Google ("Résultat complémentaire"), autant dire que ces pages ont peu de chance de sortir en bonne position.

Ne pas confondre similarité de page et similarité de snippets qui se traduit par le repliement des pages concernées en "résultat similaire" lorsque tu executes la commande Site. Avec cette commande, Google ne disposant pas de mot clé, propose le contenu de la méta description comme snippet. Si ces meta ne sont pas différentiées les pages obtiennent des snippets identiques et sont alors repliées en "pages similaires".

Mais dans un cas comme dans l'autre, tout cela n'a rien à voir avec le positionnement des tes pages dans résultats de recherche avec mot clé. :wink:

almighty · 19 Octobre 2007

Bonjour. Je cherche actuellement a calculer la similarite entre plusieurs textes. Le probleme est qu'ils ne sont pas en ligne. Est - il possible d'utiliser cette outil hors ligne? Si non, ou avez vous trouve des informations sur la methode de dice et jacard car je n'en trouve aucune.

Suede · 22 Octobre 2007

almighty a dit:
Bonjour. Je cherche actuellement a calculer la similarite entre plusieurs textes. Le probleme est qu'ils ne sont pas en ligne. Est - il possible d'utiliser cette outil hors ligne? Si non, ou avez vous trouve des informations sur la methode de dice et jacard car je n'en trouve aucune.

Tu les mets en ligne sur des pages privées ?

almighty · 22 Octobre 2007

Je comprend pas la question.
Je cherche seulement a utiliser ce type d'outil mais sur des textes que j'ecris moi meme par exemple et pas sur des pages internet.
Merci