[Outil] Calcul de similarité textuelle entre 2 pages web

Olivier Duffez (admin)
Membre du personnel
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).

Certains pensent que Google utilise cette notion dans son algorithme. Avoir des pages trop similaires pourrait entraîner des problèmes d'indexation...

Cet outil vous permettra peut-être de vérifier si cette hypothèse a du sens, en tout cas pour vos pages.

C'est encore largement une version beta, donc je compte sur vos remarques (constructives) pour améliorer l'outil :)

https://www.webrankinfo.com/outils/similarite.php
 
WRInaute occasionnel
Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi...

Sinon trés bonne idée merci.
 
WRInaute accro
ça fonctionne la premiere fois
mais sur la page du resultat tu as remis le même formulaire en bas ==> pas l'air de fonctionner celui là


edit : et ça vire les variables ton truc. blabla.php?action=article&id_article=76214&id_rubrique=11499 devient blabla.php .
donc ça affiche :
Résultats
Erreur : calcul de similarité des titres impossible.

Erreur : calcul de similarité des balises meta description impossible.
 
WRInaute occasionnel
Calcul de similarité textuelle entre 2 pages web

WebRankInfo a dit:
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).
Bonsoir,
J'ai fait un test sans voir de bug.
Par contre, j'ai comparé avec "Similar Page checker". J'en avais parlé le 20/01/05 dans ce post :
Taux de similarité entre 2 pages

Et sur ce site là (mais je ne connais pas l'alogorithme utilisé), j'obtiens des valeurs inférieures (avec les mêmes URL):

WRI Dice : 83.72%
WRI Jacard : 71.99%
Similar Page checker : 59.28%

De quoi perdre son latin...
 
Olivier Duffez (admin)
Membre du personnel
je n'arrive pas à reproduire le pb de macjee
quel est ton navigateur ? peux-tu m'indiquer en MP les URL que tu as testées et qui font planter ?
 
Olivier Duffez (admin)
Membre du personnel
OK j'ai corrigé le bug indiqué par macjee

rituel a dit:
Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension.
j'ignore pour l'instant uniquement le http mais effectivement je pourrais ajouter www ainsi que les extensions
 
WRInaute occasionnel
Ok désolé je m'étais absenté :lol: un petit bug de jeunesse sinon c trés bien et surement instructif (jai des pages à plus de 90% de similarité avec mon site qui a plongé dans google...)
 
WRInaute accro
J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.
 
WRInaute occasionnel
JeunZ a dit:
J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.

Beh moi j'ai compris que plus c'est fort plus c'est similaire puisque c'est un test de similarité.
 
WRInaute accro
Oui j'allais aussi dans ce sens. Il vaut mieux un faible %, qui signifie que les pages sont pas vraiment similaires.
 
Olivier Duffez (admin)
Membre du personnel
oui + c'est fort + les pages sont similaires
par contre il reste à "étalonner" l'outil, c'est à dire à se rendre compte des valeurs car dans certains cas on trouve 80% de similarité alors que les pages sont assez différentes.

j'aimerais trouver une méthode qui se base aussi sur la position des mots dans les pages.
 
WRInaute occasionnel
Je suppose que cela aussi est sans les tags HTML, je veux dire sans les surlignage, mise en gras, etc...Si tu veux tenir compte de la position des mots il faudrait peut être tenir compte aussi de leurs poids ?

Enfin moi je dis ça comme ça , c'est peut être une bêtise..

Autre question est-ce que les méthodes que tu utilises éliminent les mots courant dans le texte ou c'est vraiment brut (élimination des articles, le, la, etc...)
 
WRInaute impliqué
N'oublies pas également de ne pas compter toute la syntaxe HTML, car tes % sont vraiment élevés même entre ton site et le mien ce qui ne rime à rien puisqu'ils ne sont en rien identiques !

Sinon tu peux t'amuser à faire le distinguo entre la similarité du squelette HTML et le contenu, l'indicateur serait plus fiable et donc plus intéressant :)
 
Olivier Duffez (admin)
Membre du personnel
j'ai bien précisé que pour l'instant cet outil se base sur les occurrences des mots dans les pages
je parle ici du texte visible, donc je commence par supprimer les balises HTML
pour l'instant je n'ai pas intégré de listes de "stop words" mais c'est envisagé

le pb est qu'on ignore totalement ce qui est utilisé par les moteurs :-(
c'est pourquoi je souhaite développer un outil qui fasse plusieurs calculs selon plusieurs méthodes, et qu'ensuite on en discute en confrontant les résultats de l'outil avec des situations réelles de désindexation ou autres problèmes !
 
WRInaute impliqué
Bonjour
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?
 
WRInaute occasionnel
Bonjour,

J'ai fait des tests avec "Similar Page Checker", "WRI Dice" et "WRI Jacard" (voir les URL au début du topic) avec 6 pages différentes.

Page 1 - page de référence doit voici le code :
Code:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<title>Lorem ipsum dolor consectetuer adipiscing elit</title>
<meta name="description" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
<meta name="keywords" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
</head>
<body>
<h1>Lorem ipsum dolor sit consectetuer adipiscing elit</h1>
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Morbi interdum, mauris eu porta hendrerit, nunc eros vulputate purus, vel vestibulum nibh nunc eu augue. In lacus orci, adipiscing id, iaculis condimentum, iaculis sit amet, ligula. Sed a nunc eget arcu pharetra ornare. Vestibulum gravida consequat lorem. Nam lobortis magna volutpat dolor. Donec lacus nulla, molestie blandit, vehicula non, sollicitudin eu, nulla. Pellentesque commodo ligula in velit. Curabitur a mauris. Etiam luctus est sit amet leo. Morbi gravida tortor ut magna. Vestibulum vitae urna. Vivamus in metus. Donec fringilla commodo nulla. Proin mauris metus, cursus a, accumsan sit amet, lacinia in.
</body>
</html>
Page 2 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <title>
Page 3 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="description">
Page 4 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="keywords">
Page 5 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <h1>
Page 6 - Idem à page 1 mais suppression du "L" de "Lorem" au début du texte

Voici les résultats :
05m02-22_test.gif

[En rouge] On constate qu'il y a des cas où "WRI Dice" et "WRI Jacard" ne voient pas de différence entre les pages alors que "Similar Page Checker", oui.

Voilà... A vos commentaires...
 
WRInaute passionné
pas croyable j'ai teste les deux pages les mieux référencées de ùmon site. Voila ce que j'obtiens:

Dice 92.94% 18.18% 57.89% 60.00%
Jacard 86.81% 10.00% 40.74% 42.86%

c'est grave doncteur?
a priori, non, ces pages sont sur google depuis longtemps et occupent de tres bonnes positions sur leurs mots cles respectifs
 
WRInaute occasionnel
J'ai fait un outil de densité et le premier truc qui m'est venu c'est de virer des mots trop communs. Alors je ne connais pas les méthodes que tu utilises et leur algo, peut être que ces mots communs n'ont finalement pas d'incidence.
 
WRInaute impliqué
Oui, il semblerait logique de virer les : le, la, les du, de, des, avec, l, et, etc, etc.
Tous ces trucs que font que deux pages peuvent parraitre similaire pour rien...
Les moteurs, lors de recherches, les ignorent bien généralement...
 
WRInaute discret
Mon site site principal ainsi que mes 2 autres sites sont actuellement en cours de transfert, google à crawler mon site principal juste avant de changer les dns, j'ai cliqué sur "pages similaires" dans google et y m'en affiche "des tonnes" (20/30) ... le thème etant "gagner de l'argent", quelqu'un sait sur quel pourcentage se base google pour les afficher ?
 
Olivier Duffez (admin)
Membre du personnel
il faudrait que je vérifie mais je pense que dans les algos utilisés les mots communs aux 2 pages ne font pas augmenter le taux de similarité. On se base surtout sur le nb de mots différents.

mais je vais supprimer les stop words, c'est vrai que ce serait mieux. qui a des liens vers des listes de stop words (en français et dans d'autres langues éventuellement) ?
 
WRInaute occasionnel
Merci pour ce lien. Le stop word français est quand même bizarre (contenant des verbes, etc...) mais pourquoi pas, façon faut faire un essai amha
 
Nouveau WRInaute
pages similaires

salut à vous :)
je constate que je n'etais pas tant à coté de la plaque que ça avec ma théorie de desindexation.. :)
a+
 
Nouveau WRInaute
jeffousse a dit:
Bonjour
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?

Pour info, même constat. Sur 200 pages référencées environ, nous sommes descendus progressivement à 118 pages et cela semble se stabiliser. En terme de similitude, nous sommes également dans les 90%.
Coïncidence ?
 
WRInaute impliqué
Après moulte travail sur mes pages, il semble important de maintenir un niveau inférieur à 70%. De même, il semblerait qu'une similitude au niveau des headers et des h1 jouent un rôle négatif.
 
Nouveau WRInaute
Oui et cela oblige à appliquer une mise en forme ultra simple pour limiter le code.
C'est également notre objectif d'approcher les 70%. J'ai un site dont toutes les pages sont référencées avec un taux moyen de 70/73% (méthode Dice) et 55/58% (méthode Jacard).

J'ai donc l'impression qu'à 90% de similitude GG nettoie progressivement sa base pour ne garder que 50% des pages. Vers 70%, il les considère toutes différentes.

C'est un constat perso à prendre avec des pincettes.
 
Nouveau WRInaute
Bonjour à tous,

Comment se fait-il que j'obtienne des taux de similarité :

Méthode de calcul Page entière : Dice 39.23% / Jacard 24.40%

aussi élevés entre deux pages écrites en deux langues différentes (fr, es) et dans lesquelles ne sont vraiment identiques que quelques noms propres ou de marque :?:
 
Nouveau WRInaute
Probablement à cause du code (mise en forme, menu...) qui doit être identique.

39%, j'en reve....
 
WRInaute occasionnel
pages similaires a plus de 99%

Bonjour,
J'ai essayé d'améliorer le referencement de mes pages de news en incluant des meta description et keyword dynamiques en plus du title deja dynamique, mais le test de similarite de wri me donne plus 99% de similarite sur les pages ! Pourtant, lorsque j affiche la source des pages, les meta sont bien differentes selon les pages de news. Where is the problem ?
 
Nouveau WRInaute
Moi j'ai abandonné ces histoires de similarité, meme si nous avons un peu amelioré les resultats de ce cote la.
On en est reste la vu les efforts à fournir et le tres peu de resultat obtenu.

Surtout que finalement, malgre un taux de similarite eleve, nos pages sont enfin referencees. Je pense que cela est dû à l'ancienneté du site car nous n'avions rien fait de plus ormi d'avoir soufflé notre premiere bougie... Probable qu'il y ait une histoire de sandbox.

A voir avec ceux qui ont plus d'experience si ce fait ce confirme.
 
WRInaute occasionnel
Bonsoir,
oui, j'ai modifié le script pour faire des meta dynamiques aujourd'hui, je me mets au php, c est facile en fait, et j'ai fait le test sur les 2 adresses :***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337 et ***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 qui ont un contenu different meme si la decoration reste celle du cms. Le taux de similarite dans les 2 methodes depasse le 99 % !!! Pour toutes mes news, c est pareil ! Le reste, ca va... Merci de me conseiller.
 
WRInaute discret
Bonjour,

à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ?

Merci de vos réponses.
 
WRInaute accro
vinset a dit:
à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ?
par expérience, il vaut mieux rester en dessous de 70% de similarité pour passer sans risque les filtres de similarité de Google ... :wink:
 
WRInaute passionné
L'outil regarde le code html aussi ? parceque j'ai deux sites différents et c'est presque similaire partout, mais j'ai utilisé le meme code html
 
WRInaute discret
Je ne suis pas sure du tout de l'efficacité de cet outil et j'obtiens des resultats que je ne comprends pas :

(URL supprimée par WRI, les règles interdisent toute dénonciation)

pour moi, ces pages là ne sont issues d'aucun travail de la part du webmaster, les tags sont à hurler en plus. pourtant, ces 2 pages sont en premiere page de Google sur les requetes concernées !

Autre exemple, totalement different :
(URL supprimée par WRI, les règles interdisent toute dénonciation)

Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site" :cry:

Quelqu'un comprend t-il ce curieux phénomène ? Je ne peux pas croire que cela ne soit lié qu'à l'ancienneté du site :-(
 
WRInaute accro
pitbulle a dit:
Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site" :cry:

Bon, je crois bien que tu confonds beaucoup de choses. Une similarité de pages trop élevée conduit au transfert de l'une, l'autre ou les deux pages dans l'index secondaire de Google ("Résultat complémentaire"), autant dire que ces pages ont peu de chance de sortir en bonne position.

Ne pas confondre similarité de page et similarité de snippets qui se traduit par le repliement des pages concernées en "résultat similaire" lorsque tu executes la commande Site. Avec cette commande, Google ne disposant pas de mot clé, propose le contenu de la méta description comme snippet. Si ces meta ne sont pas différentiées les pages obtiennent des snippets identiques et sont alors repliées en "pages similaires".

Mais dans un cas comme dans l'autre, tout cela n'a rien à voir avec le positionnement des tes pages dans résultats de recherche avec mot clé. :wink:
 
Nouveau WRInaute
Bonjour. Je cherche actuellement a calculer la similarite entre plusieurs textes. Le probleme est qu'ils ne sont pas en ligne. Est - il possible d'utiliser cette outil hors ligne? Si non, ou avez vous trouve des informations sur la methode de dice et jacard car je n'en trouve aucune.
 
WRInaute passionné
almighty a dit:
Bonjour. Je cherche actuellement a calculer la similarite entre plusieurs textes. Le probleme est qu'ils ne sont pas en ligne. Est - il possible d'utiliser cette outil hors ligne? Si non, ou avez vous trouve des informations sur la methode de dice et jacard car je n'en trouve aucune.

Tu les mets en ligne sur des pages privées ?
 
Nouveau WRInaute
Je comprend pas la question.
Je cherche seulement a utiliser ce type d'outil mais sur des textes que j'ecris moi meme par exemple et pas sur des pages internet.
Merci
 
Haut