[Outil] Calcul de similarité textuelle entre 2 pages web


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15848
Inscription: Ven Avr 19, 2002 19:51

[Outil] Calcul de similarité textuelle entre 2 pages web

Message le Lun Fév 21, 2005 19:50

Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).

Certains pensent que Google utilise cette notion dans son algorithme. Avoir des pages trop similaires pourrait entraîner des problèmes d'indexation...

Cet outil vous permettra peut-être de vérifier si cette hypothèse a du sens, en tout cas pour vos pages.

C'est encore largement une version beta, donc je compte sur vos remarques (constructives) pour améliorer l'outil :-)

http://www.webrankinfo.com/outils/similarite.php


macjee
WRInaute impliqué
WRInaute impliqué
 
Messages: 403
Inscription: Mar Avr 29, 2003 10:15

Message le Lun Fév 21, 2005 20:35

Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi...

Sinon trés bonne idée merci.


TOMHTML
WRInaute accro
WRInaute accro
 
Messages: 3243
Inscription: Mer Aoû 25, 2004 14:05

Message le Lun Fév 21, 2005 20:47

ça fonctionne la premiere fois
mais sur la page du resultat tu as remis le même formulaire en bas ==> pas l'air de fonctionner celui là


edit : et ça vire les variables ton truc. blabla.php?action=article&id_article=76214&id_rubrique=11499 devient blabla.php .
donc ça affiche :
Résultats
Erreur : calcul de similarité des titres impossible.

Erreur : calcul de similarité des balises meta description impossible.

Dernière édition par TOMHTML le Lun Fév 21, 2005 20:51, édité 1 fois.

gatcweb
WRInaute impliqué
WRInaute impliqué
 
Messages: 295
Inscription: Mer Mai 05, 2004 7:05

Calcul de similarité textuelle entre 2 pages web

Message le Lun Fév 21, 2005 20:48

WebRankInfo a écrit:Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).

Bonsoir,
J'ai fait un test sans voir de bug.
Par contre, j'ai comparé avec "Similar Page checker". J'en avais parlé le 20/01/05 dans ce post :
Taux de similarité entre 2 pages

Et sur ce site là (mais je ne connais pas l'alogorithme utilisé), j'obtiens des valeurs inférieures (avec les mêmes URL):

WRI Dice : 83.72%
WRI Jacard : 71.99%
Similar Page checker : 59.28%

De quoi perdre son latin...


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15848
Inscription: Ven Avr 19, 2002 19:51

Message le Lun Fév 21, 2005 22:00

je n'arrive pas à reproduire le pb de macjee
quel est ton navigateur ? peux-tu m'indiquer en MP les URL que tu as testées et qui font planter ?

gatcweb
WRInaute impliqué
WRInaute impliqué
 
Messages: 295
Inscription: Mer Mai 05, 2004 7:05

Message le Lun Fév 21, 2005 22:41

macjee a écrit:Salut, euh petit bug déjà si tu fais un nouveau calcul le bouton calculer ne semble pas du tout réagir chez moi...

Moi aussi, sous WinIE 6.0 sp1 mais pas sous Firefox 1.0.
Voilà....


rituel
WRInaute accro
WRInaute accro
 
Messages: 1176
Inscription: Sam Mar 15, 2003 23:58

Message le Lun Fév 21, 2005 22:45

Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15848
Inscription: Ven Avr 19, 2002 19:51

Message le Lun Fév 21, 2005 22:48

OK j'ai corrigé le bug indiqué par macjee

rituel a écrit:Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension.
j'ignore pour l'instant uniquement le http mais effectivement je pourrais ajouter www ainsi que les extensions


macjee
WRInaute impliqué
WRInaute impliqué
 
Messages: 403
Inscription: Mar Avr 29, 2003 10:15

Message le Lun Fév 21, 2005 23:15

Ok désolé je m'étais absenté :lol: un petit bug de jeunesse sinon c trés bien et surement instructif (jai des pages à plus de 90% de similarité avec mon site qui a plongé dans google...)


JeunZ
WRInaute accro
WRInaute accro
 
Messages: 5301
Inscription: Mer Fév 18, 2004 12:41

Message le Lun Fév 21, 2005 23:19

J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.


macjee
WRInaute impliqué
WRInaute impliqué
 
Messages: 403
Inscription: Mar Avr 29, 2003 10:15

Message le Lun Fév 21, 2005 23:23

JeunZ a écrit:J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.


Beh moi j'ai compris que plus c'est fort plus c'est similaire puisque c'est un test de similarité.


JeunZ
WRInaute accro
WRInaute accro
 
Messages: 5301
Inscription: Mer Fév 18, 2004 12:41

Message le Lun Fév 21, 2005 23:29

Oui j'allais aussi dans ce sens. Il vaut mieux un faible %, qui signifie que les pages sont pas vraiment similaires.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15848
Inscription: Ven Avr 19, 2002 19:51

Message le Lun Fév 21, 2005 23:30

oui + c'est fort + les pages sont similaires
par contre il reste à "étalonner" l'outil, c'est à dire à se rendre compte des valeurs car dans certains cas on trouve 80% de similarité alors que les pages sont assez différentes.

j'aimerais trouver une méthode qui se base aussi sur la position des mots dans les pages.


macjee
WRInaute impliqué
WRInaute impliqué
 
Messages: 403
Inscription: Mar Avr 29, 2003 10:15

Message le Lun Fév 21, 2005 23:35

Je suppose que cela aussi est sans les tags HTML, je veux dire sans les surlignage, mise en gras, etc...Si tu veux tenir compte de la position des mots il faudrait peut être tenir compte aussi de leurs poids ?

Enfin moi je dis ça comme ça , c'est peut être une bêtise..

Autre question est-ce que les méthodes que tu utilises éliminent les mots courant dans le texte ou c'est vraiment brut (élimination des articles, le, la, etc...)


rituel
WRInaute accro
WRInaute accro
 
Messages: 1176
Inscription: Sam Mar 15, 2003 23:58

Message le Lun Fév 21, 2005 23:55

N'oublies pas également de ne pas compter toute la syntaxe HTML, car tes % sont vraiment élevés même entre ton site et le mien ce qui ne rime à rien puisqu'ils ne sont en rien identiques !

Sinon tu peux t'amuser à faire le distinguo entre la similarité du squelette HTML et le contenu, l'indicateur serait plus fiable et donc plus intéressant :)

[Outil] Calcul de similarité textuelle entre 2 pages web

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Compute

  • Similarité et duplicate content
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
  • Calculer le ratio de liens profonds
    Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.
  • Calculer l'indice de densité
    Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page.
  • Calculer l'indice de co-occurrence
    Cet outil vous permet de calculer l'indice de co-occurrence de 2 ou 3 termes, ainsi que le ratio E/F. L'indice de co-occurrence mesure le relation entre les termes : plus cet indice est élevé, plus les termes sont reliés. Concrètement, plus l'indice est élevé, plus il est fréquent de trouver des documents qui contiennent les différents termes.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités