[Outil] Calcul de similarité textuelle entre 2 pages web
48 messages • Page 1 sur 4 • 1, 2, 3, 4
-

WebRankInfo - Administrateur du site

- Messages: 15848
- Inscription: Ven Avr 19, 2002 19:51
[Outil] Calcul de similarité textuelle entre 2 pages web
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).
Certains pensent que Google utilise cette notion dans son algorithme. Avoir des pages trop similaires pourrait entraîner des problèmes d'indexation...
Cet outil vous permettra peut-être de vérifier si cette hypothèse a du sens, en tout cas pour vos pages.
C'est encore largement une version beta, donc je compte sur vos remarques (constructives) pour améliorer l'outil
http://www.webrankinfo.com/outils/similarite.php
Certains pensent que Google utilise cette notion dans son algorithme. Avoir des pages trop similaires pourrait entraîner des problèmes d'indexation...
Cet outil vous permettra peut-être de vérifier si cette hypothèse a du sens, en tout cas pour vos pages.
C'est encore largement une version beta, donc je compte sur vos remarques (constructives) pour améliorer l'outil
http://www.webrankinfo.com/outils/similarite.php
ça fonctionne la premiere fois
mais sur la page du resultat tu as remis le même formulaire en bas ==> pas l'air de fonctionner celui là
edit : et ça vire les variables ton truc. blabla.php?action=article&id_article=76214&id_rubrique=11499 devient blabla.php .
donc ça affiche :
mais sur la page du resultat tu as remis le même formulaire en bas ==> pas l'air de fonctionner celui là
edit : et ça vire les variables ton truc. blabla.php?action=article&id_article=76214&id_rubrique=11499 devient blabla.php .
donc ça affiche :
Résultats
Erreur : calcul de similarité des titres impossible.
Erreur : calcul de similarité des balises meta description impossible.
Dernière édition par TOMHTML le Lun Fév 21, 2005 20:51, édité 1 fois.
Calcul de similarité textuelle entre 2 pages web
WebRankInfo a écrit:Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).
Bonsoir,
J'ai fait un test sans voir de bug.
Par contre, j'ai comparé avec "Similar Page checker". J'en avais parlé le 20/01/05 dans ce post :
Taux de similarité entre 2 pages
Et sur ce site là (mais je ne connais pas l'alogorithme utilisé), j'obtiens des valeurs inférieures (avec les mêmes URL):
WRI Dice : 83.72%
WRI Jacard : 71.99%
Similar Page checker : 59.28%
De quoi perdre son latin...
-

WebRankInfo - Administrateur du site

- Messages: 15848
- Inscription: Ven Avr 19, 2002 19:51
je n'arrive pas à reproduire le pb de macjee
quel est ton navigateur ? peux-tu m'indiquer en MP les URL que tu as testées et qui font planter ?
quel est ton navigateur ? peux-tu m'indiquer en MP les URL que tu as testées et qui font planter ?
-

WebRankInfo - Administrateur du site

- Messages: 15848
- Inscription: Ven Avr 19, 2002 19:51
OK j'ai corrigé le bug indiqué par macjee
j'ignore pour l'instant uniquement le http mais effectivement je pourrais ajouter www ainsi que les extensionsrituel a écrit:Pour la similarité dans l'url tu devrais ignorer les HTTP, les WWW et les extension.
JeunZ a écrit:J'ai une question bete... Vaut il mieux un % faible ou fort... J'imagine faible non? Ca veut dire que les pages sont (+) différentes.
Beh moi j'ai compris que plus c'est fort plus c'est similaire puisque c'est un test de similarité.
-

WebRankInfo - Administrateur du site

- Messages: 15848
- Inscription: Ven Avr 19, 2002 19:51
oui + c'est fort + les pages sont similaires
par contre il reste à "étalonner" l'outil, c'est à dire à se rendre compte des valeurs car dans certains cas on trouve 80% de similarité alors que les pages sont assez différentes.
j'aimerais trouver une méthode qui se base aussi sur la position des mots dans les pages.
par contre il reste à "étalonner" l'outil, c'est à dire à se rendre compte des valeurs car dans certains cas on trouve 80% de similarité alors que les pages sont assez différentes.
j'aimerais trouver une méthode qui se base aussi sur la position des mots dans les pages.
Je suppose que cela aussi est sans les tags HTML, je veux dire sans les surlignage, mise en gras, etc...Si tu veux tenir compte de la position des mots il faudrait peut être tenir compte aussi de leurs poids ?
Enfin moi je dis ça comme ça , c'est peut être une bêtise..
Autre question est-ce que les méthodes que tu utilises éliminent les mots courant dans le texte ou c'est vraiment brut (élimination des articles, le, la, etc...)
Enfin moi je dis ça comme ça , c'est peut être une bêtise..
Autre question est-ce que les méthodes que tu utilises éliminent les mots courant dans le texte ou c'est vraiment brut (élimination des articles, le, la, etc...)
N'oublies pas également de ne pas compter toute la syntaxe HTML, car tes % sont vraiment élevés même entre ton site et le mien ce qui ne rime à rien puisqu'ils ne sont en rien identiques !
Sinon tu peux t'amuser à faire le distinguo entre la similarité du squelette HTML et le contenu, l'indicateur serait plus fiable et donc plus intéressant
Sinon tu peux t'amuser à faire le distinguo entre la similarité du squelette HTML et le contenu, l'indicateur serait plus fiable et donc plus intéressant
48 messages • Page 1 sur 4 • 1, 2, 3, 4
Lectures recommandées sur ce thème :
- Analyse de pages similaires
- Outil de suggestion de mots sémantiquement proches
- L'algorithme BlockRank
- Calculer l'indice de co-occurrence et le ratio E/F
- Google signe avec Lycos Europe un accord sur la publicité ciblée
- Brevet de Google sur le contenu dupliqué
- Calcul du ratio de liens profonds vers un site web
- Etude du BlockRank, un algorithme de calcul rapide du PageRank
- Google Dance : c'est parti ! Update de juillet 2002
- Google rachète Orion, un algorithme inventé par Ori Allon
- outil de calcul - co-occurrence
- Outil de calcul du pr fort ou faible
- Outil de calcul de chargement de page
- Nouvel outil : Calcul du pagerank moyen
- recherche outil de calcul de temps de chargement
- nouvel outil : calcul d'indice de densité
- quel est le meilleur outil de calcul de densité
- Quel outil de calcul de densité utilisez-vous?
- Votre avis sur 1 outil qui calcul le futur PageRank
- Créer un site web dédié à la vidéo/calcul de bande passante
- Fusion adsense textuelle et thematique
- Annonce textuelle ne s'affiche pas grrrrrrrrr !
- Un nouvel outil de web analytique
- Nouvelle version de loutil de statistiques web SpongeStats
- Atiki: nouvel outil Web de veille Internet
Consultez la description détaillée des produits ou services de Google suivants : Google Compute
- Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Calculer le ratio de liens profonds
Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés. - Calculer l'indice de densité
Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page. - Calculer l'indice de co-occurrence
Cet outil vous permet de calculer l'indice de co-occurrence de 2 ou 3 termes, ainsi que le ratio E/F. L'indice de co-occurrence mesure le relation entre les termes : plus cet indice est élevé, plus les termes sont reliés. Concrètement, plus l'indice est élevé, plus il est fréquent de trouver des documents qui contiennent les différents termes.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités






le forum