[Outil] Calcul de similarité textuelle entre 2 pages web
48 messages • Page 2 sur 4 • 1, 2, 3, 4
-

WebRankInfo - Administrateur du site

- Messages: 15890
- Inscription: Ven Avr 19, 2002 19:51
j'ai bien précisé que pour l'instant cet outil se base sur les occurrences des mots dans les pages
je parle ici du texte visible, donc je commence par supprimer les balises HTML
pour l'instant je n'ai pas intégré de listes de "stop words" mais c'est envisagé
le pb est qu'on ignore totalement ce qui est utilisé par les moteurs
c'est pourquoi je souhaite développer un outil qui fasse plusieurs calculs selon plusieurs méthodes, et qu'ensuite on en discute en confrontant les résultats de l'outil avec des situations réelles de désindexation ou autres problèmes !
je parle ici du texte visible, donc je commence par supprimer les balises HTML
pour l'instant je n'ai pas intégré de listes de "stop words" mais c'est envisagé
le pb est qu'on ignore totalement ce qui est utilisé par les moteurs
c'est pourquoi je souhaite développer un outil qui fasse plusieurs calculs selon plusieurs méthodes, et qu'ensuite on en discute en confrontant les résultats de l'outil avec des situations réelles de désindexation ou autres problèmes !
Bonjour
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?
Bonjour,
J'ai fait des tests avec "Similar Page Checker", "WRI Dice" et "WRI Jacard" (voir les URL au début du topic) avec 6 pages différentes.
Page 1 - page de référence doit voici le code :
Page 2 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <title>
Page 3 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="description">
Page 4 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="keywords">
Page 5 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <h1>
Page 6 - Idem à page 1 mais suppression du "L" de "Lorem" au début du texte
Voici les résultats :
[En rouge] On constate qu'il y a des cas où "WRI Dice" et "WRI Jacard" ne voient pas de différence entre les pages alors que "Similar Page Checker", oui.
Voilà... A vos commentaires...
J'ai fait des tests avec "Similar Page Checker", "WRI Dice" et "WRI Jacard" (voir les URL au début du topic) avec 6 pages différentes.
Page 1 - page de référence doit voici le code :
- Code: Tout sélectionner
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<title>Lorem ipsum dolor consectetuer adipiscing elit</title>
<meta name="description" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
<meta name="keywords" content="Lorem ipsum dolor sit consectetuer adipiscing elit">
</head>
<body>
<h1>Lorem ipsum dolor sit consectetuer adipiscing elit</h1>
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Morbi interdum, mauris eu porta hendrerit, nunc eros vulputate purus, vel vestibulum nibh nunc eu augue. In lacus orci, adipiscing id, iaculis condimentum, iaculis sit amet, ligula. Sed a nunc eget arcu pharetra ornare. Vestibulum gravida consequat lorem. Nam lobortis magna volutpat dolor. Donec lacus nulla, molestie blandit, vehicula non, sollicitudin eu, nulla. Pellentesque commodo ligula in velit. Curabitur a mauris. Etiam luctus est sit amet leo. Morbi gravida tortor ut magna. Vestibulum vitae urna. Vivamus in metus. Donec fringilla commodo nulla. Proin mauris metus, cursus a, accumsan sit amet, lacinia in.
</body>
</html>
Page 2 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <title>
Page 3 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="description">
Page 4 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <meta name="keywords">
Page 5 - Idem à page 1 mais suppression du "L" de "Lorem" au début du <h1>
Page 6 - Idem à page 1 mais suppression du "L" de "Lorem" au début du texte
Voici les résultats :
[En rouge] On constate qu'il y a des cas où "WRI Dice" et "WRI Jacard" ne voient pas de différence entre les pages alors que "Similar Page Checker", oui.
Voilà... A vos commentaires...
pas croyable j'ai teste les deux pages les mieux référencées de ùmon site. Voila ce que j'obtiens:
Dice 92.94% 18.18% 57.89% 60.00%
Jacard 86.81% 10.00% 40.74% 42.86%
c'est grave doncteur?
a priori, non, ces pages sont sur google depuis longtemps et occupent de tres bonnes positions sur leurs mots cles respectifs
Dice 92.94% 18.18% 57.89% 60.00%
Jacard 86.81% 10.00% 40.74% 42.86%
c'est grave doncteur?
a priori, non, ces pages sont sur google depuis longtemps et occupent de tres bonnes positions sur leurs mots cles respectifs
J'ai fait un outil de densité et le premier truc qui m'est venu c'est de virer des mots trop communs. Alors je ne connais pas les méthodes que tu utilises et leur algo, peut être que ces mots communs n'ont finalement pas d'incidence.
- Théophraste
- WRInaute passionné

- Messages: 900
- Inscription: Jeu Juil 22, 2004 14:17
Oui, il semblerait logique de virer les : le, la, les du, de, des, avec, l, et, etc, etc.
Tous ces trucs que font que deux pages peuvent parraitre similaire pour rien...
Les moteurs, lors de recherches, les ignorent bien généralement...
Tous ces trucs que font que deux pages peuvent parraitre similaire pour rien...
Les moteurs, lors de recherches, les ignorent bien généralement...
Mon site site principal ainsi que mes 2 autres sites sont actuellement en cours de transfert, google à crawler mon site principal juste avant de changer les dns, j'ai cliqué sur "pages similaires" dans google et y m'en affiche "des tonnes" (20/30) ... le thème etant "gagner de l'argent", quelqu'un sait sur quel pourcentage se base google pour les afficher ?
-

WebRankInfo - Administrateur du site

- Messages: 15890
- Inscription: Ven Avr 19, 2002 19:51
il faudrait que je vérifie mais je pense que dans les algos utilisés les mots communs aux 2 pages ne font pas augmenter le taux de similarité. On se base surtout sur le nb de mots différents.
mais je vais supprimer les stop words, c'est vrai que ce serait mieux. qui a des liens vers des listes de stop words (en français et dans d'autres langues éventuellement) ?
mais je vais supprimer les stop words, c'est vrai que ce serait mieux. qui a des liens vers des listes de stop words (en français et dans d'autres langues éventuellement) ?
Bonjour,
Il y a ce lien :
http://www.ranks.nl/tools/stopwords.html qui propose des stopwords pour plusieurs langues.
Il y a ce lien :
http://www.ranks.nl/tools/stopwords.html qui propose des stopwords pour plusieurs langues.
-

WebRankInfo - Administrateur du site

- Messages: 15890
- Inscription: Ven Avr 19, 2002 19:51
j'ai mis à jour l'outil en ignorant tous les mots trop courants en français ("stop words"). Merci à Jean Véronis pour son aide !
Olivier
Olivier
jeffousse a écrit:Bonjour
Je viens d'utiliser l'outil de similitude sur un de mes annuaires. C'est un annuaire pour des villes et j'ai des pages individuelles (pour chaque page) à fort taux de similitude environ 92%.
Cela n'empèche pas google de me mettre entre la 1ere et 3eme page. Le plus souvent 1ere page.
Par contre il semble buter sur la quantité. Je pense qu'il a intégré que 50% de ces pages individuelles.
Je ne sais pas si c'est lié ?
Pour info, même constat. Sur 200 pages référencées environ, nous sommes descendus progressivement à 118 pages et cela semble se stabiliser. En terme de similitude, nous sommes également dans les 90%.
Coïncidence ?
48 messages • Page 2 sur 4 • 1, 2, 3, 4
Lectures recommandées sur ce thème :
- Analyse de pages similaires
- Outil de suggestion de mots sémantiquement proches
- L'algorithme BlockRank
- Calculer l'indice de co-occurrence et le ratio E/F
- Google signe avec Lycos Europe un accord sur la publicité ciblée
- Brevet de Google sur le contenu dupliqué
- Calcul du ratio de liens profonds vers un site web
- Etude du BlockRank, un algorithme de calcul rapide du PageRank
- Google Dance : c'est parti ! Update de juillet 2002
- Google rachète Orion, un algorithme inventé par Ori Allon
- outil de calcul - co-occurrence
- Outil de calcul du pr fort ou faible
- Outil de calcul de chargement de page
- Nouvel outil : Calcul du pagerank moyen
- recherche outil de calcul de temps de chargement
- nouvel outil : calcul d'indice de densité
- quel est le meilleur outil de calcul de densité
- Quel outil de calcul de densité utilisez-vous?
- Votre avis sur 1 outil qui calcul le futur PageRank
- Créer un site web dédié à la vidéo/calcul de bande passante
- Fusion adsense textuelle et thematique
- Annonce textuelle ne s'affiche pas grrrrrrrrr !
- Un nouvel outil de web analytique
- Nouvelle version de loutil de statistiques web SpongeStats
- Atiki: nouvel outil Web de veille Internet
Consultez la description détaillée des produits ou services de Google suivants : Google Compute
- Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Calculer le ratio de liens profonds
Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés. - Calculer l'indice de densité
Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page. - Calculer l'indice de co-occurrence
Cet outil vous permet de calculer l'indice de co-occurrence de 2 ou 3 termes, ainsi que le ratio E/F. L'indice de co-occurrence mesure le relation entre les termes : plus cet indice est élevé, plus les termes sont reliés. Concrètement, plus l'indice est élevé, plus il est fréquent de trouver des documents qui contiennent les différents termes.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités







le forum