[Outil] Calcul de similarité textuelle entre 2 pages web
48 messages • Page 3 sur 4 • 1, 2, 3, 4
Oui et cela oblige à appliquer une mise en forme ultra simple pour limiter le code.
C'est également notre objectif d'approcher les 70%. J'ai un site dont toutes les pages sont référencées avec un taux moyen de 70/73% (méthode Dice) et 55/58% (méthode Jacard).
J'ai donc l'impression qu'à 90% de similitude GG nettoie progressivement sa base pour ne garder que 50% des pages. Vers 70%, il les considère toutes différentes.
C'est un constat perso à prendre avec des pincettes.
C'est également notre objectif d'approcher les 70%. J'ai un site dont toutes les pages sont référencées avec un taux moyen de 70/73% (méthode Dice) et 55/58% (méthode Jacard).
J'ai donc l'impression qu'à 90% de similitude GG nettoie progressivement sa base pour ne garder que 50% des pages. Vers 70%, il les considère toutes différentes.
C'est un constat perso à prendre avec des pincettes.
Bonjour à tous,
Comment se fait-il que j'obtienne des taux de similarité :
Méthode de calcul Page entière : Dice 39.23% / Jacard 24.40%
aussi élevés entre deux pages écrites en deux langues différentes (fr, es) et dans lesquelles ne sont vraiment identiques que quelques noms propres ou de marque
Comment se fait-il que j'obtienne des taux de similarité :
Méthode de calcul Page entière : Dice 39.23% / Jacard 24.40%
aussi élevés entre deux pages écrites en deux langues différentes (fr, es) et dans lesquelles ne sont vraiment identiques que quelques noms propres ou de marque
pages similaires a plus de 99%
Bonjour,
J'ai essayé d'améliorer le referencement de mes pages de news en incluant des meta description et keyword dynamiques en plus du title deja dynamique, mais le test de similarite de wri me donne plus 99% de similarite sur les pages ! Pourtant, lorsque j affiche la source des pages, les meta sont bien differentes selon les pages de news. Where is the problem ?
J'ai essayé d'améliorer le referencement de mes pages de news en incluant des meta description et keyword dynamiques en plus du title deja dynamique, mais le test de similarite de wri me donne plus 99% de similarite sur les pages ! Pourtant, lorsque j affiche la source des pages, les meta sont bien differentes selon les pages de news. Where is the problem ?
Moi j'ai abandonné ces histoires de similarité, meme si nous avons un peu amelioré les resultats de ce cote la.
On en est reste la vu les efforts à fournir et le tres peu de resultat obtenu.
Surtout que finalement, malgre un taux de similarite eleve, nos pages sont enfin referencees. Je pense que cela est dû à l'ancienneté du site car nous n'avions rien fait de plus ormi d'avoir soufflé notre premiere bougie... Probable qu'il y ait une histoire de sandbox.
A voir avec ceux qui ont plus d'experience si ce fait ce confirme.
On en est reste la vu les efforts à fournir et le tres peu de resultat obtenu.
Surtout que finalement, malgre un taux de similarite eleve, nos pages sont enfin referencees. Je pense que cela est dû à l'ancienneté du site car nous n'avions rien fait de plus ormi d'avoir soufflé notre premiere bougie... Probable qu'il y ait une histoire de sandbox.
A voir avec ceux qui ont plus d'experience si ce fait ce confirme.
-

WebRankInfo - Administrateur du site

- Messages: 15890
- Inscription: Ven Avr 19, 2002 19:51
alfred99, as-tu un exemple à nous donner ?
Bonsoir,
oui, j'ai modifié le script pour faire des meta dynamiques aujourd'hui, je me mets au php, c est facile en fait, et j'ai fait le test sur les 2 adresses :***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337 et ***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 qui ont un contenu different meme si la decoration reste celle du cms. Le taux de similarite dans les 2 methodes depasse le 99 % !!! Pour toutes mes news, c est pareil ! Le reste, ca va... Merci de me conseiller.
oui, j'ai modifié le script pour faire des meta dynamiques aujourd'hui, je me mets au php, c est facile en fait, et j'ai fait le test sur les 2 adresses :***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337 et ***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 qui ont un contenu different meme si la decoration reste celle du cms. Le taux de similarite dans les 2 methodes depasse le 99 % !!! Pour toutes mes news, c est pareil ! Le reste, ca va... Merci de me conseiller.
-

Cendrillon - WRInaute accro

- Messages: 4747
- Inscription: Mar Aoû 17, 2004 15:41
en attendant qu'Olivier te réponde ... tu peux également comparer tes résultats avec ceux de cet outil : http://www.webconfs.com/similar-page-checker.php ...
[edit] je viens de faire l'essai et j'obtiens bien :
[edit] je viens de faire l'essai et j'obtiens bien :
ht*p://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 is 91.569932415003% percentage similar to
ht*p://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337
-

Cendrillon - WRInaute accro

- Messages: 4747
- Inscription: Mar Aoû 17, 2004 15:41
vinset a écrit:à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ?
par expérience, il vaut mieux rester en dessous de 70% de similarité pour passer sans risque les filtres de similarité de Google ...
-

WebRankInfo - Administrateur du site

- Messages: 15890
- Inscription: Ven Avr 19, 2002 19:51
non seulement le texte
Je ne suis pas sure du tout de l'efficacité de cet outil et j'obtiens des resultats que je ne comprends pas :
(URL supprimée par WRI, les règles interdisent toute dénonciation)
pour moi, ces pages là ne sont issues d'aucun travail de la part du webmaster, les tags sont à hurler en plus. pourtant, ces 2 pages sont en premiere page de Google sur les requetes concernées !
Autre exemple, totalement different :
(URL supprimée par WRI, les règles interdisent toute dénonciation)
Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site"
Quelqu'un comprend t-il ce curieux phénomène ? Je ne peux pas croire que cela ne soit lié qu'à l'ancienneté du site
(URL supprimée par WRI, les règles interdisent toute dénonciation)
pour moi, ces pages là ne sont issues d'aucun travail de la part du webmaster, les tags sont à hurler en plus. pourtant, ces 2 pages sont en premiere page de Google sur les requetes concernées !
Autre exemple, totalement different :
(URL supprimée par WRI, les règles interdisent toute dénonciation)
Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site"
Quelqu'un comprend t-il ce curieux phénomène ? Je ne peux pas croire que cela ne soit lié qu'à l'ancienneté du site
-

Cendrillon - WRInaute accro

- Messages: 4747
- Inscription: Mar Aoû 17, 2004 15:41
pitbulle a écrit:Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site"![]()
Bon, je crois bien que tu confonds beaucoup de choses. Une similarité de pages trop élevée conduit au transfert de l'une, l'autre ou les deux pages dans l'index secondaire de Google ("Résultat complémentaire"), autant dire que ces pages ont peu de chance de sortir en bonne position.
Ne pas confondre similarité de page et similarité de snippets qui se traduit par le repliement des pages concernées en "résultat similaire" lorsque tu executes la commande Site. Avec cette commande, Google ne disposant pas de mot clé, propose le contenu de la méta description comme snippet. Si ces meta ne sont pas différentiées les pages obtiennent des snippets identiques et sont alors repliées en "pages similaires".
Mais dans un cas comme dans l'autre, tout cela n'a rien à voir avec le positionnement des tes pages dans résultats de recherche avec mot clé.
48 messages • Page 3 sur 4 • 1, 2, 3, 4
Lectures recommandées sur ce thème :
- Analyse de pages similaires
- Outil de suggestion de mots sémantiquement proches
- L'algorithme BlockRank
- Calculer l'indice de co-occurrence et le ratio E/F
- Google signe avec Lycos Europe un accord sur la publicité ciblée
- Brevet de Google sur le contenu dupliqué
- Calcul du ratio de liens profonds vers un site web
- Etude du BlockRank, un algorithme de calcul rapide du PageRank
- Google Dance : c'est parti ! Update de juillet 2002
- Google rachète Orion, un algorithme inventé par Ori Allon
- outil de calcul - co-occurrence
- Outil de calcul du pr fort ou faible
- Outil de calcul de chargement de page
- Nouvel outil : Calcul du pagerank moyen
- recherche outil de calcul de temps de chargement
- nouvel outil : calcul d'indice de densité
- quel est le meilleur outil de calcul de densité
- Quel outil de calcul de densité utilisez-vous?
- Votre avis sur 1 outil qui calcul le futur PageRank
- Créer un site web dédié à la vidéo/calcul de bande passante
- Fusion adsense textuelle et thematique
- Annonce textuelle ne s'affiche pas grrrrrrrrr !
- Un nouvel outil de web analytique
- Nouvelle version de loutil de statistiques web SpongeStats
- Atiki: nouvel outil Web de veille Internet
Consultez la description détaillée des produits ou services de Google suivants : Google Compute
- Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Calculer le ratio de liens profonds
Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés. - Calculer l'indice de densité
Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page. - Calculer l'indice de co-occurrence
Cet outil vous permet de calculer l'indice de co-occurrence de 2 ou 3 termes, ainsi que le ratio E/F. L'indice de co-occurrence mesure le relation entre les termes : plus cet indice est élevé, plus les termes sont reliés. Concrètement, plus l'indice est élevé, plus il est fréquent de trouver des documents qui contiennent les différents termes.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités







le forum