[Outil] Calcul de similarité textuelle entre 2 pages web

Pholus
Nouveau WRInaute
 
Messages: 29
Inscription: Jeu Avr 21, 2005 21:40

Message le Mar Mai 31, 2005 23:10

Oui et cela oblige à appliquer une mise en forme ultra simple pour limiter le code.
C'est également notre objectif d'approcher les 70%. J'ai un site dont toutes les pages sont référencées avec un taux moyen de 70/73% (méthode Dice) et 55/58% (méthode Jacard).

J'ai donc l'impression qu'à 90% de similitude GG nettoie progressivement sa base pour ne garder que 50% des pages. Vers 70%, il les considère toutes différentes.

C'est un constat perso à prendre avec des pincettes.

gueritee
Nouveau WRInaute
 
Messages: 17
Inscription: Jeu Mai 26, 2005 8:52

Message le Mar Juin 07, 2005 13:44

Bonjour à tous,

Comment se fait-il que j'obtienne des taux de similarité :

Méthode de calcul Page entière : Dice 39.23% / Jacard 24.40%

aussi élevés entre deux pages écrites en deux langues différentes (fr, es) et dans lesquelles ne sont vraiment identiques que quelques noms propres ou de marque :?:

Pholus
Nouveau WRInaute
 
Messages: 29
Inscription: Jeu Avr 21, 2005 21:40

Message le Mar Juin 07, 2005 15:25

Probablement à cause du code (mise en forme, menu...) qui doit être identique.

39%, j'en reve....


alfred99
WRInaute passionné
WRInaute passionné
 
Messages: 617
Inscription: Mar Déc 07, 2004 11:37

pages similaires a plus de 99%

Message le Ven Aoû 26, 2005 16:12

Bonjour,
J'ai essayé d'améliorer le referencement de mes pages de news en incluant des meta description et keyword dynamiques en plus du title deja dynamique, mais le test de similarite de wri me donne plus 99% de similarite sur les pages ! Pourtant, lorsque j affiche la source des pages, les meta sont bien differentes selon les pages de news. Where is the problem ?

Pholus
Nouveau WRInaute
 
Messages: 29
Inscription: Jeu Avr 21, 2005 21:40

Message le Ven Aoû 26, 2005 16:36

Moi j'ai abandonné ces histoires de similarité, meme si nous avons un peu amelioré les resultats de ce cote la.
On en est reste la vu les efforts à fournir et le tres peu de resultat obtenu.

Surtout que finalement, malgre un taux de similarite eleve, nos pages sont enfin referencees. Je pense que cela est dû à l'ancienneté du site car nous n'avions rien fait de plus ormi d'avoir soufflé notre premiere bougie... Probable qu'il y ait une histoire de sandbox.

A voir avec ceux qui ont plus d'experience si ce fait ce confirme.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15890
Inscription: Ven Avr 19, 2002 19:51

Message le Ven Aoû 26, 2005 16:56

alfred99, as-tu un exemple à nous donner ?


alfred99
WRInaute passionné
WRInaute passionné
 
Messages: 617
Inscription: Mar Déc 07, 2004 11:37

Message le Ven Aoû 26, 2005 18:51

Bonsoir,
oui, j'ai modifié le script pour faire des meta dynamiques aujourd'hui, je me mets au php, c est facile en fait, et j'ai fait le test sur les 2 adresses :***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337 et ***://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 qui ont un contenu different meme si la decoration reste celle du cms. Le taux de similarite dans les 2 methodes depasse le 99 % !!! Pour toutes mes news, c est pareil ! Le reste, ca va... Merci de me conseiller.


alfred99
WRInaute passionné
WRInaute passionné
 
Messages: 617
Inscription: Mar Déc 07, 2004 11:37

Message le Sam Aoû 27, 2005 17:50

help svp, je n'ai pas d'idées pour solutionner.


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

Message le Sam Aoû 27, 2005 19:19

en attendant qu'Olivier te réponde ... tu peux également comparer tes résultats avec ceux de cet outil : http://www.webconfs.com/similar-page-checker.php ... :wink:


[edit] je viens de faire l'essai et j'obtiens bien :

ht*p://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=336 is 91.569932415003% percentage similar to
ht*p://www.presse-revue.com/index1.php?l=includes/newsdet.inc&news=337


vinset
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 183
Inscription: Jeu Avr 20, 2006 7:59

Message le Ven Avr 21, 2006 9:43

Bonjour,

à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ?

Merci de vos réponses.


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

Message le Dim Avr 23, 2006 16:21

vinset a écrit:à votre avis, quel pourcentage de similarité ne faut-il pas dépasser pour ne pas se faire accuser de duplicate content ?

par expérience, il vaut mieux rester en dessous de 70% de similarité pour passer sans risque les filtres de similarité de Google ... :wink:

XoSt
WRInaute accro
WRInaute accro
 
Messages: 1527
Inscription: Lun Oct 06, 2003 12:58

Message le Lun Nov 06, 2006 5:59

L'outil regarde le code html aussi ? parceque j'ai deux sites différents et c'est presque similaire partout, mais j'ai utilisé le meme code html


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15890
Inscription: Ven Avr 19, 2002 19:51

Message le Lun Nov 06, 2006 7:58

non seulement le texte


pitbulle
WRInaute discret
WRInaute discret
 
Messages: 87
Inscription: Mer Sep 08, 2004 17:28

Message le Lun Nov 06, 2006 11:38

Je ne suis pas sure du tout de l'efficacité de cet outil et j'obtiens des resultats que je ne comprends pas :

(URL supprimée par WRI, les règles interdisent toute dénonciation)

pour moi, ces pages là ne sont issues d'aucun travail de la part du webmaster, les tags sont à hurler en plus. pourtant, ces 2 pages sont en premiere page de Google sur les requetes concernées !

Autre exemple, totalement different :
(URL supprimée par WRI, les règles interdisent toute dénonciation)

Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site" :cry:

Quelqu'un comprend t-il ce curieux phénomène ? Je ne peux pas croire que cela ne soit lié qu'à l'ancienneté du site :-(


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

Message le Dim Nov 12, 2006 15:27

pitbulle a écrit:Convenez en , je dis pas ca parceque c'est mon site, le travail est bien là et pourtant l'outil m'assassine sur la similarité et ces pages (ainsi que toutes mes autres revues) sont considérée comme des pages ignorées sur la commande "site" :cry:


Bon, je crois bien que tu confonds beaucoup de choses. Une similarité de pages trop élevée conduit au transfert de l'une, l'autre ou les deux pages dans l'index secondaire de Google ("Résultat complémentaire"), autant dire que ces pages ont peu de chance de sortir en bonne position.

Ne pas confondre similarité de page et similarité de snippets qui se traduit par le repliement des pages concernées en "résultat similaire" lorsque tu executes la commande Site. Avec cette commande, Google ne disposant pas de mot clé, propose le contenu de la méta description comme snippet. Si ces meta ne sont pas différentiées les pages obtiennent des snippets identiques et sont alors repliées en "pages similaires".

Mais dans un cas comme dans l'autre, tout cela n'a rien à voir avec le positionnement des tes pages dans résultats de recherche avec mot clé. :wink:

[Outil] Calcul de similarité textuelle entre 2 pages web [Outil] Calcul de similarité textuelle entre 2 pages web

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Compute

  • Similarité et duplicate content
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
  • Calculer le ratio de liens profonds
    Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.
  • Calculer l'indice de densité
    Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page.
  • Calculer l'indice de co-occurrence
    Cet outil vous permet de calculer l'indice de co-occurrence de 2 ou 3 termes, ainsi que le ratio E/F. L'indice de co-occurrence mesure le relation entre les termes : plus cet indice est élevé, plus les termes sont reliés. Concrètement, plus l'indice est élevé, plus il est fréquent de trouver des documents qui contiennent les différents termes.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités