outil de mesure de similarité de 2 pages ...

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

outil de mesure de similarité de 2 pages ...

Message le Mar Déc 07, 2004 13:33

Il apparait assez clairement que nombre de sites dynamiques ont des problèmes de déréférencement en ce moment ... je suis persuadée que celà est en grande partie dû à la similarité des pages (entre 2 pages produits d'un catalogue, parfois très peu de choses changent) ... je pense qu'il faut donc surveiller le taux de similarité de ces pages ... :wink:

A la main c'est fastidieux, est ce que qq connaitrait un outil qui permettrait de mesurer ce taux de similarité entre 2 pages web ?


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15808
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Déc 07, 2004 14:06

ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël ;-)


herveG
Modérateur
Modérateur
 
Messages: 9817
Inscription: Mer Mar 05, 2003 11:33

Message le Mar Déc 07, 2004 15:05

On pourrait peutetre essayer de lister les critères qui pourraient etre comparés afin de calculer un indice de similitude ? ca pourrait aider Olivier À déballer les cartons plus vite.....

A moins qu´il préfère qu´on lui envoit ces criteres par MP pour qu il puisse les consolider trasnquillement....


MagicYoyo
WRInaute accro
WRInaute accro
 
Messages: 2509
Inscription: Lun Mai 24, 2004 15:33

Message le Mar Déc 07, 2004 16:23

- Titre de la page
- Metas
- Premieres balises
- degré de similitude de la liste de mots de chaque page (pondéré par la densité de chque mot)
- phrases communes
- Liens sortants identiques


herveG
Modérateur
Modérateur
 
Messages: 9817
Inscription: Mer Mar 05, 2003 11:33

Message le Mar Déc 07, 2004 16:25

bon, je commence alors. ce ne sont que des idées de ce qui pourrait etre coparé. ensuite il faut voir comment adapter un mode de calcul... alors pas de "ah ben oui, mis deux pages avec les memes Keywords sont pas forcément similaires" et compganie....

- balise description
- keywords
- nombre d´occurences de certains termes
- nombre de termes de plus d´un certain nombre de lettres en tout
- nom des fichier image et logo
- les premiers mots de la page
- les derniers mots de la pages
- titre des chapitres (H1, H2, Hn)
- Poids de la page
- nombre de liens internes
- nombre de liens vers l´extérieur
- contenu des liens internes (Anchor text)


a vous pour compléter...

(j edite pour supprimer ce qui est déja donné....)


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

Message le Mar Déc 07, 2004 16:39

WebRankInfo a écrit:ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël ;-)

En voila une bonne nouvelle ... :roll:


Kmacleod
WRInaute accro
WRInaute accro
 
Messages: 3418
Inscription: Jeu Nov 28, 2002 15:47

Message le Mar Déc 07, 2004 17:01

Cendrillon a écrit:
WebRankInfo a écrit:ça fait partie des outils dans mes cartons... je vais essayer de les déballer avant Noël ;-)

En voila une bonne nouvelle ... :roll:


Ah je verrai bien de nouveaux outils pour le 25 au matin.
J'entends déjà les rennes en train de faire reluire leur sabot, a moins que je ne confonde avec longues oreilles razor.

Sinon pour ne pas laisser ce post dans un état de fêtes (c'est pas l'heure d'abord), je ne comprends pas l'interêt de mettre autant de paramètres.
Pour moi deux pages sont similaires dés lors que les contenus texte/liens, eliminé des menus et autres liens de navigation ont x pourcentage identique.


Madrileño
Madrileño
Madrileño
 
Messages: 19981
Inscription: Mer Juil 07, 2004 12:14

Message le Mar Déc 07, 2004 17:17

Kmacleod a écrit:Ah je verrai bien de nouveaux outils pour le 25 au matin.

Le père noël était en avance > annuaire WRI :lol: :arrow:

ps : c'est pour quand Olivier le Grand Déballage ? :wink:


herveG
Modérateur
Modérateur
 
Messages: 9817
Inscription: Mer Mar 05, 2003 11:33

Message le Mar Déc 07, 2004 17:21

Kmacleod a écrit:
Sinon pour ne pas laisser ce post dans un état de fêtes (c'est pas l'heure d'abord), je ne comprends pas l'interêt de mettre autant de paramètres.
Pour moi deux pages sont similaires dés lors que les contenus texte/liens, eliminé des menus et autres liens de navigation ont x pourcentage identique.


mais alors il faut faire comment pour calculer ce % ?

car apparemment meme les moteurs (tels altavista a qui j´avais posé la question) ne sont pas capable d´identifier des apges qui sont presque identique si elle ne le sont pas complètement.

ils m´avaient répondu à l epoque : si deux pages sont parfairement identique, alors notre moteur est capable de les repérer et d´en éliminer une. si il y a un peu de différence, alors on ne peut rien faire.

c etait du temps ou je m´enervais pour les sites duppliqués aec juste la couleur qui change et un peu la mise en page....


mahefarivony
WRInaute accro
WRInaute accro
 
Messages: 11405
Inscription: Lun Oct 14, 2002 10:00

Message le Mar Déc 07, 2004 17:49

s'ils sont capables de définir le "sens" d'une page (avec toute la panoplie sémantique, bidule machin truc), ça ne devrait pas trop leur poser de probleme pour se rendre compte qu'une page (ou ensemble de pages) est générée à partir d'une BDD....


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15808
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Déc 07, 2004 17:55

L'intérêt d'un tel outil me semble de pouvoir indiquer si tel ou tel moteur considère que 2 pages sont similaires (et n'en affiche qu'une dans les résultats par exemple) et non pas d'indiquer une note de similarité made by WRI (ce qui serait plus simple pourtant).

Je pense également qu'il faut analyser le texte et les liens, mais pas forcément toutes ces balises... Je poursuis mes tests ;-)


MagicYoyo
WRInaute accro
WRInaute accro
 
Messages: 2509
Inscription: Lun Mai 24, 2004 15:33

Message le Mar Déc 07, 2004 18:00

WebRankInfo a écrit:L'intérêt d'un tel outil me semble de pouvoir indiquer si tel ou tel moteur considère que 2 pages sont similaires (et n'en affiche qu'une dans les résultats par exemple) et non pas d'indiquer une note de similarité made by WRI (ce qui serait plus simple pourtant).

Je pense également qu'il faut analyser le texte et les liens, mais pas forcément toutes ces balises... Je poursuis mes tests ;-)


Bah, dans ces conditions, ca va vraiment sentir Noêl ton histoire.


Kmacleod
WRInaute accro
WRInaute accro
 
Messages: 3418
Inscription: Jeu Nov 28, 2002 15:47

Message le Mar Déc 07, 2004 18:20

L'aspect moteur que soulève Olivier est autre, en tout cas different de celui que nous faisons à la mano pour surveiller le piratage de contenu (+1 cette semaine)

Cote moteur s'agirait'il de developper un outil permettant de générer une page, en étant certain, à priori, que le moteur ne la considèrera pas comme déjà existante sur le web (je pense aux marques blanches, aux conséquences de la syndication) ?

Cendrillon, Olivier, ai-je bon ?


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15808
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Déc 07, 2004 19:17

mon idée est de demander à mon outil s'il considère que 2 pages sont similaires. Cet outil donnerait un taux de similarité et au-delà d'un certain seuil il décrète les pages similaires.

Tout le problème vient du réglage de l'outil qui pourrait se calquer sur l'un ou l'autre des moteurs. Par exemple si je coche l'option Google, l'outil doit idéalement indiquer la même chose que Google. Problème : comment savoir grâce à Google que 2 pages sont jugées "trop" similaires ? Quand une seule des deux ressort sur une requête, et que pour voir l'autre il faut cliquer sur le lien qui désactive le filtre ? Vos avis m'intéressent...


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

Message le Mar Déc 07, 2004 19:23

Kmacleod a écrit:Cote moteur s'agirait'il de developper un outil permettant de générer une page, en étant certain, à priori, que le moteur ne la considèrera pas comme déjà existante sur le web (je pense aux marques blanches, aux conséquences de la syndication) ?

Cendrillon, Olivier, ai-je bon ?

c'est en tout cas c'est ce type d'outil que je recherche ... qu'il m'indique le % de similarité ...
et si en plus il peut le faire en fonction des critères de similarité des principaux moteurs (en gros Google, Yahoo et MSN) alors c'est byzance (ou noël ?) ... :wink:

outil de mesure de similarité de 2 pages ...

Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités