Outil de repérage de description dupliquée

annuaires: un script repérant les descriptions dupliquées...

  • serait très utile, je le veux

    Votes: 0 0.0%
  • serait assez inutile, ce sont des hypothèses farfelues

    Votes: 0 0.0%

  • Total voters
    0
WRInaute passionné
bonjour,

certaines hypothèses actuelles concernant le contenu dupliqué mettent clairement en cause les descriptions copiées-collées sur certains annuaires dont les propriétaires ne vérifient pas (et donc acceptent) les descriptions des sites déjà présentes plusieurs fois dans l'index Google, ce qui aurait 2 conséquences:

- plomber l'annuaire lui-même (pages grisées voire désindexées)
- faire perdre de la valeur (voire toute sa valeur) au backlink ainsi obtenu

bref, l'annuaire s'auto-détruirait et de surcroît l'inscription dans ces annuaires ne serait que pure perte de temps, voire pourrait carrément (selon certains) pénaliser le site inscrit.

> un outil (script) permettant de repérer ce "duplicate de zone" lors de la validation du site vous paraît-il utile?

> quelqu'un a-t-il développé ce genre de script?
 
WRInaute impliqué
Salut Carole,

Heu comment tu comptes t'y prendre ? Ouvrir un socket, faire une requête sur GG et regexper les résultats ? Possible que ça existe déjà, pas tout à fait en l'état ...

Si c'est léger, modulaire, facilement intégrable dans un annuaire en place et, pourquoi pas, avec un peu d'AJAX dedans, j'en veux :lol:

Maintenant, est-ce que ça vaut la peine de développer un outil lorsque la nécessité est basée sur des propos au conditionnel ? Que feras-tu quand tu découvriras que la description existe déjà ? La réécrire ? La supprimer ? Envoyer un mail au proprio pour le réprimander et lui demander de resoumettre avec originalité (dans son intérêt comme dans le tiens). Dans ce dernier cas, alors c'est vraiment intéressant, mais c'est plus lourd à mettre en place.

@+
 
WRInaute occasionnel
Seoblackout a fait un script du genre il y a un an déjà : -http://www.seoblackout.com/2007/09/28/eviter-duplicate-content/
 
WRInaute occasionnel
Récemment j'avais pensé à une alternative pour mes 2 petits annuaires thématiques : commenter chaque site. Évidemment peu réaliste, même quand on maitrise la thématique !

Alors oui, un tel outil serait forcément le bienvenu pour maintenir un certain niveau de qualité.

Le procédé a peut-être une limite.
Pour mon site principal, je m'efforce depuis un certain temps à varier les descriptions, pour les désormais très rares soumissions que je réalise encore. Arrive un moment où il devient difficile de rédiger des descriptions vraiment uniques.

D'ailleurs, quand ils parviennent à ce stade, tous les webmasters devraient peut-être se demander vers quelles autres méthodes ils doivent se tourner pour booster leur référencement.
 
WRInaute accro
blogger a dit:
Seoblackout a fait un script du genre il y a un an déjà : -http://www.seoblackout.com/2007/09/28/eviter-duplicate-content/
Le script sert en fait à identifier des occurences identiques dans GG. Ce qui est déjà une très bonne chose en soi.

Mais pour des descriptions très proches mais pas identiques à 100%.; comment déterminer celles que l'on accepte et celles que l'on bannit comme étant du DC.; indiscutablement?

des avis de nos penseurs, et autres ainés expérimentés (ou tout autre ;-) sur ce point précis m'intéresseraient bien: je travaille sur un projet d'annuaire thématique et profesionnel très ciblé
 
WRInaute accro
Au vu du volume de pollution (n'ayons pas peur des mots) existant, se limiter aux descriptions identiques est déjà un pas en avant considérable.

Avec l'outil dont peuvent se servir mes éditeurs depuis hier, je constate l'ampleur des dégâts et... je pense qu'on a bien raison de penser que la problématique du Duplicate Content est à prendre très au sérieux.

Je prends au hasard un site dans notre file d'attente: voici le résultat: http://xewing.com/rkpu7m1f

--> refusé d'office !

...et chez nous, lorsqu'un site est refusé, il faut attendre que son effacement soit "définitif" (façon "vider la corbeille" de Windows...).
Résultat: le gars perd:

- du trafic potentiel
- du ref potentiel
- du temps
... donc de l'argent.


S'il avait pris 5 minutes pour rédiger quelque chose de propre, d'aguichant, et d'unique... ça lui aurait servi.

Tant que les webmasters* continueront à polluer eux-même les outils qui sont sensés leur servir, je vois mal comment on pourrait les plaindre de voir leurs sites se planter :?

*NB: J'utilise "webmasters" au sens large... car je constate que certaines agences web qui sont clientes de l'annuaire ne sont pas en reste, niveau "duplicate". :roll:
 
WRInaute accro
Salut,
A priori je devrais être d'accord avec vous puisque j'ai un annuaire pour autant il me semble que vous vous trompez de guerre, c'est à celui qui a l'annuaire de faire en sorte que son contenu ne soit pas en duplicate avec les autres annuaires pas au webmaster qui soumet son site.
Vous imaginez quand même vous demandez à des types d'écrire votre contenu, vous touchez les pubs et vous avez rien à glander ?!?
A ce rythme je vais même plus prendre le temps d'inscrire mes sites dans mes propres annuaires :lol: .
 
WRInaute accro
serval2a a dit:
Vous imaginez quand même vous demandez à des types d'écrire votre contenu, vous touchez les pubs et vous avez rien à glander ?!?

Bah oui c'est certain ça:

- tout le monde écrit correctement
- personne ne se plante quand il tape un url
- personne ne soumet de titres sur-optimisés
- personne ne fait de description keyword-stuffed
- tout le monde est capable de choisir la catégorie la plus cohérente avec la thématique de son site
- tous les sites sont en français
- les noms de domaines sont pérennes
- le thème d'un site ne change jamais
- les sites satellites n'existent pas
- 80% de la population est medium pure
- le Domain Parking n'existe pas
- le spam n'existe pas
- le contenu pour adultes n'existe pas
- la marque blanche n'existe pas
- les casinos n'existent pas
- tout le monde il est gentil: jamais de racisme, d'incitation à la violence...
- tous les sites sont légaux

c'est sûr: on est des glandeurs... :?
 
WRInaute accro
@HawkEye :
Je suis un brin provocateur comme d'habitude ;) mais c'est justement sur ça qu'elle devrait porter l'évolution technique pas sur comment rajouter des longueurs aux webmasters "honnêtes".

Qui plus est pour reprendre ton "tout le monde écrit correctement " : on y est à quoi te servira donc, personnellement, la vérification de description puisque de toute façon tu vas la réécrire ? Tu préfères pas plutôt dans ce cas avoir une description "sincère" qu'une description "pas en duplicate" ?

Après c'est que mon avis, hein, chacun gère son annuaire comme il l'entend.

PS et petit message à qui le veut: Ceux qui soumettent chez Hawkeye sont invités à venir ensuite chez moi soumettre dans les mêmes termes, je me charge d'éviter tout risque de duplicate avec Indexweb ;)
 
WRInaute accro
@serval2a: je sais :D

Il est évident que dans certains cas, la réécriture de la description est une forme de lutte contre le DC.

On a précisément mis en place un correcteur orthographique sur les descriptions chez nous, dans le but de passer au dessus des autres "versions", mal orthographiées.

On vire la plupart des informations qui ne sont pas pérennes (les tarifs, et autres infos que le visiteur doit voir sur le site client, et pas sur l'annuaire), on s'assure (dans la mesure du possible) que la grammaire soit respectée également, et que les phrases soient compréhensibles.

NB: une perle au hasard (oui, on les garde :D)

Je parlerer de plussieur film qui serons au cinema et les film qui son au cine et les filmqui sort en dvd


Quoi qu'il en soit, ce sont des vérifications, des traitements correctifs: notre service n'est pas un service de rédaction. Le but est de favoriser ceux qui prennent la peine de fournir une information "saine".
Le service est gratuit, mais cela ne signifie pas qu'il faut bâcler ;)

Au final, de toutes façons, avec un système comme celui-ci, on va systématiquement refuser des sites qui entrent d'eux-même, d'une certaine façon, dans une forme légère de "mauvais voisinage". En s'écartant de ce voisinage, on ne peut qu'y gagner. (vision très macro, j'en conviens).
 
WRInaute accro
serval2a a dit:
PS et petit message à qui le veut: Ceux qui soumettent chez Hawkeye sont invités à venir ensuite chez moi soumettre dans les mêmes termes, je me charge d'éviter tout risque de duplicate avec Indexweb ;)

:mrgreen:

En fait, c'est moi qui m'en charge, puisque les desc sont modifiées chez moi.
Mais tu peux le garantir, si tu veux ;)

PS: si tous ceux qui soumettent chez moi passent chez toi après, une chose est sûre: tu vas pas glander du tout :lol:
 
WRInaute accro
Bah tu sais comme mon annuaire n'a pas la notoriété du tien, si déjà ils arrivent avec des descriptions compréhensibles et détaillées ça peut que me faire gagner du temps même si j'en ai plus. :lol:
 
WRInaute discret
Bonjour,

Ce que je préfère dans les descriptions soumises, c'est lorsque la personne va répéter 2 ou 3 fois la même phrase pour avoir 255 caractères... j'adore tellement ça que je met le site aussi de côté, dans ma liste noire !

Pour en revenir au sujet, j'imagine qu'un tel filtre va diminuer nettement le nombre de soumissions. Ce serait intéressant d'avoir quelques retours.
 
WRInaute impliqué
Le probléme de ce filtre, c'est que certains vont être tenté de récupérer ton contenu de qualité qui va pas le rester ensuite ? si il n'y a qu'un petit numéro entre 2 / à changer sur tes pages présentants les sites pour récupérer et mettre en bdd ! :?
 
WRInaute accro
HawkEye a dit:
@serval2a: je sais :D

Il est évident que dans certains cas, la réécriture de la description est une forme de lutte contre le DC.

On a précisément mis en place un correcteur orthographique sur les descriptions chez nous, dans le but de passer au dessus des autres "versions", mal orthographiées.

On vire la plupart des informations qui ne sont pas pérennes (les tarifs, et autres infos que le visiteur doit voir sur le site client, et pas sur l'annuaire), on s'assure (dans la mesure du possible) que la grammaire soit respectée également, et que les phrases soient compréhensibles.

NB: une perle au hasard (oui, on les garde :D)

Je parlerer de plussieur film qui serons au cinema et les film qui son au cine et les filmqui sort en dvd


Quoi qu'il en soit, ce sont des vérifications, des traitements correctifs: notre service n'est pas un service de rédaction. Le but est de favoriser ceux qui prennent la peine de fournir une information "saine".
Le service est gratuit, mais cela ne signifie pas qu'il faut bâcler ;)

Au final, de toutes façons, avec un système comme celui-ci, on va systématiquement refuser des sites qui entrent d'eux-même, d'une certaine façon, dans une forme légère de "mauvais voisinage". En s'écartant de ce voisinage, on ne peut qu'y gagner. (vision très macro, j'en conviens).

100% d'accord mais au final c'est au admin d'annuaire de devoir faire en sorte que l'inscription soit de qualité. Pourquoi pas proposer aussi un service d'inscription manuelle gratuit ! Ca commence a devenir long et lourd :)
 
WRInaute passionné
Kounte a dit:
Le probléme de ce filtre, c'est que certains vont être tenté de récupérer ton contenu de qualité qui va pas le rester ensuite ?
en effet; mais je vois un + gros problème encore: l'émergence d'une nouvelle technique black-hat.

en effet il devient très facile de plomber un annuaire (ou en tout cas ses pages, car il est très clair que ce sont les pages qui sont pénalisées, et pas le site entier) en lui soumettant tout simplement des descriptions dupliquées sur d'autres annuaires. néanmoins la logique est respectée dans la mesure où personne n'est obligé de valider ces soumissions foireuses.

Google est donc clairement en train de mettre les annuaristes devant leurs responsablilités, et par ailleurs en train de porter un coup mortel aux logiciels et autres services de soumission automatique.
 
WRInaute impliqué
Faut être honnête, les annuaires à part dmoz avec un vrai travaille rédactionnelle, cela ne sert à rien, et google à raison de virer tout cela, et les blogs qui reprennent des flux rss, c'est pareil.

J'espére que Google arrivera à eteindre cette tendance annuaire/rss/blog pour favoriser les sites des webmasters qui font du vrai contenu avec du vrai rédactionnel, mais a-t-il le choix ? non si il veut satisfaire les internautes !
 
Discussions similaires
Haut