[Duplicate Content] Script anti DC
34 messages
• Page 1 sur 3 • 1, 2, 3
- shelcko
- WRInaute discret

- Messages: 234
- Inscription: 1 Jan 2007
[Duplicate Content] Script anti DC
Bonjour à tou(te)s,
Lorsque je fais mes validations sur mes annu je prend un partie du texte des desc et le claque dans GG (pour le moment) et ça n'arrive pas souvent qu'il y ai 0 réponses même sur des texte ou il y a 1 ou 2 mots en commun donc je pense que ce genre de script n'est pas optimal.
Donc je voulais savoir si vous connaissez un bon script anti DC que l'on puisse adapter sur une validation de formulaire (ou au moins la technique à utiliser pour avoir un résultat cohérent ça me dérange pas de la coder
), car j'ai cherché un peu partout mais je trouve toujours le même genre qui fait une requête sur GG et qui parse le texte de la page de réception pour voir le nombre de réponses.
Merci d'avance pour vos réponses
Lorsque je fais mes validations sur mes annu je prend un partie du texte des desc et le claque dans GG (pour le moment) et ça n'arrive pas souvent qu'il y ai 0 réponses même sur des texte ou il y a 1 ou 2 mots en commun donc je pense que ce genre de script n'est pas optimal.
Donc je voulais savoir si vous connaissez un bon script anti DC que l'on puisse adapter sur une validation de formulaire (ou au moins la technique à utiliser pour avoir un résultat cohérent ça me dérange pas de la coder
Merci d'avance pour vos réponses
- Rod la Kox
- WRInaute accro

- Messages: 3253
- Inscription: 24 Juin 2008
Re: Script anti DC
Je connais un super script anti-DC et comme je suis d'excellente humeur, je vous en faire part.
Tu prends 10 doigts, n'importe lesquels, mais ceux de a main sont plus efficaces.
Tu place ensuite ses 10 doigts sur ce que l'on nomme "un clavier". LÃ , faut pas chercher longtemps, dans le premier Super U venu, tu en trouvera un.
On arrive au plus difficile. La connexion.
Tu doigt, oops, tu dois réussir à connecter ensemble, ses 10 doigts avec la matière mole contenu dans une boite crânienne. Evidement, si les doigts et la matière mole font partie du même ensemble, c'est le mieux. Dans le cas contraire, il faudra également faire appel à l'algorithme vocal du tiers qui t'offre momentanément l'usage de sa matière mole.
Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.
Bon courage.
Tu prends 10 doigts, n'importe lesquels, mais ceux de a main sont plus efficaces.
Tu place ensuite ses 10 doigts sur ce que l'on nomme "un clavier". LÃ , faut pas chercher longtemps, dans le premier Super U venu, tu en trouvera un.
On arrive au plus difficile. La connexion.
Tu doigt, oops, tu dois réussir à connecter ensemble, ses 10 doigts avec la matière mole contenu dans une boite crânienne. Evidement, si les doigts et la matière mole font partie du même ensemble, c'est le mieux. Dans le cas contraire, il faudra également faire appel à l'algorithme vocal du tiers qui t'offre momentanément l'usage de sa matière mole.
Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.
Bon courage.
-

ricosound - WRInaute impliqué

- Messages: 566
- Inscription: 25 Oct 2009
Re: Script anti DC
Hello.
J'ai bien rigolé à la recette, mais tu lui proposes une entrée alors qu'il demandait un dessert.
Ce dont il a besoin c'est d'un script de contrôle pour validation des description reçues pour son annuaire !
Mal réveillé ? Un bon café et ça devrais aller mieux.
Cordialement, Éric.
Rod la Kox a écrit:Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.
J'ai bien rigolé à la recette, mais tu lui proposes une entrée alors qu'il demandait un dessert.
Ce dont il a besoin c'est d'un script de contrôle pour validation des description reçues pour son annuaire !
shelcko a écrit:je voulais savoir si vous connaissez un bon script anti DC que l'on puisse adapter sur une validation de formulaire
Mal réveillé ? Un bon café et ça devrais aller mieux.
Cordialement, Éric.
-

ricosound - WRInaute impliqué

- Messages: 566
- Inscription: 25 Oct 2009
Re: Script anti DC
La question a été reposée il n'y a pas longtemps ici
http://forum.webrankinfo.com/duplicat-content-dans-description-annuair ... 30406.html
Bonne journée, Éric.
http://forum.webrankinfo.com/duplicat-content-dans-description-annuair ... 30406.html
Bonne journée, Éric.
- shelcko
- WRInaute discret

- Messages: 234
- Inscription: 1 Jan 2007
Re: Script anti DC
Rod la Kox a écrit:Je connais un super script anti-DC et comme je suis d'excellente humeur, je vous en faire part.
Tu prends 10 doigts, n'importe lesquels, mais ceux de a main sont plus efficaces.
Tu place ensuite ses 10 doigts sur ce que l'on nomme "un clavier". LÃ , faut pas chercher longtemps, dans le premier Super U venu, tu en trouvera un.
On arrive au plus difficile. La connexion.
Tu doigt, oops, tu dois réussir à connecter ensemble, ses 10 doigts avec la matière mole contenu dans une boite crânienne. Evidement, si les doigts et la matière mole font partie du même ensemble, c'est le mieux. Dans le cas contraire, il faudra également faire appel à l'algorithme vocal du tiers qui t'offre momentanément l'usage de sa matière mole.
Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.
Bon courage.
Cette méthode très complexe est celle que j'utilise en ce moment, mais il y a des petits malins qui ne savent pas lire et j'ai entre 50 et 100 inscriptions sans respecter les conditions d'inscriptions assez claires. Donc si je place un des scripts que j'ai trouvé sur le net pour faire un pré-tri tous vos sites avec une optimisation pour un mot clé seront refusé même avec une DU.
-

carole heinz - WRInaute accro

- Messages: 2855
- Inscription: 28 Fév 2007
Re: Script anti DC
shelcko a écrit: je trouve toujours le même genre qui fait une requête sur GG et qui parse le texte de la page de réception pour voir le nombre de réponses
salut,
c'est évident que ce n'est pas une bonne solution.
il faudrait plutôt compter le nombre cumulés de mots mis en gras dans le snippet, c'est à dire compter le nombre de mots présents entre <em> et </em> en pensant à supprimer la suite de balises </em><wbr><em> qui sert au passage à la ligne du snippet.
donc, en gros:
1. lancer la requête sur la description
2. parser la page de résultats
3. isoler les snippets (garder tout ce qui se trouve entre div class="s" et span class="f" )
4. supprimer la suite de balise </em><wbr><em> (saut de ligne)
5. compter le nombre n1 de mots restant entre la première balise <em> et la dernière balise </em> , pour chaque snippet
6. fixer un nombre n2 au-delà duquel tu estimes que la phrase est en DC
7. si n1 > n2 alors warning DC
à adapter selon les cas bien sûr. à partir de 15 mots en gras à la suite on peut estimer qu'on est en DC je pense
- shelcko
- WRInaute discret

- Messages: 234
- Inscription: 1 Jan 2007
Re: Script anti DC
Merci carole heinz pour cette réponse constructive ça faisait longtemps que j'en avait pas eut sur ce forum remplis d'esprits farceurs.
C'est à peut près ce à quoi je pensais (sauf que je voulais le faire dans l'autre sens en chopant des phrases au hasard dans la descriptions, enlever les stop words et parser la page de résultat pour connaitre la densité de mots trouvés).
C'est à peut près ce à quoi je pensais (sauf que je voulais le faire dans l'autre sens en chopant des phrases au hasard dans la descriptions, enlever les stop words et parser la page de résultat pour connaitre la densité de mots trouvés).
-

forty - WRInaute passionné

- Messages: 1701
- Inscription: 30 Oct 2008
Re: Script anti DC
tu peux aussi utiliser http://www.phpsources.org/utilisation-de-l-api-de-recherche-google_97.html et compter le nombre de mots en gras.
Tu peux faire des contrôles phrase par phrase ou avec un ensemble de phrases. Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.
Tu peux faire des contrôles phrase par phrase ou avec un ensemble de phrases. Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.
- shelcko
- WRInaute discret

- Messages: 234
- Inscription: 1 Jan 2007
Re: Script anti DC
forty a écrit:Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.
Si je claque directement une phrase en $_GET dans GG ça fait comme si je faisait un contrôle manuel, non ?
-

zeb - WRInaute accro

- Messages: 4569
- Inscription: 5 Déc 2004
Re: Script anti DC
carole heinz a écrit:donc, en gros:
1. lancer la requête sur la description
2. parser la page de résultats
3. isoler les snippets (garder tout ce qui se trouve entre div class="s" et span class="f" )
4. supprimer la suite de balise </em><wbr><em> (saut de ligne)
5. compter le nombre n1 de mots restant entre la première balise <em> et la dernière balise </em> , pour chaque snippet
6. fixer un nombre n2 au-delà duquel tu estimes que la phrase est en DC
7. si n1 > n2 alors warning DC
à adapter selon les cas bien sûr. à partir de 15 mots en gras à la suite on peut estimer qu'on est en DC je pense
c'est bien compliqué je pense.
Dans le cas ou le contenu possiblement dupliqué est demandé a GG entre guillemet (avec des + a la place des espaces entre les mots) et qu'il n'y a pas de réponse GG renvoie un truc alambiqué en proposant autre chose mais la mention "Aucun résultat trouvé pour" est présente en haut de page. il suffit donc de tester le retour GG sur cette phrase pour savoir si c'est du 100% pur original.
-

carole heinz - WRInaute accro

- Messages: 2855
- Inscription: 28 Fév 2007
Re: Script anti DC
zeb a écrit:il suffit donc de tester le retour GG sur cette phrase pour savoir si c'est du 100% pur original.
non cela ne fonctionne pas bien, il suffit qu'un caractère soit différent entre la phrase testée entre guillements et le contenu déjà indexé par Google, pour que Google renvoie "aucun résultat" alors qu'il s'agit bien d'un contenu déjà existant!
>> preuve avec un copier-coller de l'annuaire WRI déjà indexé: Google renvoie "aucun résultat" et pourtant il s'agit bel et bien d'une description déjà utilisée (sur WRI justement, voir premier résultat)
la mesure de la densité de gras sur les snippets est à mon sens la méthode la plus fiable
-

Leonick - WRInaute accro

- Messages: 19598
- Inscription: 8 Aoû 2004
Re: Script anti DC
sauf que gg peut blacklister ton ip, surtout si tu interroges depuis un mutu : avec tous les autres sites qui appellent gg en direct depuis l'ip du mutu (1 seule pour des milliers de sites), ça fait du blacklistage d'ip toute la journéeshelcko a écrit:forty a écrit:Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.
Si je claque directement une phrase en $_GET dans GG ça fait comme si je faisait un contrôle manuel, non ?
-

WebRankInfo - Administrateur du site

- Messages: 19420
- Inscription: 19 Avr 2002
Re: Script anti DC
Merci Carole pour ce retour d'expérience.
Tu considères uniquement les mots en gras qui se suivent, ou bien le nb de mots en gras en tout dans un snippet ?
Tu considères uniquement les mots en gras qui se suivent, ou bien le nb de mots en gras en tout dans un snippet ?
34 messages
• Page 1 sur 3 • 1, 2, 3
Lectures recommandées sur ce thème :
- Script anti duplicate via synonymes
- script anti-spam robots et anti-pirates...
- Le Duplicate-Content en question : un cas de duplicate content important non-pénalisé
- Sale duplicate content (pas content du tous !!!!!) !!!
- script anti-spam
- Script anti robots
- Nouvelle arme anti-AdSense ou simple Content Match ?
- Duplicate content ou pas duplicate
- script anti auto-surf
- [script] lutte anti spam
- Les sites Bounce Pad, pénalisés par le filtre anti-duplicate content de Google ?
- La traduction d'un contenu peut-elle générer une pénalité de duplicate content ?
- Google Pack s'enrichit de 2 nouveaux logiciels gratuits
- Google veut lutter contre le scraping et appelle à la dénonciation
- Google Webmaster Tools alerte en cas de pb de duplicate content
Consultez la description détaillée des produits ou services de Google suivants : Google Trusted Stores
- Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
