[Duplicate Content] Script anti DC

shelcko
WRInaute discret
WRInaute discret
 
Messages: 234
Inscription: 1 Jan 2007

[Duplicate Content] Script anti DC

Message le Mer Juil 07, 2010 23:54

Bonjour à tou(te)s,

Lorsque je fais mes validations sur mes annu je prend un partie du texte des desc et le claque dans GG (pour le moment) et ça n'arrive pas souvent qu'il y ai 0 réponses même sur des texte ou il y a 1 ou 2 mots en commun donc je pense que ce genre de script n'est pas optimal.
Donc je voulais savoir si vous connaissez un bon script anti DC que l'on puisse adapter sur une validation de formulaire (ou au moins la technique à utiliser pour avoir un résultat cohérent ça me dérange pas de la coder ;) ), car j'ai cherché un peu partout mais je trouve toujours le même genre qui fait une requête sur GG et qui parse le texte de la page de réception pour voir le nombre de réponses.

Merci d'avance pour vos réponses ;)


YoyoS
WRInaute accro
WRInaute accro
 
Messages: 3835
Inscription: 14 Sep 2006

Re: Script anti DC

Message le Jeu Juil 08, 2010 4:21

Quoi ca ne suffit pas comme script ? Tu voudrais quoi de plus ?

Rod la Kox
WRInaute accro
WRInaute accro
 
Messages: 3253
Inscription: 24 Juin 2008

Re: Script anti DC

Message le Jeu Juil 08, 2010 7:44

Je connais un super script anti-DC et comme je suis d'excellente humeur, je vous en faire part.

Tu prends 10 doigts, n'importe lesquels, mais ceux de a main sont plus efficaces.
Tu place ensuite ses 10 doigts sur ce que l'on nomme "un clavier". Là, faut pas chercher longtemps, dans le premier Super U venu, tu en trouvera un.
On arrive au plus difficile. La connexion.
Tu doigt, oops, tu dois réussir à connecter ensemble, ses 10 doigts avec la matière mole contenu dans une boite crânienne. Evidement, si les doigts et la matière mole font partie du même ensemble, c'est le mieux. Dans le cas contraire, il faudra également faire appel à l'algorithme vocal du tiers qui t'offre momentanément l'usage de sa matière mole.

Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.

Bon courage.


ricosound
WRInaute impliqué
WRInaute impliqué
 
Messages: 566
Inscription: 25 Oct 2009

Re: Script anti DC

Message le Jeu Juil 08, 2010 7:56

Hello.

Rod la Kox a écrit:Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.
:mrgreen: :mrgreen: :mrgreen:

J'ai bien rigolé à la recette, mais tu lui proposes une entrée alors qu'il demandait un dessert. :D

Ce dont il a besoin c'est d'un script de contrôle pour validation des description reçues pour son annuaire !

shelcko a écrit:je voulais savoir si vous connaissez un bon script anti DC que l'on puisse adapter sur une validation de formulaire


Mal réveillé ? Un bon café et ça devrais aller mieux. :wink:

Cordialement, Éric.


ricosound
WRInaute impliqué
WRInaute impliqué
 
Messages: 566
Inscription: 25 Oct 2009

Re: Script anti DC

Message le Jeu Juil 08, 2010 8:20

La question a été reposée il n'y a pas longtemps ici :wink:

http://forum.webrankinfo.com/duplicat-content-dans-description-annuair ... 30406.html

Bonne journée, Éric.

shelcko
WRInaute discret
WRInaute discret
 
Messages: 234
Inscription: 1 Jan 2007

Re: Script anti DC

Message le Jeu Juil 08, 2010 9:05

Rod la Kox a écrit:Je connais un super script anti-DC et comme je suis d'excellente humeur, je vous en faire part.

Tu prends 10 doigts, n'importe lesquels, mais ceux de a main sont plus efficaces.
Tu place ensuite ses 10 doigts sur ce que l'on nomme "un clavier". Là, faut pas chercher longtemps, dans le premier Super U venu, tu en trouvera un.
On arrive au plus difficile. La connexion.
Tu doigt, oops, tu dois réussir à connecter ensemble, ses 10 doigts avec la matière mole contenu dans une boite crânienne. Evidement, si les doigts et la matière mole font partie du même ensemble, c'est le mieux. Dans le cas contraire, il faudra également faire appel à l'algorithme vocal du tiers qui t'offre momentanément l'usage de sa matière mole.

Une fois réuni ses éléments et la connexion faite, tout devrais fonctionner pour créer un texte qui est totalement unique.

Bon courage.

Cette méthode très complexe est celle que j'utilise en ce moment, mais il y a des petits malins qui ne savent pas lire et j'ai entre 50 et 100 inscriptions sans respecter les conditions d'inscriptions assez claires. Donc si je place un des scripts que j'ai trouvé sur le net pour faire un pré-tri tous vos sites avec une optimisation pour un mot clé seront refusé même avec une DU.


carole heinz
WRInaute accro
WRInaute accro
 
Messages: 2855
Inscription: 28 Fév 2007

Re: Script anti DC

Message le Jeu Juil 08, 2010 9:25

shelcko a écrit: je trouve toujours le même genre qui fait une requête sur GG et qui parse le texte de la page de réception pour voir le nombre de réponses


salut,

c'est évident que ce n'est pas une bonne solution.
il faudrait plutôt compter le nombre cumulés de mots mis en gras dans le snippet, c'est à dire compter le nombre de mots présents entre <em> et </em> en pensant à supprimer la suite de balises </em><wbr><em> qui sert au passage à la ligne du snippet.

donc, en gros:

1. lancer la requête sur la description
2. parser la page de résultats
3. isoler les snippets (garder tout ce qui se trouve entre div class="s" et span class="f" )
4. supprimer la suite de balise </em><wbr><em> (saut de ligne)
5. compter le nombre n1 de mots restant entre la première balise <em> et la dernière balise </em> , pour chaque snippet
6. fixer un nombre n2 au-delà duquel tu estimes que la phrase est en DC
7. si n1 > n2 alors warning DC

à adapter selon les cas bien sûr. à partir de 15 mots en gras à la suite on peut estimer qu'on est en DC je pense

shelcko
WRInaute discret
WRInaute discret
 
Messages: 234
Inscription: 1 Jan 2007

Re: Script anti DC

Message le Jeu Juil 08, 2010 9:39

Merci carole heinz pour cette réponse constructive ça faisait longtemps que j'en avait pas eut sur ce forum remplis d'esprits farceurs.
C'est à peut près ce à quoi je pensais (sauf que je voulais le faire dans l'autre sens en chopant des phrases au hasard dans la descriptions, enlever les stop words et parser la page de résultat pour connaitre la densité de mots trouvés).


forty
WRInaute passionné
WRInaute passionné
 
Messages: 1701
Inscription: 30 Oct 2008

Re: Script anti DC

Message le Jeu Juil 08, 2010 15:10

tu peux aussi utiliser http://www.phpsources.org/utilisation-de-l-api-de-recherche-google_97.html et compter le nombre de mots en gras.
Tu peux faire des contrôles phrase par phrase ou avec un ensemble de phrases. Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.

shelcko
WRInaute discret
WRInaute discret
 
Messages: 234
Inscription: 1 Jan 2007

Re: Script anti DC

Message le Jeu Juil 08, 2010 16:10

forty a écrit:Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.


Si je claque directement une phrase en $_GET dans GG ça fait comme si je faisait un contrôle manuel, non ?


zeb
WRInaute accro
WRInaute accro
 
Messages: 4569
Inscription: 5 Déc 2004

Re: Script anti DC

Message le Jeu Juil 08, 2010 16:26

carole heinz a écrit:donc, en gros:

1. lancer la requête sur la description
2. parser la page de résultats
3. isoler les snippets (garder tout ce qui se trouve entre div class="s" et span class="f" )
4. supprimer la suite de balise </em><wbr><em> (saut de ligne)
5. compter le nombre n1 de mots restant entre la première balise <em> et la dernière balise </em> , pour chaque snippet
6. fixer un nombre n2 au-delà duquel tu estimes que la phrase est en DC
7. si n1 > n2 alors warning DC

à adapter selon les cas bien sûr. à partir de 15 mots en gras à la suite on peut estimer qu'on est en DC je pense


c'est bien compliqué je pense.
Dans le cas ou le contenu possiblement dupliqué est demandé a GG entre guillemet (avec des + a la place des espaces entre les mots) et qu'il n'y a pas de réponse GG renvoie un truc alambiqué en proposant autre chose mais la mention "Aucun résultat trouvé pour" est présente en haut de page. il suffit donc de tester le retour GG sur cette phrase pour savoir si c'est du 100% pur original.


carole heinz
WRInaute accro
WRInaute accro
 
Messages: 2855
Inscription: 28 Fév 2007

Re: Script anti DC

Message le Jeu Juil 08, 2010 19:36

zeb a écrit:il suffit donc de tester le retour GG sur cette phrase pour savoir si c'est du 100% pur original.


non cela ne fonctionne pas bien, il suffit qu'un caractère soit différent entre la phrase testée entre guillements et le contenu déjà indexé par Google, pour que Google renvoie "aucun résultat" alors qu'il s'agit bien d'un contenu déjà existant!

>> preuve avec un copier-coller de l'annuaire WRI déjà indexé: Google renvoie "aucun résultat" et pourtant il s'agit bel et bien d'une description déjà utilisée (sur WRI justement, voir premier résultat)

la mesure de la densité de gras sur les snippets est à mon sens la méthode la plus fiable :wink:


Leonick
WRInaute accro
WRInaute accro
 
Messages: 19598
Inscription: 8 Aoû 2004

Re: Script anti DC

Message le Jeu Juil 08, 2010 21:37

shelcko a écrit:
forty a écrit:Tu peux faire des tests avec ou sans ""
rien ne vaut un contrôle manuel car l'API ne retourne pas toujours les même résultats.


Si je claque directement une phrase en $_GET dans GG ça fait comme si je faisait un contrôle manuel, non ?
sauf que gg peut blacklister ton ip, surtout si tu interroges depuis un mutu : avec tous les autres sites qui appellent gg en direct depuis l'ip du mutu (1 seule pour des milliers de sites), ça fait du blacklistage d'ip toute la journée


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 19420
Inscription: 19 Avr 2002

Re: Script anti DC

Message le Ven Juil 09, 2010 11:34

Merci Carole pour ce retour d'expérience.

Tu considères uniquement les mots en gras qui se suivent, ou bien le nb de mots en gras en tout dans un snippet ?


zeb
WRInaute accro
WRInaute accro
 
Messages: 4569
Inscription: 5 Déc 2004

Re: Script anti DC

Message le Ven Juil 09, 2010 11:50

carole heinz a écrit:la mesure de la densité de gras sur les snippets est à mon sens la méthode la plus fiable :wink:


en effet bien vu. :wink:

[Duplicate Content] Script anti DC

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Trusted Stores

  • Similarité et duplicate content
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités