Logiciel qui crawl un site et recherche du Duplicate..?

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

Niurath
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 170
Inscription: Lun Aoû 11, 2008 14:28

Logiciel qui crawl un site et recherche du Duplicate..?

Message le Sam Sep 06, 2008 14:34

Bonjour,

Je recherche un logiciel qui crawl un site à la recherche de duplicate content, en comparant avec les pages ignorées de google, est ce que ça éxiste ?

Cordialement

Edit: Existe t'il une commande pour afficher toutes les pages ignorées par google sur un site ?


ybet
WRInaute accro
WRInaute accro
 
Messages: 6909
Inscription: Sam Nov 22, 2003 8:37

Message le Sam Sep 06, 2008 16:04

Pas sûr que ca soit que tu cherche mais j'utilise un petit truc qu'on m'a renseigné pour vérifier les pages que GG tient compte (ou plutôt) le nombre de pages vues comme pertinentes.
Aol utilise la base GG mais semble ne prendre que la partie standard (pas par exemple les pages sanctionnées (PR grisé).
http://www.google.be/search?sourceid=na ... tique%2ebe 754 résultats

http://www.recherche.aol.fr/aol/search? ... que.be&rp= 479 résultats. Toutes les pages non reprises sur AOL que j'ai vérifié sont effectvement sanctionnées.

larchange
Nouveau WRInaute
 
Messages: 42
Inscription: Jeu Avr 17, 2008 10:09

Message le Sam Sep 06, 2008 16:17

Je pensais que cela entrainerait l'exclusion des pages grisées des résultats, mais non... On ne peut donc pas les estimer comme "rejetées" par Google ?

Par ailleurs, comment définir les URL retenues et les URL non retenues, avec les dizaines et dizaines de pages qui affichent des résultats ?

Je ne comprends pas bien comment tu utilises ça... :wink: Merci de m'éclairer !

Cordialement

Niurath
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 170
Inscription: Lun Aoû 11, 2008 14:28

Message le Sam Sep 06, 2008 16:19

Merci, mais ça me semble assez fastidieux, en fait google indexe 550 pages sur 1000 de mon site web, je n'ai rien dupliqué mais je soupçonne un site de me pomper régulièrement du contenu avant crawl.

Il me faudrait vraiment un outil qui puisse me dire quelles pages sont ignorées par google..

Ça dois exister non ? =)


Madrileño
Madrileño
Madrileño
 
Messages: 19989
Inscription: Mer Juil 07, 2004 12:14

Message le Sam Sep 06, 2008 16:39

Il y a ignorées, pénalisées et autres éléments.
Pas vu encore ce type d'outil.


5_legs
WRInaute accro
WRInaute accro
 
Messages: 1808
Inscription: Dim Avr 30, 2006 8:08

Message le Sam Sep 06, 2008 20:59

ybet a écrit:Pas sûr que ca soit que tu cherche mais j'utilise un petit truc qu'on m'a renseigné pour vérifier les pages que GG tient compte (ou plutôt) le nombre de pages vues comme pertinentes.
Aol utilise la base GG mais semble ne prendre que la partie standard (pas par exemple les pages sanctionnées (PR grisé).
http://www.google.be/search?sourceid=na ... tique%2ebe 754 résultats

http://www.recherche.aol.fr/aol/search? ... que.be&rp= 479 résultats. Toutes les pages non reprises sur AOL que j'ai vérifié sont effectvement sanctionnées.


La piste semblait intéressante.. cependant je n'arrive pas à la même conclusion que toi.
Même si le résultat entre AOL et Google est conséquent, quelques recherches ont montré des pages non reprise par AOL annoté par Google avec un PR.

Après : d'où vient cette différence.........................


ybet
WRInaute accro
WRInaute accro
 
Messages: 6909
Inscription: Sam Nov 22, 2003 8:37

Message le Dim Sep 07, 2008 7:22

druart a écrit:La piste semblait intéressante.. cependant je n'arrive pas à la même conclusion que toi.
Même si le résultat entre AOL et Google est conséquent, quelques recherches ont montré des pages non reprise par AOL annoté par Google avec un PR.

Après : d'où vient cette différence.........................

J'avoue pas avoir vérifié celle qui avaient du PR, juste les pages repassées en grisées
-http://www.materiel-informatique.be/modem.php sanctionnée et http://www.recherche.aol.fr/aol/search? ... +modem&rp= pas trouvé la page. J'ai déjà testé sur une vingtaine de page dans ce cas, idem ... mais ca prouve pas qu'une page avec PR n'est pas sanctionnée non plus.
J'ai fait la même chose avec quelques sites qui avaient pris une baffe aussi. Parfois c'est assez affolant :? J'utiliserais bien alo pour mes recherches, mais trente pubs avec 3 résultats par pages, c'est plutôt casse pied.
Mais effectivement c'est une piste pas une réalité à prendre à la lettre. Sur mon WWW 695 pages reprises pour AOL, 15600 pour Google (à part la partie vente et le forum), rien d'anormal sur le site ... :wink:
juste une petite piste ...

Maintenant pour le duplicate ... puisque je viens de vérifier en long et en large deux sites (et pas le www), j'ai repris des morceaux de phrases directement sur Google entre "", supprimé en début et en fin les caractères de ponctuation, le, la, ... Certains sont facilement trouvables, d'autres rien trouvé ..
De toute façon, en cas de duplicate de phrases, trois solutions chez GG:
1. en garde quelques unes et met les autres en résultat ignorés ... souvent les annuaires où les sites sont inscrits en même temps, ceux qu'il garde sont souvent les mêmes sites
2. garde la page de référencence et oublie complètement ou presque les copies (souvent des vieux articles).
3. fait disparaître tout le monde :?

C'est même encore pire parfois, en essayant un de me sites, suis tombé sur des copieurs du WWW alors que si j'essaye les phrases des pages du WWW, le copieur n'apparaît pas (j'avoue, quelques phrases copiées entre mes deux sites, sauf que le www sert de vieux site et est pris comme référence - surtout quand le copieur laisse mes liens interes :lol: )

Bref, manuel et long pour rien trouvé parfois.

Rv323
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 133
Inscription: Jeu Avr 12, 2007 16:14

Message le Lun Sep 08, 2008 10:15

Bonjour,

J'utilise pour comparer 2 pages:
http://www.webconfs.com/similar-page-checker.php
Combiné à une recherche sur une expression de la page cela m'a déjà permis de trouver quelques articles dupliqués.

http://www.copyscape.com/ donne également des résultats qui peuvent être intéressants de manière plus automatisée.


Madrileño
Madrileño
Madrileño
 
Messages: 19989
Inscription: Mer Juil 07, 2004 12:14

Message le Lun Sep 08, 2008 21:00

Il y a aussi un outil sur Webrankinfo pour les pages similaires.


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Hello, Google Webmaster Tools

  • Logiciel d'analyse du positionnement
    AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
  • Similarité et duplicate content
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
  • Transformer des textes non cliquables en liens
    Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).


Qui est en ligne

Utilisateurs parcourant ce forum: aljaber et 0 invités