Logiciel qui crawl un site et recherche du Duplicate..?
9 messages
• Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
Logiciel qui crawl un site et recherche du Duplicate..?
Bonjour,
Je recherche un logiciel qui crawl un site à la recherche de duplicate content, en comparant avec les pages ignorées de google, est ce que ça éxiste ?
Cordialement
Edit: Existe t'il une commande pour afficher toutes les pages ignorées par google sur un site ?
Je recherche un logiciel qui crawl un site à la recherche de duplicate content, en comparant avec les pages ignorées de google, est ce que ça éxiste ?
Cordialement
Edit: Existe t'il une commande pour afficher toutes les pages ignorées par google sur un site ?
Pas sûr que ca soit que tu cherche mais j'utilise un petit truc qu'on m'a renseigné pour vérifier les pages que GG tient compte (ou plutôt) le nombre de pages vues comme pertinentes.
Aol utilise la base GG mais semble ne prendre que la partie standard (pas par exemple les pages sanctionnées (PR grisé).
http://www.google.be/search?sourceid=na ... tique%2ebe 754 résultats
http://www.recherche.aol.fr/aol/search? ... que.be&rp= 479 résultats. Toutes les pages non reprises sur AOL que j'ai vérifié sont effectvement sanctionnées.
Aol utilise la base GG mais semble ne prendre que la partie standard (pas par exemple les pages sanctionnées (PR grisé).
http://www.google.be/search?sourceid=na ... tique%2ebe 754 résultats
http://www.recherche.aol.fr/aol/search? ... que.be&rp= 479 résultats. Toutes les pages non reprises sur AOL que j'ai vérifié sont effectvement sanctionnées.
Je pensais que cela entrainerait l'exclusion des pages grisées des résultats, mais non... On ne peut donc pas les estimer comme "rejetées" par Google ?
Par ailleurs, comment définir les URL retenues et les URL non retenues, avec les dizaines et dizaines de pages qui affichent des résultats ?
Je ne comprends pas bien comment tu utilises ça...
Merci de m'éclairer !
Cordialement
Par ailleurs, comment définir les URL retenues et les URL non retenues, avec les dizaines et dizaines de pages qui affichent des résultats ?
Je ne comprends pas bien comment tu utilises ça...
Cordialement
Merci, mais ça me semble assez fastidieux, en fait google indexe 550 pages sur 1000 de mon site web, je n'ai rien dupliqué mais je soupçonne un site de me pomper régulièrement du contenu avant crawl.
Il me faudrait vraiment un outil qui puisse me dire quelles pages sont ignorées par google..
Ça dois exister non ? =)
Il me faudrait vraiment un outil qui puisse me dire quelles pages sont ignorées par google..
Ça dois exister non ? =)
ybet a écrit:Pas sûr que ca soit que tu cherche mais j'utilise un petit truc qu'on m'a renseigné pour vérifier les pages que GG tient compte (ou plutôt) le nombre de pages vues comme pertinentes.
Aol utilise la base GG mais semble ne prendre que la partie standard (pas par exemple les pages sanctionnées (PR grisé).
http://www.google.be/search?sourceid=na ... tique%2ebe 754 résultats
http://www.recherche.aol.fr/aol/search? ... que.be&rp= 479 résultats. Toutes les pages non reprises sur AOL que j'ai vérifié sont effectvement sanctionnées.
La piste semblait intéressante.. cependant je n'arrive pas à la même conclusion que toi.
Même si le résultat entre AOL et Google est conséquent, quelques recherches ont montré des pages non reprise par AOL annoté par Google avec un PR.
Après : d'où vient cette différence.........................
druart a écrit:La piste semblait intéressante.. cependant je n'arrive pas à la même conclusion que toi.
Même si le résultat entre AOL et Google est conséquent, quelques recherches ont montré des pages non reprise par AOL annoté par Google avec un PR.
Après : d'où vient cette différence.........................
J'avoue pas avoir vérifié celle qui avaient du PR, juste les pages repassées en grisées
-http://www.materiel-informatique.be/modem.php sanctionnée et http://www.recherche.aol.fr/aol/search? ... +modem&rp= pas trouvé la page. J'ai déjà testé sur une vingtaine de page dans ce cas, idem ... mais ca prouve pas qu'une page avec PR n'est pas sanctionnée non plus.
J'ai fait la même chose avec quelques sites qui avaient pris une baffe aussi. Parfois c'est assez affolant
Mais effectivement c'est une piste pas une réalité à prendre à la lettre. Sur mon WWW 695 pages reprises pour AOL, 15600 pour Google (à part la partie vente et le forum), rien d'anormal sur le site ...
juste une petite piste ...
Maintenant pour le duplicate ... puisque je viens de vérifier en long et en large deux sites (et pas le www), j'ai repris des morceaux de phrases directement sur Google entre "", supprimé en début et en fin les caractères de ponctuation, le, la, ... Certains sont facilement trouvables, d'autres rien trouvé ..
De toute façon, en cas de duplicate de phrases, trois solutions chez GG:
1. en garde quelques unes et met les autres en résultat ignorés ... souvent les annuaires où les sites sont inscrits en même temps, ceux qu'il garde sont souvent les mêmes sites
2. garde la page de référencence et oublie complètement ou presque les copies (souvent des vieux articles).
3. fait disparaître tout le monde
C'est même encore pire parfois, en essayant un de me sites, suis tombé sur des copieurs du WWW alors que si j'essaye les phrases des pages du WWW, le copieur n'apparaît pas (j'avoue, quelques phrases copiées entre mes deux sites, sauf que le www sert de vieux site et est pris comme référence - surtout quand le copieur laisse mes liens interes
Bref, manuel et long pour rien trouvé parfois.
Bonjour,
J'utilise pour comparer 2 pages:
http://www.webconfs.com/similar-page-checker.php
Combiné à une recherche sur une expression de la page cela m'a déjà permis de trouver quelques articles dupliqués.
http://www.copyscape.com/ donne également des résultats qui peuvent être intéressants de manière plus automatisée.
J'utilise pour comparer 2 pages:
http://www.webconfs.com/similar-page-checker.php
Combiné à une recherche sur une expression de la page cela m'a déjà permis de trouver quelques articles dupliqués.
http://www.copyscape.com/ donne également des résultats qui peuvent être intéressants de manière plus automatisée.
9 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Recherche un logiciel de recherche d'images assez poussé (2009-07-17)
- Recherche logiciel lecture TV PC (2008-11-08)
- Logiciel de recherche de fichiers (2006-07-07)
- Recherche logiciel de statistiques (2006-02-21)
- Logiciel soumission moteur de recherche (2008-02-08)
- Recherche d'un logiciel son (2007-03-01)
- recherche logiciel ftp non limité (2007-02-22)
- recherche script ou logiciel de tracking (2007-01-16)
- Recherche logiciel d'inscription automatique. (2006-03-28)
- Logiciel pour recherche de drivers (2006-01-02)
- Le Full Crawl a enfin commencé
- Début du Full Crawl
- Le début du full crawl
- Explications sur le Crawl Caching Proxy de Google
- Comment éviter les contenus dupliqués (avec/sans le www)
- Petit changement pour Slurp (le robot de Yahoo)
- Présentation de l'indexation Google - Googlebot, le robot de Google
- Du nouveau dans le Centre pour Webmasters de Live Search
- Google contre les spywares et les adwares
- Articles de R et D sur le PageRank, le SpamRank et le spam...
Consultez la description détaillée des produits ou services de Google suivants : Hello, Google Webmaster Tools
- Logiciel d'analyse du positionnement
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés. - Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Transformer des textes non cliquables en liens
Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités






