Messages: 251

Enregistré le: 4 Juil 2013

Message le Jeu Juil 04, 2013 17:51

Bonjour,

Voici mon problème.

Connaitre toutes les pages de mon site indexées dans Google ?

Mon site a plus de 7 000 pages (sitemap fourni à GG et à 99% indexé).

Mais GWT renvoie 7 300 pages indexées, il y a donc certainement des pages en DC qui sont indexées que j'aimerai nettoyer de l'index.

Seulement je ne sais pas comment identifier ces pages en trop...

J'aimerai donc récupérer la totalité des url indexées par GG de mon site.

La commande site:monsite.com est bridée à 700 url.
L'outil lien interne de GWT est limité à 1 000 url...
Mon site n'est pas séparé en répertoire donc pas moyen de limiter les recherches avec inurl:

Avez-vous une idée pour lister toutes les pages indexées par GG ?

Je vous remercie d'avance.
Je désespère un peu et a priori le Panda n'aime pas mes pages en trop.

Merci.
Jeanne.
Haut
7 Réponses
Messages: 23067

Enregistré le: 19 Avr 2002

Message le Jeu Juil 04, 2013 20:49

Bienvenue sur WRI !

ce que tu décris fait partie de ce que j'appelle la "masse noire" : les URL crawlées voire indexées et qui ne devraient pas exister. Et qui peuvent diminuer l'efficacité globale du référencement du site.

ce n'est pas évident à déterminer. il faudrait que tu analyses les logs pour découvrir les URL crawlées par Google, pour ensuite voir lesquelles sont indexées.

J'en parle aussi dans mes explications sur le crawl budget
Haut
Messages: 12238

Enregistré le: 23 Nov 2005

Message le Ven Juil 05, 2013 7:38

Voir utiliser un crawler de type Xenu ou SEO Spider pour passer en revue toutes les url crawlables par les moteurs de recherche, et les comparer avec les url que tu connais (via le sitemap, qui dans ce cas de figure peut s'avérer très pratique).
Haut
Messages: 22678

Enregistré le: 8 Aoû 2004

Message le Ven Juil 05, 2013 9:53

UsagiYojimbo a écrit:Voir utiliser un crawler de type Xenu ou SEO Spider pour passer en revue toutes les url crawlables par les moteurs de recherche
même pas, car les url crawlables peuvent provenir de sources extérieures.
exemple vécu : des aspirateurs de sites aspirent le contenu d'autres sites/forums. Dans le cas d'url longues (en fait pas si longues que cela), l'url visible est affichée avec des "..." afin de la raccourcir. Pour ces aspirateurs, c'est une nouvelle url et ça fera, selon la méthode de troncature, au pire plein de 404, sinon, éventuellement, des code 200 (ou 301, selon comme on gère) avec plein d'url dupliquées
Haut
Messages: 251

Enregistré le: 4 Juil 2013

Message le Ven Juil 05, 2013 20:39

Merci à tous.

J'avais commencé à écrire un soft pour analyser mes logs, et je voulais être sûr qu'il n'y avait pas de meilleures solution.
Ou quelqu'un qui avait déjà fait ça...

Merci Olivier, tu confirmes donc mon idée que la seule méthode est d'analyser les logs.

Quelqu'un connait-il un script qui facilite ça ?

Effectivement Leonick, les pages de ce type que j'ai réussi à trouver venaient de l'extérieur.
Depuis j'ai amélioré le site avec de noindex et des canonical quand le REQUEST_URI ne correspond pas à celui que j'attend.

Mail il me reste cette fichu "masse noire" à identifier...
Haut
Messages: 23067

Enregistré le: 19 Avr 2002

Message le Ven Avr 15, 2016 10:11

3 ans après, je réponds en vidéo (complétée par un article) :wink:
Haut
Messages: 8

Enregistré le: 24 Avr 2016

Message le Mar Avr 26, 2016 5:56

Bonjour, 100 fois que je lis des solutions à ces soucis de indexation, celle ci commence à me plaire.
Haut
Messages: 349

Enregistré le: 24 Fév 2013

Message le Lun Fév 27, 2017 18:07

génial Olivier, juste ce que je cherchais, genial!
Haut