Connaitre toutes les pages de son site indexées dans Google

WRInaute impliqué
Bonjour,

Voici mon problème.

Connaitre toutes les pages de mon site indexées dans Google ?

Mon site a plus de 7 000 pages (sitemap fourni à GG et à 99% indexé).

Mais GWT renvoie 7 300 pages indexées, il y a donc certainement des pages en DC qui sont indexées que j'aimerai nettoyer de l'index.

Seulement je ne sais pas comment identifier ces pages en trop...

J'aimerai donc récupérer la totalité des url indexées par GG de mon site.

La commande site:monsite.com est bridée à 700 url.
L'outil lien interne de GWT est limité à 1 000 url...
Mon site n'est pas séparé en répertoire donc pas moyen de limiter les recherches avec inurl:

Avez-vous une idée pour lister toutes les pages indexées par GG ?

Je vous remercie d'avance.
Je désespère un peu et a priori le Panda n'aime pas mes pages en trop.

Merci.
Jeanne.
 
Olivier Duffez (admin)
Membre du personnel
Bienvenue sur WRI !

ce que tu décris fait partie de ce que j'appelle la "masse noire" : les URL crawlées voire indexées et qui ne devraient pas exister. Et qui peuvent diminuer l'efficacité globale du référencement du site.

ce n'est pas évident à déterminer. il faudrait que tu analyses les logs pour découvrir les URL crawlées par Google, pour ensuite voir lesquelles sont indexées.

J'en parle aussi dans mes explications sur le crawl budget
 
WRInaute accro
Voir utiliser un crawler de type Xenu ou SEO Spider pour passer en revue toutes les url crawlables par les moteurs de recherche, et les comparer avec les url que tu connais (via le sitemap, qui dans ce cas de figure peut s'avérer très pratique).
 
WRInaute accro
UsagiYojimbo a dit:
Voir utiliser un crawler de type Xenu ou SEO Spider pour passer en revue toutes les url crawlables par les moteurs de recherche
même pas, car les url crawlables peuvent provenir de sources extérieures.
exemple vécu : des aspirateurs de sites aspirent le contenu d'autres sites/forums. Dans le cas d'url longues (en fait pas si longues que cela), l'url visible est affichée avec des "..." afin de la raccourcir. Pour ces aspirateurs, c'est une nouvelle url et ça fera, selon la méthode de troncature, au pire plein de 404, sinon, éventuellement, des code 200 (ou 301, selon comme on gère) avec plein d'url dupliquées
 
WRInaute impliqué
Merci à tous.

J'avais commencé à écrire un soft pour analyser mes logs, et je voulais être sûr qu'il n'y avait pas de meilleures solution.
Ou quelqu'un qui avait déjà fait ça...

Merci Olivier, tu confirmes donc mon idée que la seule méthode est d'analyser les logs.

Quelqu'un connait-il un script qui facilite ça ?

Effectivement Leonick, les pages de ce type que j'ai réussi à trouver venaient de l'extérieur.
Depuis j'ai amélioré le site avec de noindex et des canonical quand le REQUEST_URI ne correspond pas à celui que j'attend.

Mail il me reste cette fichu "masse noire" à identifier...
 
Discussions similaires
Haut