Connaitre toutes les pages de son site indexées dans Google

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

Jeanne5
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 251
Enregistré le: 4 Juil 2013

Connaitre toutes les pages de son site indexées dans Google

Message le Jeu Juil 04, 2013 16:51

Bonjour,

Voici mon problème.

Connaitre toutes les pages de mon site indexées dans Google ?

Mon site a plus de 7 000 pages (sitemap fourni à GG et à 99% indexé).

Mais GWT renvoie 7 300 pages indexées, il y a donc certainement des pages en DC qui sont indexées que j'aimerai nettoyer de l'index.

Seulement je ne sais pas comment identifier ces pages en trop...

J'aimerai donc récupérer la totalité des url indexées par GG de mon site.

La commande site:monsite.com est bridée à 700 url.
L'outil lien interne de GWT est limité à 1 000 url...
Mon site n'est pas séparé en répertoire donc pas moyen de limiter les recherches avec inurl:

Avez-vous une idée pour lister toutes les pages indexées par GG ?

Je vous remercie d'avance.
Je désespère un peu et a priori le Panda n'aime pas mes pages en trop.

Merci.
Jeanne.

Annonces Google


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22909
Enregistré le: 19 Avr 2002

Re: Connaitre toutes les pages de son site indexées dans Google

Message le Jeu Juil 04, 2013 19:49

Bienvenue sur WRI !

ce que tu décris fait partie de ce que j'appelle la "masse noire" : les URL crawlées voire indexées et qui ne devraient pas exister. Et qui peuvent diminuer l'efficacité globale du référencement du site.

ce n'est pas évident à déterminer. il faudrait que tu analyses les logs pour découvrir les URL crawlées par Google, pour ensuite voir lesquelles sont indexées.

J'en parle aussi dans mes explications sur le crawl budget


UsagiYojimbo
WRInaute accro
WRInaute accro
 
Messages: 11989
Enregistré le: 23 Nov 2005

Re: Connaitre toutes les pages de son site indexées dans Google

Message le Ven Juil 05, 2013 6:38

Voir utiliser un crawler de type Xenu ou SEO Spider pour passer en revue toutes les url crawlables par les moteurs de recherche, et les comparer avec les url que tu connais (via le sitemap, qui dans ce cas de figure peut s'avérer très pratique).


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22675
Enregistré le: 8 Aoû 2004

Re: Connaitre toutes les pages de son site indexées dans Google

Message le Ven Juil 05, 2013 8:53

UsagiYojimbo a écrit:Voir utiliser un crawler de type Xenu ou SEO Spider pour passer en revue toutes les url crawlables par les moteurs de recherche
même pas, car les url crawlables peuvent provenir de sources extérieures.
exemple vécu : des aspirateurs de sites aspirent le contenu d'autres sites/forums. Dans le cas d'url longues (en fait pas si longues que cela), l'url visible est affichée avec des "..." afin de la raccourcir. Pour ces aspirateurs, c'est une nouvelle url et ça fera, selon la méthode de troncature, au pire plein de 404, sinon, éventuellement, des code 200 (ou 301, selon comme on gère) avec plein d'url dupliquées

Jeanne5
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 251
Enregistré le: 4 Juil 2013

Re: Connaitre toutes les pages de son site indexées dans Google

Message le Ven Juil 05, 2013 19:39

Merci à tous.

J'avais commencé à écrire un soft pour analyser mes logs, et je voulais être sûr qu'il n'y avait pas de meilleures solution.
Ou quelqu'un qui avait déjà fait ça...

Merci Olivier, tu confirmes donc mon idée que la seule méthode est d'analyser les logs.

Quelqu'un connait-il un script qui facilite ça ?

Effectivement Leonick, les pages de ce type que j'ai réussi à trouver venaient de l'extérieur.
Depuis j'ai amélioré le site avec de noindex et des canonical quand le REQUEST_URI ne correspond pas à celui que j'attend.

Mail il me reste cette fichu "masse noire" à identifier...


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22909
Enregistré le: 19 Avr 2002

Re: Connaitre toutes les pages de son site indexées dans Google

Message le Ven Avr 15, 2016 9:11

3 ans après, je réponds en vidéo (complétée par un article) :wink:

aurelie92
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 8
Enregistré le: 24 Avr 2016

Re: Connaitre toutes les pages de son site indexées dans Google

Message le Mar Avr 26, 2016 4:56

Bonjour, 100 fois que je lis des solutions à ces soucis de indexation, celle ci commence à me plaire.

casasierrasalamanca
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 343
Enregistré le: 24 Fév 2013

Re: Connaitre toutes les pages de son site indexées dans Google

Message le Lun Fév 27, 2017 17:07

génial Olivier, juste ce que je cherchais, genial!


Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :