Question sur Crawl : trop d'url crawlées !

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

WebLune
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 14
Enregistré le: 3 Sep 2009

Question sur Crawl : trop d'url crawlées !

Message le Sam Oct 01, 2016 19:57

Bonsoir à tous,

Voilà, je commence le référencement (en mode débutant) de mon site et j'utilise un programme qui crawl l'ensemble des pages dans une première étape. C'est un petit woocommerce.

Après cette première étape donc de crawl j'ai style quelque chose comme 5000 pages crawlées ! Alors que vraiment, le site en fait bien moins...

Donc avant d'aller plus loin je me pose la question suivante :

Est-ce normal et dois-je exclure certaines urls du crawl. C'est possible avec des outils d'exclusion de structures d'url.
Ou bien, il y a un problème dans la structure même du site ?

Exemple de structure d'url crawlés en masse :

/?product_cat=categorie1&add_to_wishlist=19680
/?product_cat=categorie1&add-to-cart=19680

En suivant ce lien par exemple, je charge bien la page de mon site mais un produit c'est ajouté au panier. Comme si cette page existait.. mais c'est un comportement dynamique au final... je pige pas...

Il y a d'autres exemples mais c'est le même délire. Comme si tous les cas de figure/comportements avaient générés une page qui est donc crawlée par le programme de référencement.

Un Kdor pourrait m'éclairer ?

@tout


UsagiYojimbo
WRInaute accro
WRInaute accro
 
Messages: 12024
Enregistré le: 23 Nov 2005

Re: Question sur Crawl : trop d'url crawlées !

Message le Dim Oct 02, 2016 9:53

Il faut bloquer l'indexation des pages avec ce type de paramètres (via le robots.txt). Voire dans un premier temps les désindexer si le site est déjà en ligne et si elles ont été crawlées et indexées.

WebLune
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 14
Enregistré le: 3 Sep 2009

Re: Question sur Crawl : trop d'url crawlées !

Message le Dim Oct 02, 2016 14:26

Merci, je vais modifier MR ROBOT.TXT et relancer le programme de référencement.
Je suis en train de chercher comment écrire la règle correctement...

WebLune
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 14
Enregistré le: 3 Sep 2009

Re: Question sur Crawl : trop d'url crawlées !

Message le Dim Oct 02, 2016 15:18

J'ai ajouté cela dans le robot txt :

User-agent: Googlebot
Disallow: /*?

Je tests donc avec GWT une url dynamique et parfait elle est bloquée.

NÉÉÉÉÉANNMOINS ! je relance le prog de référencement (Yooda), le lance l'analyse du site... et c'est repartit, ça va crawler les pages dynamiques. Donc d'une l'analyse est très très longue et les résultats sont faussés.

J'imagine que Yooda utilise un robot pour crawler le site, du coup peut-être que cette commande n'est pas suffisante ?

colonies
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 281
Enregistré le: 10 Sep 2006

Re: Question sur Crawl : trop d'url crawlées !

Message le Dim Oct 02, 2016 16:00

Ta règle robots.txt ne demande que de déréférencer les URL se terminant par un point d'interrogation.
Ça n'est cependant pas la chose à faire. Tu dois d'abord indiquer aux moteurs que tu ne veux pas que ces pages figurent dans l'index (meta noindex, nofollow ou header X-Robots-Tag: none), puis les empêcher de continuer à les crawler (avec robots.txt) une fois qu'ils les auront supprimées.

Enfin, on ne teste pas le comportement de Google avec des outils tiers qui peuvent ne pas avoir le même comportement que Googlebot. Quand on définit ses règles dans robots.txt, on peut les tester dans Google Search Console -> choix du site -> Exploration -> Outil de test du fichier robots.txt.
Peu importe ce que te dira Yooda s'il te donne des résultats différents (mais comme je l'ai déjà écrit, de toute façon ta règle était fausse) : c'est Google Search Console qui aura raison.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22933
Enregistré le: 19 Avr 2002

Re: Question sur Crawl : trop d'url crawlées !

Message le Lun Oct 03, 2016 8:04

tu as ce qu'on appelle chez Ranking Metrics des problèmes de "masse noire" :o

dans les réponses précédentes, tu as eu de bons conseils (à part un petit mélange entre crawl et indexation, ou entre noindex et nofollow).

Petit résumé :

- identifie les URL concernées et regarde ce qu'elles ont vraiment en commun, par exemple add_to_wishlist et add-to-cart
- ensuite, vérifie si Google a indexé des pages de ce genre. Si c'est le cas, il faut d'abord les désindexer.
- une fois que tu as pu désindexer ces URL, ou interdire leur indexation future, il faut les bloquer au crawl. Pour cela, utilise le fichier robots.txt et son outil de test
- quand tu auras fini, lance un audit RM Tech (mon outil) en version gratuite pour voir combien il trouve d'URL autorisées au crawl sur ton site, et combien parmi elles sont indexables.

colonies
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 281
Enregistré le: 10 Sep 2006

Re: Question sur Crawl : trop d'url crawlées !

Message le Lun Oct 03, 2016 10:40

Encore une possibilité dans Google Search Console : Exploration -> Paramètres d'URL.
Et configurer les paramètres qui produisent des pages indésirables pour que Googlebot n'explore "Aucune URL".

Là par contre, je ne sais pas comment ça va se comporter :
- plus de passage de GoogleBot sans traitement des URL connues de Google et du coup, résidus dans l'index, ou
- désindexation des pages déjà indexées (ça serait logique) + plus de passage de GoogleBot sur les URL concernées.

Olivier, une idée ?

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Question sur Crawl : trop d'url crawlées !

Message le Lun Oct 03, 2016 11:36

J'avais eu un problème assez proche :

http://forum.webrankinfo.com/empecher-google-utiliser-mon-formulaire-f ... 85803.html

Google validait mes formulaires GET de mes filtres.
J'ai donc passé mes formulaires en POST et mis mes pages de filtre en noindex,nofollow, puis j'ai également bloqué via le Google Seach Console (Paramètres d'URL)

Après tu peux également une fois tout en noindex etc. bloquer via le robots.txt, mais vérifie quand même régulièrement au debut que google n'indexe pas ce type de pages en indiquant qu'il n'a pas pu les crawler.

WebLune
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 14
Enregistré le: 3 Sep 2009

Re: Question sur Crawl : trop d'url crawlées !

Message le Lun Oct 03, 2016 20:36

Merci pour toutes ces réponses. J'avance un peu plus grâce à vous.

@WebRankInfo : J'ai vérifié en faisant une recherche Google avec quelques urls comportant des paramètres type :
/?product_cat=categorie1&add_to_wishlist=19680
/?product_cat=categorie1&add-to-cart=19680
..

et il n'affiche aucun résultat. Donc ok ! Ces pages ne sont pas indexées.

Reste à interdire leur indexation future et les bloquer au crawl. Ces urls ne devraient donc pas être crawlées par le programme de référencement ?

Ensuite je lancerais RM TECH ^^

Je m'y met et vous dis si cela fonctionne.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22933
Enregistré le: 19 Avr 2002

Re: Question sur Crawl : trop d'url crawlées !

Message le Mar Oct 04, 2016 7:56

il faut s'assurer que les règles de blocage du crawl sont bonnes (cf. mon lien vers l'outil de test)
ensuite, les bons outils de crawl n'iront pas crawler ces fameuses URL ;-)


Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :