Messages: 14

Enregistré le: 3 Sep 2009

Message le Sam Oct 01, 2016 20:57

Bonsoir à tous,

Voilà, je commence le référencement (en mode débutant) de mon site et j'utilise un programme qui crawl l'ensemble des pages dans une première étape. C'est un petit woocommerce.

Après cette première étape donc de crawl j'ai style quelque chose comme 5000 pages crawlées ! Alors que vraiment, le site en fait bien moins...

Donc avant d'aller plus loin je me pose la question suivante :

Est-ce normal et dois-je exclure certaines urls du crawl. C'est possible avec des outils d'exclusion de structures d'url.
Ou bien, il y a un problème dans la structure même du site ?

Exemple de structure d'url crawlés en masse :

/?product_cat=categorie1&add_to_wishlist=19680
/?product_cat=categorie1&add-to-cart=19680

En suivant ce lien par exemple, je charge bien la page de mon site mais un produit c'est ajouté au panier. Comme si cette page existait.. mais c'est un comportement dynamique au final... je pige pas...

Il y a d'autres exemples mais c'est le même délire. Comme si tous les cas de figure/comportements avaient générés une page qui est donc crawlée par le programme de référencement.

Un Kdor pourrait m'éclairer ?

@tout
Haut
9 Réponses
Messages: 12168

Enregistré le: 23 Nov 2005

Message le Dim Oct 02, 2016 10:53

Il faut bloquer l'indexation des pages avec ce type de paramètres (via le robots.txt). Voire dans un premier temps les désindexer si le site est déjà en ligne et si elles ont été crawlées et indexées.
Haut
Messages: 14

Enregistré le: 3 Sep 2009

Message le Dim Oct 02, 2016 15:26

Merci, je vais modifier MR ROBOT.TXT et relancer le programme de référencement.
Je suis en train de chercher comment écrire la règle correctement...
Haut
Messages: 14

Enregistré le: 3 Sep 2009

Message le Dim Oct 02, 2016 16:18

J'ai ajouté cela dans le robot txt :

User-agent: Googlebot
Disallow: /*?

Je tests donc avec GWT une url dynamique et parfait elle est bloquée.

NÉÉÉÉÉANNMOINS ! je relance le prog de référencement (Yooda), le lance l'analyse du site... et c'est repartit, ça va crawler les pages dynamiques. Donc d'une l'analyse est très très longue et les résultats sont faussés.

J'imagine que Yooda utilise un robot pour crawler le site, du coup peut-être que cette commande n'est pas suffisante ?
Haut
Messages: 289

Enregistré le: 10 Sep 2006

Message le Dim Oct 02, 2016 17:00

Ta règle robots.txt ne demande que de déréférencer les URL se terminant par un point d'interrogation.
Ça n'est cependant pas la chose à faire. Tu dois d'abord indiquer aux moteurs que tu ne veux pas que ces pages figurent dans l'index (meta noindex, nofollow ou header X-Robots-Tag: none), puis les empêcher de continuer à les crawler (avec robots.txt) une fois qu'ils les auront supprimées.

Enfin, on ne teste pas le comportement de Google avec des outils tiers qui peuvent ne pas avoir le même comportement que Googlebot. Quand on définit ses règles dans robots.txt, on peut les tester dans Google Search Console -> choix du site -> Exploration -> Outil de test du fichier robots.txt.
Peu importe ce que te dira Yooda s'il te donne des résultats différents (mais comme je l'ai déjà écrit, de toute façon ta règle était fausse) : c'est Google Search Console qui aura raison.
Haut
Messages: 23010

Enregistré le: 19 Avr 2002

Message le Lun Oct 03, 2016 9:04

tu as ce qu'on appelle chez Ranking Metrics des problèmes de "masse noire" :o

dans les réponses précédentes, tu as eu de bons conseils (à part un petit mélange entre crawl et indexation, ou entre noindex et nofollow).

Petit résumé :

- identifie les URL concernées et regarde ce qu'elles ont vraiment en commun, par exemple add_to_wishlist et add-to-cart
- ensuite, vérifie si Google a indexé des pages de ce genre. Si c'est le cas, il faut d'abord les désindexer.
- une fois que tu as pu désindexer ces URL, ou interdire leur indexation future, il faut les bloquer au crawl. Pour cela, utilise le fichier robots.txt et son outil de test
- quand tu auras fini, lance un audit RM Tech (mon outil) en version gratuite pour voir combien il trouve d'URL autorisées au crawl sur ton site, et combien parmi elles sont indexables.
Haut
Messages: 289

Enregistré le: 10 Sep 2006

Message le Lun Oct 03, 2016 11:40

Encore une possibilité dans Google Search Console : Exploration -> Paramètres d'URL.
Et configurer les paramètres qui produisent des pages indésirables pour que Googlebot n'explore "Aucune URL".

Là par contre, je ne sais pas comment ça va se comporter :
- plus de passage de GoogleBot sans traitement des URL connues de Google et du coup, résidus dans l'index, ou
- désindexation des pages déjà indexées (ça serait logique) + plus de passage de GoogleBot sur les URL concernées.

Olivier, une idée ?
Haut
Messages: 2899

Enregistré le: 8 Avr 2011

Message le Lun Oct 03, 2016 12:36

J'avais eu un problème assez proche :

http://forum.webrankinfo.com/empecher-google-utiliser-mon-formulaire-f ... 85803.html

Google validait mes formulaires GET de mes filtres.
J'ai donc passé mes formulaires en POST et mis mes pages de filtre en noindex,nofollow, puis j'ai également bloqué via le Google Seach Console (Paramètres d'URL)

Après tu peux également une fois tout en noindex etc. bloquer via le robots.txt, mais vérifie quand même régulièrement au debut que google n'indexe pas ce type de pages en indiquant qu'il n'a pas pu les crawler.
Haut
Messages: 14

Enregistré le: 3 Sep 2009

Message le Lun Oct 03, 2016 21:36

Merci pour toutes ces réponses. J'avance un peu plus grâce à vous.

@WebRankInfo : J'ai vérifié en faisant une recherche Google avec quelques urls comportant des paramètres type :
/?product_cat=categorie1&add_to_wishlist=19680
/?product_cat=categorie1&add-to-cart=19680
..

et il n'affiche aucun résultat. Donc ok ! Ces pages ne sont pas indexées.

Reste à interdire leur indexation future et les bloquer au crawl. Ces urls ne devraient donc pas être crawlées par le programme de référencement ?

Ensuite je lancerais RM TECH ^^

Je m'y met et vous dis si cela fonctionne.
Haut
Messages: 23010

Enregistré le: 19 Avr 2002

Message le Mar Oct 04, 2016 8:56

il faut s'assurer que les règles de blocage du crawl sont bonnes (cf. mon lien vers l'outil de test)
ensuite, les bons outils de crawl n'iront pas crawler ces fameuses URL ;-)
Haut