Nouveau WRInaute
Bonjour,

Je viens de récupérer les analyses de logs Googlebot pour un site, afin d'identifier comment ces petits robots crawlent ce site.
Les données récoltées s'étendent sur une période d'un jour uniquement. Mais cela est suffisant pour identifier déjà un problème : au moins la moitié des URLs crawlées sont des pages contenant des paramètres de tracking utilisés pour les campagnes de liens sponsorisés (Adwords et autre). Autant dire que le crawle n'est pas du tout optimisé.
A partir de là, je me pose plusieurs questions :

1. Je croyais que les robots savaient faire la différence entre les paramètres liés à la structure du site (filtrage, tri,...) et ceux liés à des campagnes. Comment arrivent-ils à crawler ces URLs ? Ne sont-ils pas censés tous simplement les ignorer ? J'imagine que les robots de Google reconnaissent très bien ces paramètres de tracking (gclid,...) pourtant.

2. Comment empêcher le crawl sur ces URLs afin d'optimiser la qualité de celui-ci ? Sachant que ces URLs ne sont pas indexées, et forcément, créées uniquement pour la gestion des campagnes.

Si quelqu'un à une ou plusieurs solutions ou même pistes de réflexion, je suis preneur!

Merci d'avance pour vos éventuels retours.
 
Olivier Duffez (admin)
Membre du personnel
en effet c'est étonnant

il faudrait vérifier qu'en interne, il n'existe (évidemment) aucun lien vers ces URL
tu peux lancer un audit technique RMTech (outil que j'ai conçu chez Ranking Metrics), il pourrait bien t'aider.

pour bloquer le crawl de ces URL, tu peux utiliser le fichier robots.txt
 
WRInaute impliqué
une explication possible est que google prend en compte l'html généré par le javascript, donc adsense d'où les liens avec paramètres.
dans gwt, j'indiquerais de ne pas prendre en compte certains paramètres.
je mettrais une balise canonical url
 
Nouveau WRInaute
Bonjour,

Merci pour vos retours.
Effectivement, mettre une canonique n’empêchera pas le crawl par les robots.
Je viens de m'inscrire à l'outil que vous m'avez conseillé, on verra ce que ça donne. Et selon le cas, je mettrai à jour le robots.txt.

Merci beaucoup!
 
Discussions similaires
Haut