Désindexer des pages avec paramètres

WRInaute discret
Bonjour,

J'ai eu un léger problème de spider trap, c'est résolu et bloqué par le robots.txt.

Par contre, Google m'a indexé quelques milliers de pages similaires, toutes dans ce style

example.com/inscription_pro.html?page=%2Fragrhytt

Dans les SERP, on a bien "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site".

Par contre, comment est-ce que je désindexe tout dans les Webmaster Tools ? Je soumets /inscription_pro.html et il me vire toutes les variantes ?
 
Olivier Duffez (admin)
Membre du personnel
tant que tu bloques le crawl, le robots ne pourra pas voir s'il y a une balise meta robots noindex, donc les pages ne seront pas désindexées
- ajoute une meta robots noindex pour les URL contenant le paramètre concerné
- supprime le blocage dans le robots.txt
- envoie un sitemap des URL à faire désindexer
- surveille dans GWT le nb d'URL de ce sitemap encore dans l'index
- quand tout est supprimé, remets un blocage du crawl des URL concernées

tiens-nous au courant STP
 
WRInaute discret
Alors j'avais bien fait toute la procédure classique pour résoudre un spider trap.
(par contre, autant pour moi, le robots.txt aurait dû l'empêcher à la base, mais ensuite on l'a bien débloqué pour que le robot Google repasse).

Donc :
- Spider trap sur les pages /inscription_pro.html, pourtant dans le robots.txt
- ajout de meta robots noindex
- retrait du blocage dans le robots.txt

J'ai fait ça y'a presque 2 mois. Je commençais à m'inquiéter que les 14 800 pages soient toujours indexées (enfin, dans l'index secondaire des pages non pertinentes) et que leur description soit "La description...robots.txt", donc j'avais peur que soit mes balises robots n'aient pas marché, soit que le blocage dans le robots.txt soit maintenu (car juste passé en commentaire).

En fait, Google m'a répondu directement (les braves gens) que j'avais tout fait bien, et qu'il fallait juste attendre le repassage du robot (on voit sur le graph dans les WT qu'il se presse pas).

J'en suis donc là !

Qu'est-ce que c'est donc cette méthode de :

- envoie un sitemap des URL à faire désindexer
- surveille dans GWT le nb d'URL de ce sitemap encore dans l'index
?
 
Olivier Duffez (admin)
Membre du personnel
le sitemaps sert à lister des URL pour que Google aille les crawler. C'est justement ce que tu veux, pour accélérer les choses, non ?
 
WRInaute discret
Je me sers surtout des sitemap pour qu'une nouvelle page soit indexée. Donc ça me perturbe de m'en servir pour en désindexer...

Mais ça parait logique. Je crée un sitemap avec les URL à désindexer pour accélérer le crawl, le bot voit la balise noindex, et les désindexe ? :) Bien pensé.

Est-ce que par contre, je dois y inclure toutes les variantes indexées de /inscription_pro.html?page=%2Fragrhytt ou juste la page de base ? (/inscription_pro.html)
 
Olivier Duffez (admin)
Membre du personnel
faudrait savoir ! ne veux-tu pas traiter les URL avec les paramètres ?
on ne traite pas des pages ou des scripts mais bien des URL complètes
;-)
 
WRInaute discret
Exact... Maintenant je veux bien une méthode pour récupérer les 14 800 URL indexées que je placerai dans le sitemap :D
 
WRInaute accro
qui dit paramètres dit base de données, ça doit pas être la mer a boire d'en faire le tour ;-)
 
WRInaute impliqué
Personnellement, je préfère faire les noindex en header : X-Robot-Tag: none, le plus souvent.
Je ne sais pas si GGBot télécharge quand même la page ou pas mais la logique voudrait que non.
https://developers.google.com/webmasters/control-crawl-index/docs/robo ... _tag?hl=fr

J'ai eu le même problème : des centaines de milliers de pages indexées avec des paramètres non voulus. Pour que Google les vire, il a fallu plusieurs mois et ça n'est pas complètement fini.
Au passage, ça n'a eu aucun impact positif sur le référencement. Ca fait quand même économiser des ressources serveur, forcément, c'est toujours ça...

Personnellement j'avais de la chance, une grosse partie de ces pages avaient des paramètres qui ne devaient pas être indexés donc j'ai pu utiliser GWT pour lui indiquer directement comment traiter ces paramètres. Mais vu que le tien est "page", j'imagine qu'il est utilisé ailleurs et que ça n'est pas jouable.
 
WRInaute passionné
Pour désindexer toutes les URLs avec paramètres, pourquoi ne pas faire:

Code:
		if (strpos($_SERVER['REQUEST_URI'], '?'))
		{
?><meta name="robots" content="noindex"/>
<?php
		}

A n'utiliser bien sûr que si TOUTES les pages avec un ? sont à désindexer...
 
WRInaute discret
Ah... on part dans la technique, là.

Sinon, comme prévu Google repasse sur mes pages et les désindexe en masse. Il m'en reste 800.
 
WRInaute discret
Je relance le sujet, sur un autre problème similaire :

J'ai une page indexée plusieurs fois, selon le nombre de paramètres :

Code:
/bottines.html
/bottines.html?limit=21
/bottines.html?dir=desc&limit=30&order=position
...

Comment est-ce que je {désindexe | bloque l'indexation de} ces pages avec paramètres ?

J'ai encore jamais utilisé les Webmaster Tools pour ça, mais ça a l'air prévu pour : Exploration > Paramètres d'URL.
Je suis ce tuto et ça va marcher ? :?
 
WRInaute accro
/bottines.html?dir=desc&limit=30&order=position Quand je vois ça j'ai peur :D (injections SQL)

Une meta noindex ça peut le faire si c'est des résultats de recherche, trie, ... (a na pas mettre sur la page mère)
 
WRInaute discret
WebRankInfo a dit:
je te conseille plutôt d'ajouter de manière sélective des balises meta robots noindex

Mais comment appliquer ça à une page /bottines.html?limit=21 sans baliser (et désindexer la page) /bottines.html ? :?
 
WRInaute discret
WebRankInfo a dit:
je te conseille plutôt d'ajouter de manière sélective des balises meta robots noindex

Mais est-ce que c'est possible pour des pages avec paramètres, sans l'appliquer à la page de base ? ( /bottines.html )
 
Discussions similaires
Haut