Désindexation URL en masse

Nouveau WRInaute
Bonjour à tous.

J'ai une petite question concernant la suppression d'URL... Voilà... Pour supprimer une page dans l'index google il suffit juste de la stipuler dans le webmaster tool ça c'est OK. Mais quand on veut par exemple supprimer plusieurs pages d'un coup avec une seule requête?

Exemple :
http://nom-de-domaine.com/dossier/page?SID=clé
Est ce que je peut faire : http://nom-de-domaine.com/*?SID=*

Si quelqu'un a une piste, je suis preneur :)

Merci.
 
Nouveau WRInaute
Tout d'abord merci de vos réponses rapide ;)

J'ai tout bloqué au niveau du robots.txt mais je veux les supprimer de l'index de google directement....
 
WRInaute discret
Les outils pour Web-master de Google permettent de faire une demande de désindexation.
Configuration du site > Accès du robot d'exploration > Onglet -> URL à supprimer

Faire une demande de suppression et choisir la suppression d'un répertoire !

*Edit : On dirait qu'ils on changeait le fonctionnement maintenant il semblerait qu'il faille s'occuper de chaque URL... :?
 
Nouveau WRInaute
Oui mais justement j'ai plus de 1000 url à virer avec des paramètres SID et avec des variations comme :

http://nom-de-domaine.com/page?SID=clé
http://nom-de-domaine.com/dossier/page?SID=clé
etc..

Donc j'aimerais faire une seule demande générique pour chaque variation... C'est URL sont anciennes malgré qu'elles soient bloqué par le robots.txt elles sont toujours indexées dans google.
 
WRInaute accro
ne pas être trop préssé aussi, tu a fait la modification dans le robot.Txt il y a longtemps ?
 
WRInaute discret
Ces anciennes URL sont elles redirigées par des code 301 ?
Sont elles en 404 ?

Dans le premier cas en fonction de la fréquence de passage des bots google sur votre site ces adresses disparaitront seules au bout de quelques mois et vous ne devriez pas perdre en fréquentation pour autant.

Dans le second cela peut être effectivement beaucoup plus long et c'est surtout beaucoup moins bon pour vous.

Ne vous inquiétez pas si vos redirections sont bien faites vous n'aurez aucun soucis.
 
Nouveau WRInaute
Cela va faire quelques mois déjà que les url sont bloquées par le robots.txt. Le pire c'est qu'elles sont dans le premier index... Toutes les paramètres SID sont redirigés vers la home...
 
WRInaute discret
Bonjour,

J'ai un problème similaire : j'ai besoin de supprimer un volume très important d'URLs de l'index Google.

J'explique en simplifiant : disons que mon site avait 100 000 URLs indexées, mais dont 90% étaient des recherches qui créaient des contenus dupliqués (DC). Je ne m'en suis pas occupé jusqu'à ce que, comme beaucoup, je me sois pris une pénalité au début du mois de septembre.

J'ai donc réagi en ajoutant des balises "noindex" sur toutes les pages de type "tag" : "motcle=*". Idem pour les pages à peu de résultats.

Mon sitemap ne fournit donc plus que 5000 URLs. Google les prend en compte, je les vois bien quand je fais un "site:domain". Par contre, je vois toujours 100 000 page indexées 2 mois après mes corrections, que ce soit dans GWT ou dans google, comme s'il se fichait des "noindex".

J'avais pensé les supprimer via le robots.txt : erreur, cela empêche les robots de visiter la page, mais ça ne les enlève pas de l'index ! Au contraire, j'aimerais que Google vienne sur la page pour VOIR cette balise "noindex".

La majorité des pages en noindex étaient générées automatiquement, c'était une erreur monumentale, j'ai donc viré les liens. Mais du coup, Google ne peut plus accéder à ces pages, donc voir la balise "noindex" !!!

Alors j'hésite entre plusieurs solutions :

- demander la suppression de 90 000 pages à la main... euh comment dire ?

- faire une sorte de plan de site avec tous les liens avec des noindex... Mais je crains une autre pénalité en faisant cela si c'est mal pris.

- faire un sitemap des pages en noindex... utile ? Il parait que Google se fout un peu des sitemaps.

- faire un 301 des pages merdiques en noindex de cette manière : "/?motcle=*" => "/recherche/*" et ainsi, profiter d'avoir un répertoire pour demander la suppression de ce répertoire via l'outil de suppression de google + ajout dans le robots.txt pour interdire le crawl de ce répertoire.

J'espère que j'ai été clair, et j'espère avoir vos avis éclairés sur cette problématique qui revient assez souvent.

MERCI à tous !
 
Membre Honoré
Complément : Il existe des URL prévues pour donner des exemples: "example.com" ou encore "example.net" (avec un "a").
 
WRInaute discret
Madrileño a dit:
Complément : Il existe des URL prévues pour donner des exemples: "example.com" ou encore "example.net" (avec un "a").

J'ai donné les URIs, le nom de domaine importe peu dans les exemples donnés.
 
WRInaute accro
seo-inside a dit:
Cela va faire quelques mois déjà que les url sont bloquées par le robots.txt. Le pire c'est qu'elles sont dans le premier index... Toutes les paramètres SID sont redirigés vers la home...

redirigé vers la home? quel dommage. N'aurait-il pas été préférable de les redirigé sur les pages correspondante sans le SID?
L'attibut canonical peut être intéressant dans ce cas là.

Il faut également penser a interdire le SID dans le .htacess je crois.
 
WRInaute discret
noren a dit:
seo-inside a dit:
Cela va faire quelques mois déjà que les url sont bloquées par le robots.txt. Le pire c'est qu'elles sont dans le premier index... Toutes les paramètres SID sont redirigés vers la home...

redirigé vers la home? quel dommage. N'aurait-il pas été préférable de les redirigé sur les pages correspondante sans le SID?
L'attibut canonical peut être intéressant dans ce cas là.

Il faut également penser a interdire le SID dans le .htacess je crois.

noren tu réponds au message précédent qui date de mai 2012. J'ai posté dans ce forum car c'est un sujet très proche.
Tu as une idée concernant la méthode de suppression en masse ?

Pour info j'ai des balises canonical.
 
WRInaute accro
chnain35 a dit:
j'ai donc viré les liens. Mais du coup, Google ne peut plus accéder à ces pages, donc voir la balise "noindex" !!!
Non ça change rien GG ne suis pas les liens il les découvre et les note donc il les connais lien ou pas ...

Une solution serait de pinguer une page pour voir en live si le bot passe ou pas (perso suite a un ping (pingomatic) je vois les ip passer direct pour charger la page seulement il y a pas que GG qui passe)

Si ça fonctionne faire un script "calme" qui va pinguer les 90000 pages sur plusieurs jours c'est pas la mort.
 
WRInaute discret
zeb a dit:
chnain35 a dit:
j'ai donc viré les liens. Mais du coup, Google ne peut plus accéder à ces pages, donc voir la balise "noindex" !!!
Non ça change rien GG ne suis pas les liens il les découvre et les note donc il les connais lien ou pas ...

Une solution serait de pinguer une page pour voir en live si le bot passe ou pas (perso suite a un ping (pingomatic) je vois les ip passer direct pour charger la page seulement il y a pas que GG qui passe)

Si ça fonctionne faire un script "calme" qui va pinguer les 90000 pages sur plusieurs jours c'est pas la mort.

Il les connait... certes. Mais de là à faire une mise à jour de ses index concernant ton site...

Utiliser pingomatic en masse est déconseillé, ce n'est pas une méthode pour "réveiller" google.
 
WRInaute discret
Bien, n'ayant pas obtenu ici d'avis avisé sur la désindexation en masse, pour une fois, j'ai décidé de :

- mettre des 410 sur les anciennes pages (plus linkées en interne)

- faire des 301 à la place quand c'est justifié, quand il existe une page similaire (10 à 20% des cas)

Je ne pense pas que l'index Google sera mis à jour rapidement, mais au moins tout est mis en place pour donner un message clair : ces pages n'existent plus ou sont remplacées.
 
Discussions similaires
Haut