Messages: 3

Enregistré le: 3 Déc 2014

Message le Mer Oct 12, 2016 2:33

Récemment j'ai remappé la quasi totalité des urls de façon à éviter les paramètres. Les anciennes urls sont interdites de crawl dans robots.txt, et par un tag meta noindex, nofollow (en testant la valeur de REQUEST_URI). Je n'ai plus de lien en interne avec paramètres sauf sur une langue donnée (et pour une partie des pages seulement).

Mais Google continue à indexer mes anciennes pages, j'ai bien sûr supprimé à la main (et pendant plusieurs semaines d'affilé !!) les anciennes urls via GWT. Pensant bien que Google mettrait un peu de temps à nettoyer son index. La politique de Google ignorant les no index, no follow est assez bête dans ce cas précis. Puisque inévitablement je me retrouve avec du duplicate content. Google se fiche visiblement royalement des meta (et des règles dans robots.txt).
J'ai supprimé les posts sur les réseaux sociaux contenant les anciennes urls ... (ou les ai mis à jour avec les nouvelles urls). Rien n'y fait.

Aujourd'hui je perds patience, je vers changer le nom de ma page template et Google va se retrouve avec un 404 ou je vais mettre un exit dans le code est basta plus de contenu.

Quelqu'un a t-il expérimenté ce problème d'indexation ?
Haut
6 Réponses
Messages: 12171

Enregistré le: 23 Nov 2005

Message le Mer Oct 12, 2016 8:53

Est-ce que tu as fait des redirections (la base) ?
Haut
Messages: 1232

Enregistré le: 1 Oct 2009

Message le Mer Oct 12, 2016 8:53

mjtoursandtravel a écrit:Les anciennes urls sont interdites de crawl dans robots.txt, et par un tag meta noindex, nofollow (en testant la valeur de REQUEST_URI). [...] Google se fiche visiblement royalement des meta (et des règles dans robots.txt).


Le fait d'interdire à Google de crawler des anciennes urls provoque obligatoirement sa méconnaissance des nouvelle balises META (noindex). Comment Google peut-il prendre en compte votre demande de désindexation si vous lui interdisez de le constater lui-même ? Google ne se fiche pas des règles que vous lui donnez, il les respecte à la lettre... et c'est bien ça le soucis car vos règles ne sont pas correctes.

Le problème doit probablement se situer sur ce point précis.
Haut
Messages: 3258

Enregistré le: 7 Sep 2003

Message le Jeu Oct 13, 2016 12:20

il n 'y a pas de noindex à mettre, ni de nofollow, et encore moins interdire le crawl
Il faut juste faire une redirection 301 des anciennes urls vers les nouvelles
Haut
Messages: 3

Enregistré le: 3 Déc 2014

Message le Mer Oct 19, 2016 2:37

indigene a écrit:il n 'y a pas de noindex à mettre, ni de nofollow, et encore moins interdire le crawl
Il faut juste faire une redirection 301 des anciennes urls vers les nouvelles


Merci pour vos réponses à tous. Oui 301 je n'y ai pas pensé...
(c'est mieux pour l'utilisateur, qu'un 410 comme je l'ai fait depuis mon post)

Je pensais toutefois l'affaire réglée avec un 410 (fait il y a une semaine) j'ai donc une dernière fois "nettoyé à la main" l'index avec GWT. Il est clair que n'importe qui (quelque soit le useragent) appelant mes anciennes URLs se voit renvoyé un 410 (et donc aucun contenu).
Eh bien non !! après une mise à jour de son index, Google me ressort les anciennes urls comme si de rien n'était! Evidemment quand je clique sur les liens j'ai un 410. ça va lui prendre un petit paquet d'années à comprendre...

Mais oui le 301 (dans un 410 on peut également faire une redirection même si ce n'est pas l'objet du 410).
Haut
Messages: 3

Enregistré le: 3 Déc 2014

Message le Mer Oct 19, 2016 2:50

M&B Multimédia a écrit:Le fait d'interdire à Google de crawler des anciennes urls provoque obligatoirement sa méconnaissance des nouvelle balises META (noindex). Comment Google peut-il prendre en compte votre demande de désindexation si vous lui interdisez de le constater lui-même ? Google ne se fiche pas des règles que vous lui donnez, il les respecte à la lettre... et c'est bien ça le soucis car vos règles ne sont pas correctes.


Non non, dans mon cas n'importe quel useragent pouvait avoir le contenu complet de la page. La seule chose qui était faite c'est l'ajout conditionnel d'une balise "no index, no follow" fonction de l'URI appelée.

Les personnes de Google le confirment elles-même, leur politique n'est pas de suivre à la lettre les balises car c'est le besoin de l'utilisateur qui prime face au petit webmaster qui se permet de donner des ordres au grand maitre Google avec ses petites balises. Et effectivement Le grand Google n'en n'a cure (dans bien des cas).
Haut
Messages: 3258

Enregistré le: 7 Sep 2003

Message le Mer Oct 19, 2016 15:54

Exactement, il s'en contrefiche des balises à partir du moment où il rencontre une redirection ou un code retour http qui lui dit qu'il n'a pas trouvé.

Le code 410 c'est un peu comme le code 404. Ca veut dire "non trouvé"

Dans ton cas la page est bien trouvée mais avec une url différente. Il faut donc mettre une redirection 301 vers la nouvelle url et rien d'autre à faire de plus.
Haut