Sitemag.xml.gz genere Erreurs 404 (crawl errors)

Mag2Mag · 14 Juillet 2011

Bonjour,

Après avoir cherché une solution pendant un mois par moi-même en testant différentes solutions et en parcourant les sujets déjà ouverts ici et là, je me vois obligé de faire un appel "personnalisé" tant mon problème est étrange.

Le contexte :

J'ai un site qui tourne sous wordpress
J'ai le plugin Google XML SiteMaps installé
ma structure de permaliens est domaine.fr/categorie/nom-de-la-page-id

Le problème :

Dans Google Webmaster Tools (GWT) j'ai des centaines d'erreurs de crawl (not found - 404) de pages qui n'existent pas et que GWT me dit trouver dans mon sitemap.xml.gz. Pour quelques erreurs il me dit aussi que la source n'est pas disponible (unavailable).

Les pages "not found" correspondent à mes articles (posts wordpress) et l'adresse trouvée par GWT a pour structure : domaine.fr/nom-de-la-page-id. En gros GWT me zappe le "categorie" de ma structure.
Exemple : au lieu de me crawler normalement domaine.fr/legumes/carotte-3456 il me trouve une erreur de crawling sur domaine.fr/carotte-3456 (sans la catégorie legumes donc)

Pourtant les articles sont indexés correctement dans google quand je fais une recherche.

Solution :

J'ai vérifié le contenu de mon sitemap.xml.gz et ces pages not found crawlées par googlebot que GWT me dit trouvé dans mon sitemap n'y sont pourtant pas !
J'ai recréé mille fois mon sitemap.xml.gz et rien n'y fait il continue à me trouver ces pages qui n'existent nulle part (j'ai même tapé les urls dans google pour voir si un site linkait vers elles mais zéro résultat).

Au début j'ai pensé que l'erreur venait du plugin WP Super Cache mais j'ai supprimé ce plugin et ça n'a eu aucun effet
J'ai ensuite pensé que l'erreur venait d'un test sur mes permaliens (j'avais essayé d'enlever la catégorie pour avoir justement seulement domaine.fr/nom-de-la-page mais j'étais finalement revenu en arrière) mais impossible de savoir si c'est ça...

Aujourd'hui j'ai l'impression de n'avoir que deux choix :

faire un Disallow sur toutes ces pages dans un robot.txt (je n'en ai pas à l'heure actuelle)
faire des redirections 301

Mes ces deux solutions me semblent être du bricolage un peu hasardeux.

Pouvez-vous m'aider à régler ce problème, ça devient urgent, j'ai remarqué une baisse de mon positionnement dans les recherches google (pas énorme mais quand meme)...

Merci !

Marie-Aude · 14 Juillet 2011

Mag2Mag a dit:
J'ai ensuite pensé que l'erreur venait d'un test sur mes permaliens (j'avais essayé d'enlever la catégorie pour avoir justement seulement domaine.fr/nom-de-la-page mais j'étais finalement revenu en arrière) mais impossible de savoir si c'est ça...

ça doit pourtant être la source.

tu as resoumis manuellement ton sitemap ?
Sinon utilise le plugin redirection pour rediriger cette "ancienne" structure de permaliens vers la nouvelle

Mag2Mag · 14 Juillet 2011

Oui, j'ai resoumis manuellement mon sitemap à plusieurs reprises depuis que j'avais tenté cette modification. Et surtout comme je le dis c'est que quand je regarde le contenu du sitemap les liens sont corrects...

Pour le plugin, c'est une solution effectivement mais je crains que ça ne règle pas véritablement le problème.

Merci pour cette réponse.

Marie-Aude · 14 Juillet 2011

Si ça la règlera, puisque les urls seront correctement redirigées, il n'y aura plus de 404

Mag2Mag · 14 Juillet 2011

ok je vais tester alors. Merci

Mag2Mag · 16 Juillet 2011

Bonsoir,

Comme je le craignais, la solution du plugin ne résout pas le problème. Il corrige à posteriori les erreurs détectées mais de "fausses url" continuent d'être détectées avec une source "unavailable". Le plugin est donc ok pour agir après, mais j'aimerais surtout réparer le pb pour en finir une bonne fois pour toute avec ça et ne pas avoir à faire une redirection 301 à chaque fois.

Il semblerait que le pb date du 10 juin et que tous les articles écrits avant cette date connaissent le même problème... Ainsi, régulièrement GWT me sort une fausse url sur des articles écrits avant cette date (encore aujourd'hui par exemple...).

Marie-Aude · 17 Juillet 2011

Non elles ne continuent pas à être détectées, c'est simplement que la mise à jour de cette information est assez longue...

Mag2Mag · 7 Août 2011

Bonjour,

Je reviens pour faire le point et conclure ce sujet.

Suite à l'installation du plugin de redirection 301 qui m'a été suggéré par Marie-Aude, je constate en effet une diminution, lente mais réelle, du nombre d'erreurs 404.

Je suis ainsi passé de 250 erreurs à 175 aujourd'hui. Les choses semblent donc revenir dans l'ordre petit à petit.

Merci Marie-Aude.

Marie-Aude · 7 Août 2011

Merci

leroile · 7 Août 2011

Comment est-ce possible qu'elle ne soit pas toutes réglées?

Marie-Aude · 7 Août 2011

Parce que la mise à jour dans GWT est très lente