Pages existantes que Google classe en 404

WRInaute discret
Bonjour,

Je me demande pourquoi Google classe certaines URL existantes en 404.

Par exemple cette page existe :

-http://www.micro-astuce.com/Forum/topic946.html
il s'agit après 301 de :
-http://www.micro-astuce.com/Forum/dadvsi-le-collectif-stopdrm-passe-aux-actes-t946.html

De plus il trouve un sitemap qui lui n'existe pas, en revanche.
Forum/sitemapindex.xml ok, mais Forum/sitemapsindex.xml n'xiste pas, Google me renvoie une erreur 404 pour ce sitemap fantôme.

Pour info si toutefois il y aurait un effet de dommages collatéraux :
Il y a quelques semaines j'ai activé la réécriture avancée mais j'ai oublié d'activer le zéro dup afin que les anciennes url soient redirigées, le site est resté 1 mois comme ça.
Du coup je n'ai plus aucune page du forum indexées à cause du duplicate content (là j'ai vraiment pas assuré, site bien référencé avant et existant depuis 2006).
 
WRInaute accro
landry a dit:
Je me demande pourquoi Google classe certaines URL existantes en 404.

A quel niveau ? L'onglet Introuvable de GWT ? Pour info, il y a une latence au niveau de la mise à jour de cet outil. Du coup, si tu as corrigé et appliqué des 301, il se peut que Google mette un certain temps à les faire disparaître de GWT.

Perso, je me base sur le fichier d'export de cet interface (qui liste bien au-delà des 1000 url listées de base par l'interface) et je vérifie quelle est l'entête renvoyée, de manière à me concentrer uniquement sur les erreurs effectives.
 
WRInaute discret
A quel niveau ? L'onglet Introuvable de GWT ? Pour info, il y a une latence au niveau de la mise à jour de cet outil. Du coup, si tu as corrigé et appliqué des 301, il se peut que Google mette un certain temps à les faire disparaître de GWT.

Oui, sur GWT.
Pourtant il m'affiche des erreurs au 11 avril 2014

-Forum/probleme-sata-nvrd64-t6701.html
11/04/14

-Forum/lenteur-au-demarage-t6696.html
11/04/14

Ces pages existent, j'ai lu que cela pouvait aussi être un signe de lenteur au niveau du serveur, je ne sais pas si c'est exact.

Perso, je me base sur le fichier d'export de cet interface (qui liste bien au-delà des 1000 url listées de base par l'interface) et je vérifie quelle est l'entête renvoyée, de manière à me concentrer uniquement sur les erreurs effectives.

Là effectivement il y a un peu plus d'url, google va même chercher des url que j'ai supprimé depuis plusieurs années et qui ne sont dans aucun sitemap bien sûr.

Par exemple cette page partenaire n'existe plus depuis 5 ans minimum :
-http://www.micro-astuce.com/partenaire.php

ici le sitemap :
-http://www.micro-astuce.com/micromap.xml

De même que ces vieux tutos obsolètes que j'ai supprimé il y a quelques mois:
-http://www.micro-astuce.com/optimisation/defragmenter-prefetch.php

De plus il va chercher :
-http://www.micro-astuce.com/Forum/post50347.html ou
-http://www.micro-astuce.com/Forum/membre2030.html

Pourtant mon robots.txt est clair :

Disallow: /Forum/membre
Disallow: /Forum/post

Bon, j'ai effectué pas mal de modif ces derniers mois, je vais attendre un peu avant de me fier aux Outils pour Webmaster.
Cela dit comment google fait-il pour aller me déterrer des url supprimées il y a plus de 5 ans ?
 
WRInaute passionné
Il y a parfois des bizarreries innomable chez google, entre Aout et Décembre 2013, je me suis pris le bec avec les googlers en raison d'un nombre très important de pages inexistantes indexées dans les résultats, par dizaine de milliers, suite a un mélange de Google des sous domaines (page de marseilles dans le dept 75, pages paris dans le dept 24, etc etc).
En fait, les pages existaient bien, mais Google les "déplaçants" dans le mauvais répertoire et mauvais département (sous domaine), tous les liens relatifs croisés internes devenaient des liens en erreur 404.

Il en a résulté une lente baisse progressive du trafic, alors que j'étais en constante progression.

Il a fallu que je restructure totalement mon site, une lourde opération sur 5 millions de pages, avec les redirections 301 qui vont bien. Après 3 mois, le trafic est remonté et dépasse le meilleur trafic 2013, avec toujours une constante progression.

Ton problème est un peu différent. Si tu n'a pas de baisse de trafic, les infos devraient peu a peu se remettre a jour dans webmastertools. Sinon, il faut agir et corriger le maximum d'erreurs.
Apparemment, Google ne sanctionne pas des pages disparues, mais si elle trouve des pages avec des liens ROMPUS, il peut rapidement déclasser le site.

Le problème étant que Google peut ressortir des pages anciennes qui n'existent plus avec des liens qui n'existent plus non plus, et sanctionner ces liens morts …
Si le nombre de ces pages "fantômes" n'est pas très important, peut-être que l'outil de suppression d'url peu suffire a corriger le probleme.
 
WRInaute discret
Oui d'accord, dans ce cas à quoi correspondent les 4541 autres ?
Des pages que je n'envoie pas et que Google m'indexerait, quelles pages ?
J'avoue que j'ai du mal à suivre sa logique...
 
WRInaute accro
Parce que tu crois sérieusement que Google ne se base que sur ton sitemap pour indexer ? Ce dernier n'a jamais été conçu et penser en ce sens. Tant que tu n'en interdis pas le crawl ou l'indexation, si Google peut accéder à une page de ton site, il peut l'indexer.
 
WRInaute discret
Ce que je veux dire c'est quelles sont ces autres pages, car selon moi tout est dans le sitemap.

J'ai aussi des soucis de lenteurs, Google me renvoie des erreurs serveurs à cause d'un délai d'attente trop long. J'en fais part à OVH.


Je vous remercie pour ces précisions mais comme vous
l'avez remarqué le soucis ne concerne que les accès par
les robot Google, il ne s'agit donc pas d'un blocage du
serveur qui vous héberge.

Sans commentaire.
 
WRInaute discret
Bonjour,

J'ai refait mon robots.txt, je n'ai plus de duplicate et pour autant le nombre de pages indexées continue à diminuer.
Au 16 avril Google affiche des avertissements rencontrées au mois de décembre.

Code:
Forum/post
étant bloqué par le robots.txt il ne peut indexer ces trois sujets dont je viens de modifier le titre pour éviter l'erreur.

Cela dit pourquoi 50 avertissements:


3
Avertissements
URL bloquée par le fichier robots.txt.
Le sitemap contient des URL qui sont bloquées par le fichier robots.txt.

50

Sitemap : -www.micro-astuce.com/Forum/problemes-avec-le-forum-f31.xml
Valeur : -http://www.micro-astuce.com/Forum/poster-pj-sur-ce-forum-t6994.html
-
16 avr. 2014
Sitemap : -www.micro-astuce.com/Forum/problemes-avec-le-forum-f31.xml
Valeur : -http://www.micro-astuce.com/Forum/poster-pj-sur-ce-forum-t6994.html
-
16 avr. 2014
Sitemap : -www.micro-astuce.com/Forum/corbeille-f8.xml
Valeur : -http://www.micro-astuce.com/Forum/post-rapport-t1992.html
-
12 avr. 2014
1 à 3 sur 3


D'un côté il signale 3 avertissements et de l'autre il en indique 50. :?:

C'est pas ça qui me pénalise mais c'est juste pour comprendre.
 
WRInaute accro
Code:
Forum/post

Valeur : -http://www.micro-astuce.com/Forum/poster-pj-sur-ce-forum-t6994.html
Valeur : -http://www.micro-astuce.com/Forum/poster-pj-sur-ce-forum-t6994.html
Valeur : -http://www.micro-astuce.com/Forum/post-rapport-t1992.html
 
Discussions similaires
Haut