Comportement de Google sur les 404

WRInaute impliqué
Bonjour,

Connaissez vous le comportement de Google face aux erreurs 404 : Y'a t-il désindexation rapide ? Si non en combien de temps une page répondant 404 est elle désindexée ?

Merci d'avance,
Rituel
 
WRInaute accro
Moi personnellement j'ai trouvé sur google des urls appartenant à mon domaine en erreurs 404 qui n existent plus depuis plusieurs mois voir années. à se demander si il va les desindexer un jour ...
 
WRInaute impliqué
Puis-je avoir l'url d'une de ces pages s'il te plaît, je voudrais juste m'assurer que l'entête renvoit bien 404 ... Auquel cas Google fait mal son boulot :evil:
 
Olivier Duffez (admin)
Membre du personnel
en fait d'après mes tests, Google semble avoir changé par rapport à il y a 1 an ou 2 à ce sujet.
Aujourd'hui, quand Googlebot rencontre un 404, il s'entête à revenir un nombre incroyable de fois, comme s'il ne croyait pas que la page n'existe réellement plus. Et donc les pages restent des mois encore en cache.
 
WRInaute impliqué
Olivier ce que tu dis colle parfaitement avec ce qu'en dit le W3C, à savoir qu'une erreur 410 est une déclaration explicite et définitive du webmaster quant au fait que la page n'existe plus. Alors que l'erreur 404 peut être temporaire et parfois causée par un problème que le webmaster ignore d'où les tentatives de Google de la réindexer.

Je retire donc ce que j'ai dis à propos de l'ami Google, il respecte à la lettre la RFC 2616 ... Autrement utilisez des erreurs "410 Gone" si vous voulez que la page disparaisse de l'index.

10.4.11 410 Gone

The requested resource is no longer available at the server and no
forwarding address is known. This condition is expected to be
considered permanent. Clients with link editing capabilities SHOULD
delete references to the Request-URI after user approval. If the
server does not know, or has no facility to determine, whether or not
the condition is permanent, the status code 404 (Not Found) SHOULD be
used instead. This response is cacheable unless indicated otherwise.

The 410 response is primarily intended to assist the task of web
maintenance by notifying the recipient that the resource is
intentionally unavailable and that the server owners desire that
remote links to that resource be removed. Such an event is common for
limited-time, promotional services and for resources belonging to
individuals no longer working at the server's site. It is not
necessary to mark all permanently unavailable resources as "gone" or
to keep the mark for any length of time -- that is left to the
discretion of the server owner.
 
Nouveau WRInaute
J'ai constaté la même "lenteur" de la mise à jour. Google supprime rapidement le titre, et la description de l'index, mais les pages sont toujours dispo en cache
 
Nouveau WRInaute
Bonjour,

J'ai vu google (et les autres) revenir pendant des mois sur une URL en 404 et qui restaient indexée dans leur base , alors j'ai fini par les rediriger en 301 vers index pour ne pas perdre les visiteurs.

Mais je pense effectivement que c'est 410 qu'il faut mais est-ce que google en tient compte ? quelqu'un a déjà fait ?
 
WRInaute accro
Bonjour,

Je ne sais pas ce que dit la théorie, mais le bon sens indique clairement qu'un code 404 doit être suffisant... :wink:

Jean-Luc
 
WRInaute accro
oui, mais là c est ni le bon sens, ni la théorie, c est la pratique :) et la pratique, elle dement la théorie ou le bon sens :)
 
Olivier Duffez (admin)
Membre du personnel
le bon sens... OK mais il est normal je trouve que le robot laisse au moins une chance au webmaster qui a une 404. En clair, si le serveur était en rade, il a droit à l'oral de rattrapage.

ce qui est bizarre c'est que Google fasse passer des dizaines d'oraux de rattrapage :)

rituel : peux-tu nous tenir au courant pour indiquer en combien de temps la page au code 410 est désindexée de Google ?

Olivier
 
WRInaute accro
WebRankInfo a dit:
le bon sens... OK mais il est normal je trouve que le robot laisse au moins une chance au webmaster qui a une 404. En clair, si le serveur était en rade, il a droit à l'oral de rattrapage.
Tout à fait d'accord pour le rattrapage raisonnable... toujours le bon sens ;o)

Mais je crois que les serveurs en rade envoient des erreurs 500 plutôt que des 404. Je ne crois pas que cela justifie de long délai et des tentatives multiples avant l'élimination des pages disparues (ça frise l'acharnement thérapeutique...).

Jean-Luc
 
WRInaute impliqué
Avez vous lu récemment le début de la page https://www.google.com/remove.html ??

Il ne me semble pas que c'était écrit cela avant, c'était plutôt une phrase du genre "normalement la suppression est automatique mais si vous êtes vraiment pressé, vous pouvez utiliser cette procédure..."

Maintenant c'est clair : Un 404 ne supprimera pas automatiquement la page de l'index.

Edit: Quoique plus bas, ils disent dans "Supprimer un lien périmé" :
Google met à jour son index automatiquement, intégralement et à intervalles réguliers. Lorsque nous explorons le Web, nous trouvons les nouvelles pages, nous éliminons les liens périmés ou sans cible et nous mettons à jour les liens selon besoin. Les liens périmés ou sans cible disparaissent automatiquement de notre index lors de la prochaine exploration du Web.
:?
 
Discussions similaires
Haut