La médiocrité de Google a encore frappé : il ne connait plus HTTP
22 messages
• Page 1 sur 2 • 1, 2
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
-

hibou57 - WRInaute passionné

- Messages: 1154
- Inscription: 1 Nov 2006
La médiocrité de Google a encore frappé : il ne connait plus HTTP
Hello,
Google, de pire en pire. Il a franchi une étape décisive dans son processus de dégradation en allant au delà de l’indexation de tout et n’importe quoi sauf de ce qu’il faut : il ne sait même plus interpréter correctement les réponses HTTP.
Deux exemples.
Un site qui commençait moyennement à se rétablir (précédemment victimes d’idioties de Google), qui s’est repris une claque dans ces circonstances : les GWT indiquent un peu partout un nouveau type d’erreur jamais vu auparavant, “404-like content”. Aucune idée de ce qu’il appel “404-like content”, mais en tous cas, il n’existe qu’une seule réponse 404, celle qui est défini par la spécification du protocole HTTP. Rappel de la seule référence légitime : RFC 2616 — 10.4 Client Error 4xx. S’il se met maintenant à inventer des protocoles que personne ne connait, on a pas fini de suer!
. Et si on tente de décoder “404-like content”, on s’aperçoit que Google n’a pas compris ce qu’est un protocole de communication : un contenu, c’est un contenu, ça ne fait pas partie du protocole de transport le contenu!
Enfin, au moins Yahoo! le magnifique n’a aucun problème avec ces mêmes pages lui.
La moitié des URLs du sitemap sont impactées, et la re-claque qu’a pris le site a commencé le lendemain même de l’apparition de ces délires de Google (il y a 3 semaines… et ça ne cesse pas).
Le second exemple maintenant, concernant un autre site. En me connectant au GWT pour voir si Google déraille de la même manière avec celui-ci, je m’aperçois que je ne peux tout simplement pas le vérifier, parce que Google a perdu la trace de l’authentification du site. Soit, je re-passe par la procédure d’authentification en envoyant sur le site, la page HTML indiquée par Google, puis je clique sur Valider, attendant qu’il m’indique qu’il a bien trouvé la page.
Plusieurs essais en vain! avec toujours le même message, “Invalid Response”. Je clique sur le liens de teste qui permet d’accéder à la page envoyée sur le site… ça marche. Je contrôle les log d’accès aux pages de ce site, il y apparait que Google à bien reçu la page en question, à chacune des tentatives. Je contrôle à tout hasard les entêtes de réponses HTTP avec View HTTP Request and Response Header, tout est OK, statu 200, la taille du document est la bonne, rien à signaler.
Et Google est incapable d’interpréter cette réponse et de réceptionner le contenu qui la suit.
Je ne pensais même pas qu’un moteur de recherche pouvait descendre aussi bas
. Même le premier venu pourrait écrire une procédure pour interpréter correctement ce genre de protocole.
Au lieu de s’amuser à manipuler les résultats du moteur, il ferait mieux de revoir les bases fondamentales du web et de s’assurer qu’il sont au moins capable de faire ce qu’un outil aussi courant que WGet est capable de faire.
Ne serait-il pas temps de faire une campagne anti-Moteur Google comme un temps il y a eu une campagne anti IE5 ?
Google, de pire en pire. Il a franchi une étape décisive dans son processus de dégradation en allant au delà de l’indexation de tout et n’importe quoi sauf de ce qu’il faut : il ne sait même plus interpréter correctement les réponses HTTP.
Deux exemples.
Un site qui commençait moyennement à se rétablir (précédemment victimes d’idioties de Google), qui s’est repris une claque dans ces circonstances : les GWT indiquent un peu partout un nouveau type d’erreur jamais vu auparavant, “404-like content”. Aucune idée de ce qu’il appel “404-like content”, mais en tous cas, il n’existe qu’une seule réponse 404, celle qui est défini par la spécification du protocole HTTP. Rappel de la seule référence légitime : RFC 2616 — 10.4 Client Error 4xx. S’il se met maintenant à inventer des protocoles que personne ne connait, on a pas fini de suer!
Enfin, au moins Yahoo! le magnifique n’a aucun problème avec ces mêmes pages lui.
La moitié des URLs du sitemap sont impactées, et la re-claque qu’a pris le site a commencé le lendemain même de l’apparition de ces délires de Google (il y a 3 semaines… et ça ne cesse pas).
Le second exemple maintenant, concernant un autre site. En me connectant au GWT pour voir si Google déraille de la même manière avec celui-ci, je m’aperçois que je ne peux tout simplement pas le vérifier, parce que Google a perdu la trace de l’authentification du site. Soit, je re-passe par la procédure d’authentification en envoyant sur le site, la page HTML indiquée par Google, puis je clique sur Valider, attendant qu’il m’indique qu’il a bien trouvé la page.
Plusieurs essais en vain! avec toujours le même message, “Invalid Response”. Je clique sur le liens de teste qui permet d’accéder à la page envoyée sur le site… ça marche. Je contrôle les log d’accès aux pages de ce site, il y apparait que Google à bien reçu la page en question, à chacune des tentatives. Je contrôle à tout hasard les entêtes de réponses HTTP avec View HTTP Request and Response Header, tout est OK, statu 200, la taille du document est la bonne, rien à signaler.
Et Google est incapable d’interpréter cette réponse et de réceptionner le contenu qui la suit.
Je ne pensais même pas qu’un moteur de recherche pouvait descendre aussi bas
Au lieu de s’amuser à manipuler les résultats du moteur, il ferait mieux de revoir les bases fondamentales du web et de s’assurer qu’il sont au moins capable de faire ce qu’un outil aussi courant que WGet est capable de faire.
Ne serait-il pas temps de faire une campagne anti-Moteur Google comme un temps il y a eu une campagne anti IE5 ?
-

Marie-Aude - Modérateur

- Messages: 11888
- Inscription: 5 Juin 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Euh ... tu vois moi quand il y a un truc que je ne connais pas, je cherche sur Google.
J'ai donc Googlé "404-like content" et je tombe direct là dessus
http://www.seroundtable.com/archives/022333.html
"A soft 404 is a page not found page that returns a 200 status code, instead of a 404 status code. Often, webmasters create custom 404 pages, but neglect to show a 404 header status code. This can cause issues for search engines and users.
So this report is to help webmasters discover this error and fix it."
Et même que M'sieur Google s'est fendu de deux posts sur son blog pour expliquer ce que sont les 404-like content
http://googlewebmastercentral.blogspot.com/2008/08/farewell-to-soft-404s.html
http://googlewebmastercentral.blogspot.com/2010/06/crawl-errors-now-re ... -404s.html
De plus il semble que ces erreurs incluent aussi des code 500
http://www.seroundtable.com/archives/022396.html
Je suis tout à fait d'accord sur certains défauts de Google. Néanmoins, sonner la charge de la médiocrité absolue comme tu le fais régulièrement est un peu fatigant... Surtout quand c'est pour magnifier Yahoo à côté, dont les résultats sont souvent bourrés de spams
J'ai donc Googlé "404-like content" et je tombe direct là dessus
http://www.seroundtable.com/archives/022333.html
"A soft 404 is a page not found page that returns a 200 status code, instead of a 404 status code. Often, webmasters create custom 404 pages, but neglect to show a 404 header status code. This can cause issues for search engines and users.
So this report is to help webmasters discover this error and fix it."
Et même que M'sieur Google s'est fendu de deux posts sur son blog pour expliquer ce que sont les 404-like content
http://googlewebmastercentral.blogspot.com/2008/08/farewell-to-soft-404s.html
http://googlewebmastercentral.blogspot.com/2010/06/crawl-errors-now-re ... -404s.html
De plus il semble que ces erreurs incluent aussi des code 500
http://www.seroundtable.com/archives/022396.html
Je suis tout à fait d'accord sur certains défauts de Google. Néanmoins, sonner la charge de la médiocrité absolue comme tu le fais régulièrement est un peu fatigant... Surtout quand c'est pour magnifier Yahoo à côté, dont les résultats sont souvent bourrés de spams
-

hibou57 - WRInaute passionné

- Messages: 1154
- Inscription: 1 Nov 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Et ça, http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html , ça ressemble avec une page 404 avec un statu 200 ? (entre autre exemple, moitié des pages du site, comme je le disais).
Et pour la validation de la propriété de l’autre site, Google voit des 404-like contents dans ses propres pages qu’il demande d’envoyer sur les sites ?
Je maintiens le titre. Il faudra quelque chose sérieux et crédible pour que j’en change
Et pour la validation de la propriété de l’autre site, Google voit des 404-like contents dans ses propres pages qu’il demande d’envoyer sur les sites ?
Je maintiens le titre. Il faudra quelque chose sérieux et crédible pour que j’en change
-

French Dread - WRInaute passionné

- Messages: 2047
- Inscription: 7 Mai 2003
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Le header est en effet surprenant. Peut être la source de l'erreur car message non standard ?
-

hibou57 - WRInaute passionné

- Messages: 1154
- Inscription: 1 Nov 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
spout a écrit:200 Okay, voici votre document
Première fois que je vois un header 200 comme ça
Oops, je pensais pas que quelqu’un irait regarder
je trouvais que ça avait l’air plus humain, c’est pour ça que j’ai fait ça, c’est clin d’œil pour les curieux(ses).
@French_Dread & E-Kiwi : c’est le même depuis toujours, il n’a jamais posé de problème (il y en a d’autres aussi, mais je ne dit pas où, de toute manière ils sont sur un autre site). Ce n’est pas un problème de configuration du serveur, le site fonctionne parfaitement, et ce n’est pas le serveur qui renvoie cet entête, ce sont les CGI qui s’en charge tout seul comme des grands (depuis toujours aussi).
Ce serait tout de même un peu faible pour interpréter ça comme étant une erreur 404, non ?
Puis ce n’est pas qu’une indication pour les webmaters comme le disait Aude, puisque que le lendemain même du premier jour où j’ai eu ces messages, fréquentation divisée par deux (peut-être un rapport avec le fait que la moitié des pages sont touchées).
Puisque que la réponse a la même forme sur toutes les pages, pourquoi ne perçoit-il pas la même chose sur les autres pages alors ? Ma supposition est : Google déraille.
-

Marie-Aude - Modérateur

- Messages: 11888
- Inscription: 5 Juin 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
hibou57 a écrit:Puis ce n’est pas qu’une indication pour les webmaters comme le disait Aude, puisque que le lendemain même du premier jour où j’ai eu ces messages, fréquentation divisée par deux (peut-être un rapport avec le fait que la moitié des pages sont touchées).
Marie-Aude (c'est comme les headers, c'est précis). C'est une indication pour aider à trouver ce qui ne va pas. Clairement Google refuse d'indexer ce qu'il considère comme de fausses 200.
hibou57 a écrit:Puisque que la réponse a la même forme sur toutes les pages, pourquoi ne perçoit-il pas la même chose sur les autres pages alors ? Ma supposition est : Google déraille.
Parce qu'il ne les a pas encore revisitées ?
Ma supposition sur ce genre de choses est : pourquoi c'est toujours toi qui te plains que Google déraille ?
Après côté serveur, je ne connais pas assez, mais peut être que ton "cloaking de header" ne lui plait pas effectivement...
-

hibou57 - WRInaute passionné

- Messages: 1154
- Inscription: 1 Nov 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Marie-Aude a écrit:Clairement Google refuse d'indexer ce qu'il considère comme de fausses 200.
Tu confirme qu’il a un sérieux problème, parce que si ce sont des fausses pages pour lui… aïe.
Marie-Aude a écrit:pourquoi c'est toujours toi qui te plains que Google déraille ?
Parce que je ne vote pas « majorité silencieuse » (et pas seulement avec Google que je fais comme ça).
Marie-Aude a écrit:"cloaking de header" ne lui plait pas effectivement...
Cloaking de header… t’es sérieuse ?
Enfin, en le défendant, tu l’enfonce encore plus. Tu peux arrêter là.
Je n’en peux plus de ce robot, il dépasse toutes les bornes, ça n’a plus aucun sens, il met un cirque pas possible au moins caractère ici ou là ou personne ne sait quoi. Il faut qu’il arrête.
De plus, s’il n’était pas si bête et s’il analysait correctement les sites qu’il visite, il aurait du remarquer que j’ai toujours renvoyé des statu 404 en règles dans les cas de pages non-trouvés. Ça ne ressemble à rien son bricolage soit disant pour les webmasters qui oublient de mettre en place les statu 404. Mais alors qu’il fasse une campagne d’éducation pour leur apprendre à les utiliser ! Ça ressemble à quoi d’interpréter des pages normales comme des 404 ? C’est ça la pertinence selon Google ? (je suis encore gentil d’utiliser ce mot là avec lui). Avec un gosse qui a des difficulté à parler, on fait comment ? On parle n’importe comment comme lui ? Ce serait un comportement de parent débile et immature : Google est débile est immature ici.
Il nous massacré la notion de lien, comme beaucoup s’en sont plain même ici depuis longtemps, et pas seulement moi, et maintenant il nous massacre des protocoles standards qui existent depuis 25 ans. C’est sérieux ça ?
Marie-Aude a écrit:pourquoi c'est toujours toi qui te plains que Google déraille ?( bis)
Et réciproquement, pourquoi je ne constate ces comportements qu’avec Google ? Les autres, bien que minoritaires, sont visiblement plus stables.
Peut-être parce que les autres moteurs sont capable de correctement implémentés les protocoles standards qui doivent être suivis ?
Et bien que surprenant, mon entête de réponse est parfaitement valide. Tu peux vérifier dans la RFC pour laquelle j’ai donné un lien plus haut.
-

Marie-Aude - Modérateur

- Messages: 11888
- Inscription: 5 Juin 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
hibou57 a écrit:Marie-Aude a écrit:"cloaking de header" ne lui plait pas effectivement...
Cloaking de header… t’es sérieuse ?
A moitié, je plaisante.
Maintenant de deux choses l'une, ou bien Google voit ce header, et ça peut être une des causes de tes problèmes, ou bien il ne les voit pas, et c'est une réponse différente de l'utilisateur, et c'est le principe du cloaking, d'où ma pointe d'humour.
hibou57 a écrit:Enfin, en le défendant, tu l’enfonce encore plus. Tu peux arrêter là.
Non, je n'arrête pas. En revanche, je pense que tu pourrais être un peu plus zen, et aussi essayer de comprendre le second degré.
hibou57 a écrit:De plus, s’il n’était pas si bête et s’il analysait correctement les sites qu’il visite, il aurait du remarquer que j’ai toujours renvoyé des statu 404 en règles dans les cas de pages non-trouvés. Ça ne ressemble à rien son bricolage soit disant pour les webmasters qui oublient de mettre en place les statu 404.
Tu sais il y a un truc qui s'appelle "changement d'algo, améliorations, etc"... en clair ce qui a marché ne marche pas toujours. Heureusement sinon on en serait encore aux balises keywords bourrées de mots clés
hibou57 a écrit: Mais alors qu’il fasse une campagne d’éducation pour leur apprendre à les utiliser !
Ben les liens sur les blogs google, c'est quoi ? Des spaghettis au poulet ?
hibou57 a écrit:Marie-Aude a écrit:pourquoi c'est toujours toi qui te plains que Google déraille ?( bis)
Et réciproquement, pourquoi je ne constate ces comportements qu’avec Google ? Les autres, bien que minoritaires, sont visiblement plus stables.
En même temps, la pertinence des autres....
Pour le reste, tu as des outils pour communiquer avec Google. Si il y a un bug, c'est sans doute la meilleure chose à faire.
-

salva - WRInaute accro

- Messages: 4277
- Inscription: 16 Avr 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Tu l'as taillé à la hache le site
Sa structure est déroutante : le header a déjà été pointé. Ensuite le menu de gauche qui n'apparait que sur la home
Cette page -http://www.les-ziboux.rasama.org/boutique/livres-culture-arabe.html qui change carrément de template.
Y a pas que Google qui semble dérouté, le visiteur aussi. Alors si tu attends que Google s'adapte à ta façon de faire…
Si Google fonctionnait comme tous ces autres moteurs minoritaires, il n'occuperait pas la place que ces mêmes moteurs convoitent.
Sa structure est déroutante : le header a déjà été pointé. Ensuite le menu de gauche qui n'apparait que sur la home
Cette page -http://www.les-ziboux.rasama.org/boutique/livres-culture-arabe.html qui change carrément de template.
Y a pas que Google qui semble dérouté, le visiteur aussi. Alors si tu attends que Google s'adapte à ta façon de faire…
hibou57 a écrit:Et réciproquement, pourquoi je ne constate ces comportements qu’avec Google ? Les autres, bien que minoritaires, sont visiblement plus stables.
Peut-être parce que les autres moteurs sont capable de correctement implémentés les protocoles standards qui doivent être suivis ?
Et bien que surprenant, mon entête de réponse est parfaitement valide. Tu peux vérifier dans la RFC pour laquelle j’ai donné un lien plus haut.
Si Google fonctionnait comme tous ces autres moteurs minoritaires, il n'occuperait pas la place que ces mêmes moteurs convoitent.
-

hibou57 - WRInaute passionné

- Messages: 1154
- Inscription: 1 Nov 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Marie-Aude a écrit:A moitié, je plaisante.
C’était ambigu, enfin, ça me semblait ambigu, à cause du ton que j’avais cru sentir.
Concernant la pertinence des autres moteurs : tu les utilise régulièrement au moins ?
salva a écrit:Cette page -http://www.les-ziboux.rasama.org/boutique/livres-culture-arabe.html qui change carrément de template.
C’est normal, elle ne fait plus partie du site… plus vraiment. Elle n’est encore là que pour des raisons, disons historiques.
Ce n’est de toute manière pas cette page qui peut poser des problèmes. Et puis je la laisse en signe de reconnaissance envers certains auteurs dont les livres s’y trouve.
-

hibou57 - WRInaute passionné

- Messages: 1154
- Inscription: 1 Nov 2006
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Marie-Aude a écrit:Pour le reste, tu as des outils pour communiquer avec Google. Si il y a un bug, c'est sans doute la meilleure chose à faire.
J’ai déjà tenté, mais je n’ai jamais eu de réponse; c’était il y a longtemps, pour un autre problème survenu après avoir pourtant suivi leur propre conseil reçu par mail… la seule fois où ils m’ont répondu.
À part ça, je ne sais pas si par hasard ils ont corrigé quelque chose ou pas, mais tout d’un coup, je viens de vérifier, la plupart des fausses erreurs 404 ont disparu, il n’en reste plus que 5. Et l’autre site dont je ne pouvais pas valider la propriété, elle s’est validé toute seule
Je ne saurai jamais ce qu’il s’est passé, et c’est bien ça le problème, on ne sait jamais rien. Mais au moins ça a été corrigé (jusqu’au prochain bug j’imagine).
- fredfan
- WRInaute accro

- Messages: 3131
- Inscription: 2 Juil 2008
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Tout ça montre que Google a été prudent et a pris le temps d'analyser la situation avant de te donner le contrôle des GWT sur le site, ce qui aurait donné la possibilité de nuire à une personne mal intentionnée.
Avec Google, vivons dans un monde plus sûr
Avec Google, vivons dans un monde plus sûr
-

stonetatara - Nouveau WRInaute

- Messages: 8
- Inscription: 27 Juil 2008
Re: La médiocrité de Google a encore frappé : il ne connait plus HTTP
Bonsoir,
j'ai peut-être un début de réponse au problème cité dans le post, mais d'un point de vue technique je ne peux pas l'expliquer au regard de mes connaissances en protocole HTTP proche du zéro
Donc, en étudiant le header de la page citée avec le protocol HTTP/1.0 "wihtout host header", j'obtiens ceci :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.0
=> un 404 not found
Même test avec un HTTP/1.1 :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.1
=> un code 200 exotique , je cite : "Status: HTTP/1.1 200 Okay, voici votre document "
Apparement Google verrait un code 404 sur cette page , mais aussi sur le reste du site apparamment, exemple la page d'accueil :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/&http=1.0
=> Status: HTTP/1.1 404 Not Found
Donc si quelqu'un a des connaissances techniques poussées, et des talents de pédagogue pour vulgariser, je suis curieux et preneur pour une explication.
Merci
j'ai peut-être un début de réponse au problème cité dans le post, mais d'un point de vue technique je ne peux pas l'expliquer au regard de mes connaissances en protocole HTTP proche du zéro
Donc, en étudiant le header de la page citée avec le protocol HTTP/1.0 "wihtout host header", j'obtiens ceci :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.0
=> un 404 not found
Même test avec un HTTP/1.1 :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.1
=> un code 200 exotique , je cite : "Status: HTTP/1.1 200 Okay, voici votre document "
Apparement Google verrait un code 404 sur cette page , mais aussi sur le reste du site apparamment, exemple la page d'accueil :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/&http=1.0
=> Status: HTTP/1.1 404 Not Found
Donc si quelqu'un a des connaissances techniques poussées, et des talents de pédagogue pour vulgariser, je suis curieux et preneur pour une explication.
Merci
22 messages
• Page 1 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par les experts Google Analytics de Ranking Metrics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Faut de frappe et premier sur google
- Indexation Google sur faute de frappe;
- Google interprète les fautes de frappe numériques
- Google ne me connaît pas...
- Google connait des acronymes
- Erreur de frappe
- bizarrerie, google connait le singulier et le pluriel ??
- Google connait l'identité des Whois Privé ?
- quelqu'un connait un livre intéressant sur Google?
- dedibox frappe fort
- Google recrute Vinton Cerf, le père d'Internet - 09-09-2005
- Yahoo Dance Décembre 2006 - 13-12-2006
- Tutorial Google Maps API - 08-08-2006
- La grogne contre AutoLink (Google Toolbar) - 22-02-2005
- Obtenir le nombre exact de requêtes effectuées sur Google - 09-03-2007
- API Google Talk (Libjingle) : Google concurrence Skype - 19-12-2005
- Le blog officiel de Google SketchUp - 24-07-2007
- Comment placer son blog dans Google Finance - 31-03-2006
- Test du code HTTP d'une page
Cet outil vous permet de connaître le code HTTP renvoyé par le serveur pour une page donnée. - Tester la validité d'un lien
Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

