La langue de Google

Nouveau WRInaute
bonjour,

j'ai un site multilingue (russe, français, anglais) dont la page détecte par HTTP_ACCEPT_LANGUAGE la langue du client, la store en session (cookie ou url) et affiche la page en conséquence (si il n'y a pas de retour de HTTP_ACCEPT_LANGUAGE, c'est la français par défaut)

http://www.oranskaia.com/

Or google.com ne référencie que la page d'accueil en français ! (voir son cache) et même google.ru !

http://64.233.183.104/search?q=cache:9znk_YfZwNYJ:www.oranskaia.com/+оранская&hl=ru

Pourtant le premier texte qui vient dans les sources c'est le lien vers la page d'accueil en russe, français, anglais (et jamais ce lien n'est suivi par google)
j'en déduis donc que google ne renvoi pas de HTTP_ACCEPT_LANGUAGE, que l'index .ru est le même que l'index .com (ou .fr) et je me demande pourquoi il ne veut pas suivre les liens de mon site (même les liens en pages d'accueil comme sitemap.php ne sont pas pris en compte) et ce depuis un bout de temps.
 
WRInaute passionné
Google renvoie un accept langage vide. Il n'a pas de langue.
Vu que la langue par défaut est le français et que le seul moyen d'afficher une autre langue est de pouvoir stocker cette langue en session, google ne peut pas voir les autres langues.

François
 
Nouveau WRInaute
google ne référence que ta page d'accueil et pour cause: le googlebot ne supporte pas les cookies, et à cause des identifiants de sessions dans l'URL (les PHPSID), à chaque passage sur ton site il "voit" page différente.

regarde comment apparaissent tes liens internes vus par un robot: http://www.spider-simulator.com/cgi-bin ... nskaia.com

tout ça est largement documenté sur WRI, tu aurais pu commencer par lire la doc ou chercher si ce probleme ou un similaire n'avait pas déjà été discuté et résolu AVANT de poster.

bon courage pour ton site
 
Nouveau WRInaute
Je te remercie de tes conseils, et j'apprécie toujours ce genre de remarques sans savoir si le posteur n'a pas déja fait l'effort, plour info, j'avais déjà lu et relu mille fois l'ensemble du site wri, et bien d'autres tel abondance ainsi que de très multiples post forum.

De plus toutes les pages de ce sites ont été analysée avec la plupart des outils dispo sur le net, des validateurs jusqu'au différents parseurs, interpréteurs, déboggueurs dont www.spider-simulator qui, soit dit en passant, est incapable de retransmettre correctement l'encodage des pages utf-8 et oblige à le faire soit même dans son navigateur puisqu'il met d'office dans ses propres sources:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
même si le site affiche
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
la moindre des choses c'est que ce parseur soit à apte à changer son charset selon le charset de la page qu'il analyse !

Je pense aussi que tu n'as pas compris le sens de ma question, ni la façon de fonctionner de la détection langue.
j'ai bien écrit que sur la page d'acceuil les trois langues sont en lien très clairs :
http://www.oranskaia.com/index.php?language=ru
http://www.oranskaia.com/index.php?language=fr
http://www.oranskaia.com/index.php?language=en

or aucun de ces liens n'est suivi par google (cookie, session ou pas)
pas plus que le lien en bas de page (mais au début du code source)
http://www.oranskaia.com/sitemap.php

tout ça n'a rien à voir avec les cookies ou les sessions puisque je ne démarre pas de session pour les moteurs de recherche, pas plus que les cookies ne sont obligatoire, ma question était : pourquoi ne veut-il pas suivre ces liens en dur qui sont là depuis 4 mois ? comme ceux du menu d'ailleurs, très clairs aussi. Donc pourquoi une seule page référencée quand il y en a au minimum 3x9=27, plus toutes les pages annexes du sitemap.php ? je ne pense pas qu'il s'agissent là d'un problème de conformation d'url, (url_rewriting) car goole suit très bien les liens à 1 ou 2 paramètres (j'ai plusieurs autres sites utilisant les mêmesprincipes de code mulitilingue parfaitement référencés par google)


par ailleurs, pour la langue par défaut, je l'ai basculé en russe pour voir s'il va changer son index (google passe en moyenne 1 fois par semaine sur le site)
 
Nouveau WRInaute
Décidément curieux Google !
J'ai passé la langue par défaut en russe et la page cachée aujourd'hui par google est bien la page en russe.
http://66.102.9.104/search?q=cache:9znk_YfZwNYJ:www.oranskaia.com/+oranskaia&hl=en&client=firefox-a
mais le titre et la description dans google.com ou google.ru sont en Français!
https://www.google.com/search?q=ora...&client=firefox-a&rls=org.mozilla:fr:official

pas très cohérent tout ça. et toujours aucune indexation des autres pages !
s'agit-il là d'une sorte de sandbox voir d'un blacklistage ?
 
Discussions similaires
Haut