googlebot sais mieux parler arabe ou utf-8 ?

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 925
Inscription: Ven Avr 29, 2005 12:26

googlebot sais mieux parler arabe ou utf-8 ?

Message le Sam Déc 10, 2005 0:48

Bonjour
j'ai voulu optimiser mon site (arabe) en mettant les titre des articles du site dans la balise <title> resultat : pleins de pages derefferencés car apparement google ne sais pas lire ces titles

exemple :
regardez cette page : http://66.249.93.104/search?q=cache:UCy ... .net&hl=fr

et ce qu'elle devrait etre
-http://www.oujdacity.net/oujda-article-650-fr.html



du coup je suis entrain de retenter une optimisation: je transforme les titre en utf-8 et je les affiche en tan qu'html entities (du style & #1578; )

pensez vous que ça ira mieux ?
et est ceque google vas faire la correspendance entre les htmlentities et les caractères normaux des requetes de recherche ?

Bollore
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 121
Inscription: Mar Aoû 30, 2005 0:46

Message le Sam Déc 10, 2005 5:55

Moi j'ai jamais eu de probleme car mon contenu sortais d'une base de donée et donc reconverti en unicode directement, mais oui, il faut que tu le mette en format uncode #323& etc.. et ça marche impect :)


aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 925
Inscription: Ven Avr 29, 2005 12:26

Message le Sam Déc 10, 2005 15:47

ok merci :)


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 2658
Inscription: Lun Mai 03, 2004 14:48

Message le Sam Déc 10, 2005 17:00

Bonjour aladdin,

J'ai testé ta page avec mon simulateur Google. Regarde au bas de la page : on voit que les indications de l'en-tête HTTP (décidée par le serveur) et celle de la balise META "content-type" sont contradictoires, ce qui ne peut que poser des problèmes avec Google.

Quand le type de codage est défini explicitement par l'en-tête HTTP et par une balise META, il est indispensable que ce soit le même codage des deux côtés.

Jean-Luc


aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 925
Inscription: Ven Avr 29, 2005 12:26

Message le Sam Déc 10, 2005 17:13

merci j'ai enlever l'encodage spécifié par header()
et maintenant j'obtient ça dans le simulateur
En-tête HTTP "Content-Type"
text/html

<META NAME="content-type" CONTENT=" ... ">
text/html; charset=utf-8


c'est bon comme ça ?


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 2658
Inscription: Lun Mai 03, 2004 14:48

Message le Sam Déc 10, 2005 17:29

Maintenant c'est bon pour les indications de l'encodage.

Je suis étonné que le simulateur n'affiche pas correctement les caractères français accentués de la description. Je n'ai jamais constaté ce problème pour d'autres pages en UTF-8. Je ne sais pas si le problème est de mon côté ou du tien...

Pour la représentation des caractères arabes par le simulateur, je suis heureusement surpris. On dirait que ça marche, même si je n'ai jamais testé d'autres langues que le français et l'anglais. :wink:

Jean-Luc


aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 925
Inscription: Ven Avr 29, 2005 12:26

Message le Sam Déc 10, 2005 17:51

bein pour les caractères arabes maintenant ya pas de raison pour que ça marche pas, en fait je les transforme en htmlentities maintenant, pour etre sur qu'ils passent partout

avant ça passait pas, regarde dans le cache que j'ai posté au debut de ce sujet


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 2658
Inscription: Lun Mai 03, 2004 14:48

Message le Sam Déc 10, 2005 17:58

Tu as raison. Et en plus, comme ma page est aussi en UTF-8, c'est pas compliqué.

Par contre, pour les caractères accentués français, ça ne marche pas. Or, comme ma page est aussi en UTF-8, ça devrait donner le même résultat que sur ta page. Tu es sûr de tes codes pour les "é" et les "à" ?

Jean-Luc


aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 925
Inscription: Ven Avr 29, 2005 12:26

Message le Sam Déc 10, 2005 18:06

bein je suis pas totalement sure pour les caractères accetués, mais en tout cas sur mon site et sur google ça passe bien : -http://www.google.fr/search?q=site%3Aoujdacity.net


en fait, vue que mon site contient de l'arabe et du français, j'ecrit le français en utf-8 et l'arabe en windows-1256 (car des utilisateurs qui postend des articles arabes le font sous cette encodage)

ensuite j'utilise les fonctions ob_* de php pour bufferiser la sortie et avant de l'afficher j'utilise une librairie opour réencoder les windows-1256 en entity utf-8

c'est un peut compliqu, mais c'est la seule methode qui m'a permis d'avoir du contenu mixte (arabe français) supportant les deux jeu de caractères sur la meme page


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 2658
Inscription: Lun Mai 03, 2004 14:48

Message le Sam Déc 10, 2005 19:20

Dans la page http://oujdacity.net/, tu as ceci :
Code: Tout sélectionner
<META NAME="DESCRIPTION" CONTENT="Un portail sur Oujda et, la r& #1571;& #169;gion du maroc ...
...
Ce site & #224; & #233;t& #233; cr& #233;e ...

Dans la description, tu emploies & #1571; et & #169; pour faire un "é" et dans la page même, tu emploies & #233; pour un "é". Je pense que ce que tu emploies dans la page est correct, mais pas ce qui est dans la description.

J'ai ajouté des espaces pour que les codes soient visibles.

Jean-Luc

P.S. Il faudrait plutôt écrire Ce site a été créé.


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités