Gros problème référencement Google malgré sitemap.xml

Nouveau WRInaute
Bonjour à tous,

Je vous contacte car je rencontre un gros problème de référencement Google.

Pour faire simple, toutes les URL du site web ont été explorées mais seule une infime partie a été effectivement indexée (<1%).

J'utilise Google webmaster tools :

J'ai indiqué à Google un fichier sitemap.xml contenant ~4000URL, qui ne comporte pas d'erreurs et qui a bien été exploré, il y a maintenant ~20 jours.

Pourtant le nombre de pages indexées par Google est de 7 (en faisant site:nom de domaine) et de 9 d’après (Google webmaster tools).

Pourquoi la totalité des URL transmises via le sitemap.xml et effectivement explorées ne sont pas indexées ? Comment corriger cela ?

site web : www.nanothinking.com

Je vous remercie d'avance pour votre réponse.

A très bientôt,

El_boucher.
 
WRInaute accro
Par principe, le sitemap est une aide au crawl, mais pas une garantie d'indexation.

Là le problème c'est la structure de ton site : chacune de tes "pages" n'est différente que pour un petit paragraphe qui apparait en haut à droite. Tout le reste est du contenu dupliqué aux yeux de Google. Tu dois :
1- modifier ton thème pour avoir des pages réellement différentes
2- éventuellement, plus travailler tes textes descriptifs
 
Nouveau WRInaute
Bonsoir Marie-Aude,

Merci pour cette première réponse... qui amène deux nouvelles questions !!

1- Est-ce que si je ne garde que la partie en haut, c-a-d celle qui change pour chaque URL (et que je supprime la partie qui reste identique) alors les pages seront "+ différentes" aux yeux de Google et donc seront indexées ?

2- Qu'entends-tu par "plus travailler les textes descriptifs" ?

Merci d'avance pour toutes les réponses !

A très bientôt.
 
WRInaute accro
Les pages seront certainement nettement plus différentes. Néanmoins le contenu textuel n'est pas très important, donc il y a de fortes chances qu'elles ne soient pas toutes indexées. D'où la recommandation de "plus travailler" ; écrire plus, plus structuré (titres, etc)
 
WRInaute accro
Personnellement malgré 3/4 minutes sur le site je n'ai trouvé aucune page a visiter (si on met de côté la page contact et l'accueil) Google bot doit être aussi bête que moi 8O
Même avec une commande site je ne trouve pas un truc qui ressemble au 4000 pages dont tu parle.

Il y a des liens qque part sur tes pages ?
 
Nouveau WRInaute
Zeb> si tu cliques sur "Access the NanoTechMap" tu vas accéder à une carte avec ~4000 points, chaque point étant relié à une URL. Elles sont toutes là ;)

Marie-Aude > que puis-je faire au niveau du code HTML pour différencier au maximum chacune de ces pages ? (grosso modo, la plupart du temps je n'ai que le nom de la boite, ses keywords et parfois sa description qui changent). Le title inclue déjà le nom de la boite donc change à chaque fois. Je dois insérer les keywords dans les balises "description" ou "meta" par exemple, c'est ça ?

Merci encore pour votre aide très précieuse !

A+
 
Nouveau WRInaute
Plus précisément, pour les ~4000 URL. Si vous êtes en navigation sur la carte, alors chaque clic appellera une URL correspondant au point cliqué.

Par contre, si vous n'êtes pas en navigation sur la map, vous verrez s'afficher une page profil public (voir pour essayer : www.nanothinking.com/companies/3b).

Je pense que c'est plus clair maintenant :)
 
WRInaute accro
el_boucher a dit:
Marie-Aude > que puis-je faire au niveau du code HTML pour différencier au maximum chacune de ces pages ? (grosso modo, la plupart du temps je n'ai que le nom de la boite, ses keywords et parfois sa description qui changent). Le title inclue déjà le nom de la boite donc change à chaque fois. Je dois insérer les keywords dans les balises "description" ou "meta" par exemple, c'est ça ?
Non ce n'est pas au niveau du code HTML, c'est au niveau de la rédaction. Si la description ne varie pas d'une société à l'autre, c'est du contenu dupliqué, et Google n'indexera pas tout.
On ne met pas de mots clés dans la balise description, on décrit le contenu de la apge en 170 caractères, et la meta keywords ne sert plus à rien.

je ne sais pas d'où tu tires tes données, mais j'ai testé UNE description de société (3B) qui ressort en duplicate content sur au moins trois autres sites..
 
WRInaute accro
el_boucher a dit:
Zeb> si tu cliques sur "Access the NanoTechMap" tu vas accéder à une carte avec ~4000 points, chaque point étant relié à une URL. Elles sont toutes là ;)
Oui :D c'est pas le souci fallait prendre ma remarque au second degré mais c'est vrai que je n'ai pas été très clair ...
D'une part si tu clique sur "machin" c'est un bouton pas un lien donc là t'as déjà perdu les bots mais si ils arrivent par hasard sur ta map là il n'y a aucun lien. Du moins pas les 4000 liens de tes fiches.
Bref ton site comme beaucoup de sites ajax est mal foutu pour le crawl et les robots bien qu'ils connaissent tes url via le sitemap qui les fournis ne peuvent pas visiter ton site en mode "normal".

Bref si tu combine des pages orphelines plus du contenu pauvre ton site est totalement ignoré.

que puis-je faire au niveau du code HTML pour différencier au maximum chacune de ces pages ?
par exemple sur cette page -https://www.nanothinking.com/companies/3t-textiltechnologie il faut virer tout ce qui est sous "Services" bref 80% du contenu ou autrement dit tout ce qui est déjà a l'accueil.

Car mine de rien là tu te fait en plus du DC interne de folie !
 
WRInaute accro
un conseil : va voir ton site en bloquant les sessions (donc les cookies) et en bloquant javascript pour ressembler a un bot, ou avec lynx si tu connais et là tu va te faire peur et comprendre pas mal de truc je pense.
 
WRInaute accro
il faut une bête de course pour "naviguer" sur le site. Il y a sans cesse une pop-up de firefox qui m'annonce qu'un script pompe toutes les ressources de ma bécane et me propose d'arrêter le script.
 
WRInaute accro
+1 j'ai eu le souci aussi, obligé d'ouvrir le logiciel de surveillance pour voir si j'avais encore de la RAM dispo ... mais bon a contrario j'étais en train de monter une vidéo ça pompe un peu.
 
WRInaute accro
Je suis sur un Athlon 1,5 GHz 1 Go de RAM et XP qui date d'il y a 10 ans mais le surf sur internet ne demande pas plus pour 99% des sites.
Les seuls sites où ça me fait parfois ça c'est facebook et parfois boursorama
 
WRInaute accro
Si je met de côté les ressources que j'utilisais ailleurs (un processeur a 100% plus de la RAM) je me retrouve avec le même genre de config que toi (c'est un bi CPU avec 2 Go de Ram sous linux)
Je rencontre aussi ce genre de souci (firefox) quand je me trouve sur des pages avec beaucoup de photos sur G+ (page communautaires ou la mienne qui est du même style).
C'est pas con d'en faire la remarque car ça peut inciter a faire un site plus "léger" car ça impacte pas mal le retour d'expérience utilisateur. Dans cet esprit le chargement de la map est très lent chez moi.
 
Nouveau WRInaute
Salut à tous !

Merci pour toutes ces remarques et retours ! :) On a déjà fait pas mal de tests sur pas mal de bécanes, mais les véritables retours utilisateurs sont les plus importants !

Plusieurs choses donc :

- Je vais essayer de différencier au maximum toutes les pages du style .../companies/xxx en supprimant la partie qui est commune à chaque page et en ne gardant que la partie qui est modifiée à chaque fois.

- J'ai suivi le conseil de zeb et essayé de supprimer les cookies et/ou javascript dans Firefox et effectivement, dans tous les cas je n'arrive pas à accéder à la map. Par contre, j'ai bien accès directement aux pages .../companies/xxx.

- C'est bien noté pour tous vos problèmes d'affichage/manque de ressources RAM/CPU. Avez-vous des suggestions pour que je puisse remédier à cela en maximisant le ratio [amélioration]/[modifications à apporter au code] ?

Merci encore pour vos conseils précieux et avisés ! C'est top.

A+
 
WRInaute accro
el_boucher a dit:
Avez-vous des suggestions pour que je puisse remédier à cela en maximisant le ratio [amélioration]/[modifications à apporter au code] ?

moi je dirais bien :
- abandonner ajax
- limiter au maximum le javascript

autre idée :
dupliquer systématiquement toutes les pages pour les rendre accessibles en html pur. Quand je dis dupliquer ça ne veut pas dire le contenu. Lui, il faut bien sur qu'il soit différent.
Tu sais, c'est un peu comme les sites en flash qui présentent toujours une version html pour les gens qui ne souhaitent pas visiter le site en flash. Chaque photo, chaque illustration, est accessible soit par la version animée, soit par la version normale (avec une url différente).
 
Discussions similaires
Haut