Problème d'indexation d'un site référençant des cartes à collectionner

Nouveau WRInaute
Bonjour,

Il y a plus d'un an, j'ai mis en ligne le site http://www.mtgaddict.net. J'ai pas mal travaillé sur le code HTML et le contenu avant d'ajouter le site sur Google en fin d'année 2008 :
- toutes les pages sont accessibles en trois clics maximum
- XHTML valide
- URLs avec des noms pertinents : pas de paramètres ni de "_"
- tous les liens ont des info-bulles
- etc...

Pour informations (je fais un parallèle avec un site ecommerce pour mieux cerner l'organisation du site) :
- niveau 0 : page d'accueil
- niveau 1 : page de la base de données des cartes (ie. catalogue)
- niveau 2 : page de détail d'une extension (ie. catégorie)
- niveau 3 : page de détail d'une carte (ie. produit)

Au bout d'un mois, toutes les pages de niveau 2 étaient indexées mais aucunes pages de niveau 3 n'apparaissaient dans l'index de Google. Comme tous les liens vers les pages de niveau 3 sont accessibles seulement sur les pages de niveau 2 qui elles-mêmes contiennent plusieurs centaines de liens, je me suis dit que le problème venait de là.

Comme les pages de niveau 3 ont des liens entre elles, j'ai alors ajouté sur la page d'accueil un lien vers une page de niveau 3 aléatoire pour voir http://www.mtgaddict.net/random une carte au hasard. Cependant, cela n'a pas amélioré l'indexation du site.

J'ai donc décidé de créer un fichier http://www.mtgaddict.net/sitemap.xml contenant les plus de 28000 URLs du site. Google a alors commencé à indexer les pages de niveau 3. Cependant, ce processus est très lent. Il indexe en moyenne 20 pages par jour. Pourtant depuis le 8 janvier, seulement 460 URL indexées dans le sitemap. Et lorsque je consulte l'index Google, je ne trouve que 142 pages. A un moment, c'était monté à plus de 300 mais ce n'est rien comparé au 28000 pages du site !

Voici les statistiques sur l'exploration de Google Webmaster Tools :
Nombre de pages explorées par jour
Maximum 91
Moyen 21
Minimum 1
Nombre de kilo-octets téléchargés par jour
Maximum 7 472
Moyen 1 069
Minimum 2
Temps de téléchargement d'une page (en millisecondes)
Maximum 45 871
Moyen 2 689
Minimum 887

Je pense que mon site a un problème mais lequel ? Quelqu'un aurait-il une idée ?
Merci votre aide ou vos conseils !
 
WRInaute accro
Alors en vrac :

1. Les PHPSESSID dans les url, c'est à supprimer (suffit de mettre la bonne ligne dans le .htaccess)

2. Le site est très long à s'afficher... (autant en cliquant sur le lien base de données des cartes qu'en faisant une recherche -basilic par exemple -recherche effectuée d'après mes mémoires d'ado joueur à MTG qui appréciait le basilic des halliers)

3. Duplicate content massif : tes fiches de cartes ne font que reprendre le contenu des cartes, ce que font déjà une belle pelletée de sites : https://www.google.fr/search?q=Exaltation+(%C3%80+chaque+fois+qu%27une+ ... in+du+tour.)&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:fr-FR:eek:fficial&client=firefox-a

Et autre conseil (sans rapport direct avec le ref mais qui peut t'aider à gagner voire conserver des visiteurs) : à quand une charte graphique ?
 
Nouveau WRInaute
UsagiYojimbo a dit:
1. Les PHPSESSID dans les url, c'est à supprimer (suffit de mettre la bonne ligne dans le .htaccess)
Il n'y a des PHPSESSID dans l'URL que si le visiteur refuse les cookies. J'ai mis aussi une règle pour les robots (qui refusent les cookies) pour qu'ils n'aient pas de PHPSESSID n'ont plus.

UsagiYojimbo a dit:
2. Le site est très long à s'afficher... (autant en cliquant sur le lien base de données des cartes qu'en faisant une recherche -basilic par exemple -recherche effectuée d'après mes mémoires d'ado joueur à MTG qui appréciait le basilic des halliers)
Ok, je vais essayer de travailler sur cette piste. Comme le site est basé sur Smarty, je sais que je peux activer le cache. Pour la recherche, je sais regarder du côté de la base de données si je peux faire quelques optimisations en mettant des indexes aux bons endroits. Quels sont les temps d'affichage acceptable pour une page ?

UsagiYojimbo a dit:
3. Duplicate content massif : tes fiches de cartes ne font que reprendre le contenu des cartes, ce que font déjà une belle pelletée de sites : https://www.google.fr/search?q=Exaltation+(%C3%80+chaque+fois+qu%27une+ ... in+du+tour.)&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:fr-FR:eek:fficial&client=firefox-a
Oui, il y a de nombreux sites qui proposent le même contenu mais je ne les trouvent pas pratiques. Je souhaitais apporter une nouvelle façon de parcourir les listes de cartes et surtout mieux intégrer les versions anglaises et françaises des cartes.

UsagiYojimbo a dit:
Et autre conseil (sans rapport direct avec le ref mais qui peut t'aider à gagner voire conserver des visiteurs) : à quand une charte graphique ?
Je voulais une interface dépouillée et minimaliste. Je sais, c'est un peu trop là. ;) Il faut que je trouve un web designer qui puisse m'aider sur ce point. :)

En tout cas merci pour tes conseils !
 
WRInaute accro
1. Je peux t'assurer que le lien en haut à gauche contient des id de sessions même avec les cookies activés

2. Il y a pas franchement de règle en la matière. Perso j'essaie que mes pages soient accessible en-dessous de 2s.

3. Si je te dis que de nombreux sites utilisent exactement le même contenu, c'est surtout que tu tombes direct dans le duplicate content, donc que tes pages ont très peu de chance de bien ressortir. Il faut du contenu qui te soit propre (quitte à ajouter un commentaire perso sur les cartes)

4. Ouais enfin là dépouillé... je dirais plus qu'il n'y a aucune charte
 
Nouveau WRInaute
UsagiYojimbo a dit:
1. Je peux t'assurer que le lien en haut à gauche contient des id de sessions même avec les cookies activés
Je suis toujours sous FF3. Je viens de tester avec IE6 et j'ai aussi les PHPSESSID. :( Je vais essayer de corriger ça mais je ne pense pas que le problème d'indexation vienne de là puisque quand le visiteur est un robot, je ne crée pas de session (car au début Google avait indexé mes pages avec le PHPSESSID et ce n'est plus le cas).

UsagiYojimbo a dit:
2. Il y a pas franchement de règle en la matière. Perso j'essaie que mes pages soient accessible en-dessous de 2s.
C'est le temps de téléchargement de la page ou le temps d'affichage ? Car les temps de téléchargement des pages sont de l'ordre de la seconde. Par contre, l'affichage est plus long lors de la première visite à cause des fichiers Javascript à télécharger. Enfin, ça ne fera pas de mal si j'optimise tout ça. :wink:

UsagiYojimbo a dit:
3. Si je te dis que de nombreux sites utilisent exactement le même contenu, c'est surtout que tu tombes direct dans le duplicate content, donc que tes pages ont très peu de chance de bien ressortir. Il faut du contenu qui te soit propre (quitte à ajouter un commentaire perso sur les cartes)
Je pensais que le duplicate content influait seulement sur le positionnement et pas sur l'indexation...

UsagiYojimbo a dit:
4. Ouais enfin là dépouillé... je dirais plus qu'il n'y a aucune charte
Oui, je sais. :mrgreen:
 
WRInaute accro
z3r0 a dit:
UsagiYojimbo a dit:
3. Si je te dis que de nombreux sites utilisent exactement le même contenu, c'est surtout que tu tombes direct dans le duplicate content, donc que tes pages ont très peu de chance de bien ressortir. Il faut du contenu qui te soit propre (quitte à ajouter un commentaire perso sur les cartes)
Je pensais que le duplicate content influait seulement sur le positionnement et pas sur l'indexation...

C'est bien ce que je dis. Tes pages vont très mal se positionner dans le sens où il y a déjà plein de pages sur le net avec le même contenu.
 
Nouveau WRInaute
UsagiYojimbo a dit:
C'est bien ce que je dis. Tes pages vont très mal se positionner dans le sens où il y a déjà plein de pages sur le net avec le même contenu.
On est d'accord alors. :) Le problème du positionnement va venir mais aujourd'hui c'est surtout l'indexation qui m'ennuie. :(
 
Nouveau WRInaute
J'ai corrigé le problème des PHPSESSID (ça se produisait avec IE lors de la première page consultée).

J'ai optimisé le temps de chargement des pages en ajoutant un cache des pages HTML et en suivant les conseils de YSlow. Pour ceux que ça intéresse, j'ai fait un petit compte-rendu des optimisations faites grâce à YSlow (demandez et je mettrai le lien).

Les temps de chargement et d'affichage se sont réduits. Je vais attendre un peu et voir si Google indexe mieux mon site.
 
Discussions similaires
Haut