comment générer un sitemap de plus de 108 millions de pages


johnny-57
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 313
Inscription: 20 Avr 2007

comment générer un sitemap de plus de 108 millions de pages

Message le Mar Avr 08, 2008 22:31

Bon voilà mon problème,

Je doit générer un sitemap pour un total de plus de 108 millions de pages, oui toutes du même site ;)

On sait que google n'accepte que 50000 liens par sitemap, donc ça me fait plus de 2000 fichier sitemap à générer.

Mais mon problème c'est de savoir, comment le générer !?

Je vais pas mettre un logiciel à crawler tout ça, ça prendra des jours, en plus scinder les résultats par lots de 50000 ça va être la galère :cry:

Générer les sitemaps par un script php me parait également très lourd.

Vous auriez une solution ? parceque là je sèche :oops:


UsagiYojimbo
WRInaute accro
WRInaute accro
 
Messages: 8575
Inscription: 23 Nov 2005

Message le Mar Avr 08, 2008 22:51

Perso je soumettrais dynamiquement à Google un index de sitemap en php qui se chargerait de me générer des fichiers sitemap à raison d'un seuil de 50 000 liens par fichier :

https://www.google.com/webmasters/tools/docs/en/protocol.html


johnny-57
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 313
Inscription: 20 Avr 2007

Message le Mar Avr 08, 2008 23:00

Ben je pense que générer par un script php autant de fichier sitemap que nécessaire est la solution la plus logique.
Un logiciel planterais vite avec un volume pareil.
Mais j'ai un peu peur de la réaction du serveur quand je vais lui demander de générer un fichier de 50000 liens tiré de la base mysql ça risque de ramer grave non ?

chtipepere
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 496
Inscription: 8 Jan 2004

Message le Mar Avr 08, 2008 23:02

Perso, j'ai installé le script en Python fournit par Google sur mon dédié, et la génération de sitemap est un vrai plaisir car totalement automatisé :)
Il gère les indexs de sitemap, compresse les fichiers, ne mets que 50.000 liens par page, et se base sur les logs Apache pour connaître les pages à indexer et leur donne une importance selon la fréquence à laquelle elle sont appelées.
Un petit fichier XML, une petite tâche CRON, et zou, je m'en occupe plus.
Lorsque j'ai des alertes dans GWT quant à des erreurs dans mon sitemap, je sais que ça vient d'un problème sur le site, ça aussi c'est pratique.


johnny-57
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 313
Inscription: 20 Avr 2007

Message le Mar Avr 08, 2008 23:11

Mais si il se base sur les log apache pour générer le sitemap, il faudrait donc quand même lancer un logiciel genre xenu afin qu'il crawl toutes les pages pour qu'elles soient dans les logs apache et donc prise en compte par le script pour la génération du sitemap.
Et reste encore le problème de la charge serveur, quand le cron va commencer à générer plus de 2000 fichiers sitemap de 50000 liens chacun ça risque pas de faire souffrir le serveur ?

tonguide
WRInaute passionné
WRInaute passionné
 
Messages: 1406
Inscription: 28 Nov 2003

Message le Mer Avr 09, 2008 1:09

Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.

Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).

Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question ;))


Hoho
WRInaute impliqué
WRInaute impliqué
 
Messages: 515
Inscription: 10 Jan 2006

Message le Mer Avr 09, 2008 2:44

108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay...


johnny-57
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 313
Inscription: 20 Avr 2007

Message le Mer Avr 09, 2008 6:17

108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay...


En fait ça n'existe pas encore les 108 millions de pages mais ça va arriver d'ici à une dizaine de jour maximum. Le site fait actuellement prés de 400.000 pages et passera en une fois à 108 millions supplémentaires. Je me demande même quelle sera l'impact sur le référencement d'autant de page, est ce que google référencera mieux un site qui a plusieurs millions de page plutôt qu'un site qui n'en ai que quelques centaines de milliers, faudra que j'essaie de contrôler ça tien.

En fait, même si je peu pas trop en parler, le concept est simple.

Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
Le calcul est vite fait : 3000 X 36000 communes = 108.000.000 de pages.
Une prévision d'ajout de 60 à 100 nouveau sujet par ville en moyenne et par mois et dors et déjà planifiée ce qui implique 2.160.000 à 3.600.000 nouvelles pages chaque mois.
Vous comprendrez qu'à ce rythme je n'ai aucune envie de le faire en manuel.

Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.

Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).

Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question Wink)


8O

Générer un fichier de 50000 liens à la volé :?:

Piouf ça me parrait supra hard, de quoi planter le serveur, le temps de génération de la page risque d'être trop long.
En fait je pensais plutôt utiliser un script php qui me génère le fichier sitemap en tant que fichier texte, donc une fois pour toute une peu comme le suggère chtipepere.
Je me demande même si sa solution ne sera pas la plus simple, il faudra que je bloque une machine le temps nécessaire pour crawler toutes les pages avec xenu par exemple, histoire que les logs apache reprennent toutes les pages nécessaire à chaque mise à jours.

chtipepere
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 496
Inscription: 8 Jan 2004

Message le Mer Avr 09, 2008 8:12

Au vu du nombre de pages que tu as et celui que tu vas avoir, je pense sincèrement que le script de Google pourrait te convenir.
Effectivement, toutes les pages ne seront pas présentent d'un coup dans le sitemap, et en parallèle, Google n'aura pas crawlé toutes tes nouvelles pages en une journée. Les pages s'indexeront doucement dans le temps, ce qui je pense est pas plus mal pour ton référencement.
Car si tes pages possèdent un lien vers ta page d'accueil, ou pire, un petit groupe de liens optimisés pour les grandes villes de France, les pages que tu link vont se retrouver du jour au lendemain avec des centaines de millions de nouveaux liens, et à mon avis, ça va pas être super bien vu de la part de Google.
Et toujours avec le script, tu verras la montée en charge de la génération des sitemaps, ce qui te donnera le temps de chercher/trouver une autre solution si besoin est.

Edit : ah oui, et si tu dupliques tes pages existantes pour toutes les communes françaises, gare au duplicate content, car bien que le nom de la ville change, le contenu ne changera pas, et tes pages seront trop ressemblantes, et zou, déclassement, ou alors dans le bac à sable voire un blacklist... (je dis ça parce que j'ai essayé, et ça a pas plus...).


cedric_g
WRInaute accro
WRInaute accro
 
Messages: 3552
Inscription: 18 Jan 2006

Message le Mer Avr 09, 2008 8:20

Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France :twisted: :roll:

Genre "bowling chauffour les bailly" (mon village, où il n'y a même pas une boulangerie... en fait y'a rien)



Bref, le genre de site que j'adore :x


Je me trompe peut-être mais 3000 activités dans mon bled (où y'a que 110 habitants et autant de vaches, et aucun commerce) ça me fait doucement sourire.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 19592
Inscription: 8 Aoû 2004

Message le Mer Avr 09, 2008 8:36

johnny-57 a écrit:Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
En clair, tu prends du contenu de wikipedia (pour expliquer ce qu'est un boucher, puis tu reproduis ce même contenu pour chacune des villes de France. :evil:
c'est du mega MFA et gg améliore ses filtres pour les virer des 100 premières pages des SERP
cedric_g a écrit:Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France :twisted: :roll:
+100


johnny-57
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 313
Inscription: 20 Avr 2007

Message le Mer Avr 09, 2008 8:52

Oula on s'énerve pas lol, aucune copie de contenue existant, uniquement une amélioration du service existant en le personnalisant à chaque commune en fonction des disponibilités déclarés par les adhérents.
Donc aucune chance de se retrouver avec un sujet traiter sur la page de la ville qui n'est pas ensuite offert réellement au visiteur.
Biensurs la couverture des services évolue en plus ou en moins d'ou une variation dans les pages et que je ne veux pas gérer en manuel parce que trop de travail de suivi.

Juste un mot en passant pour Leonick :

Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?

Qui a dit que le site allait pomper des infos sur d'autres site pour les intégrer a ses pages ?

Tout le contenue sera original et créé par et pour le site.
Biensurs le contenue ne sera pas innovant, on ne va pas inventer le moteur à hyper propulsion et le présenter sur ses pages, mais on va présenté des services, utiles à tous en les intégrant à une page VILLE suivant les déclarations de compétences géographique faites par les adhérents.

Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.


Suede
WRInaute accro
WRInaute accro
 
Messages: 3722
Inscription: 4 Oct 2002

Message le Mer Avr 09, 2008 9:29

Bonjour
Tu generes un sitemap initial. Tu le fais en statique en le divisant (un site map qui lie à d'autres sitemaps).
Ensuite, tu generes un sitemap en fonction des nouvelles entrées.
Tu devrais pouvoir repérer quels sont les nouvelles pages crées depuis la création du dernier sitemap?


e-kiwi
Modérateur
Modérateur
 
Messages: 15617
Inscription: 23 Déc 2003

Message le Mer Avr 09, 2008 9:38

108 millions de pages ? aucun sens de faire un sitemap car jamais google t'indexera 108.000.000 de pages. tu dois te concentrer sur les 100enes de milliers maximum qu'il t'indexera (ou plus si tu bénéficie d'un PR8-9-10?) et ne pas soumettre des 108.000.000 d'url qui ne le seront pas et risque même de te faire perdre du potentiel sur tes pages principales


Leonick
WRInaute accro
WRInaute accro
 
Messages: 19592
Inscription: 8 Aoû 2004

Message le Mer Avr 09, 2008 10:10

johnny-57 a écrit:Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?
Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.
en fait, gg procédera de la même façon : un site qui envoie, ne serait-ce qu'un sitemap de plusieurs centaines de milliers de pages, comme ça, d'un coup, ça va allumer un clignotant chez eux. Et, même si le contenu ne provient d'aucun autre site, mais retrouver la définition du métier de boulanger pour chaque ville de France, ça fait carrément duplicate content.
Ne pas oublier que ça a été (et ça continue encore) la méthode de prédilection de spam index d'un certain nombre de webagency pour propulser le site d'un serrurier, d'un électricien, ... sur toutes les villes d'une région.
Et en tant qu'internaute, si je cherche les coordonnées d'un garagiste, je n'ai pas envie de tomber sur un site qui m'indique que "le garagiste est un professionnel qui a comme tâche de réparer mon automobile", etc...

comment générer un sitemap de plus de 108 millions de pages

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités