comment générer un sitemap de plus de 108 millions de pages
28 messages
• Page 1 sur 2 • 1, 2
-

johnny-57 - WRInaute occasionnel

- Messages: 313
- Inscription: 20 Avr 2007
comment générer un sitemap de plus de 108 millions de pages
Bon voilà mon problème,
Je doit générer un sitemap pour un total de plus de 108 millions de pages, oui toutes du même site
On sait que google n'accepte que 50000 liens par sitemap, donc ça me fait plus de 2000 fichier sitemap à générer.
Mais mon problème c'est de savoir, comment le générer !?
Je vais pas mettre un logiciel à crawler tout ça, ça prendra des jours, en plus scinder les résultats par lots de 50000 ça va être la galère
Générer les sitemaps par un script php me parait également très lourd.
Vous auriez une solution ? parceque là je sèche
Je doit générer un sitemap pour un total de plus de 108 millions de pages, oui toutes du même site
On sait que google n'accepte que 50000 liens par sitemap, donc ça me fait plus de 2000 fichier sitemap à générer.
Mais mon problème c'est de savoir, comment le générer !?
Je vais pas mettre un logiciel à crawler tout ça, ça prendra des jours, en plus scinder les résultats par lots de 50000 ça va être la galère
Générer les sitemaps par un script php me parait également très lourd.
Vous auriez une solution ? parceque là je sèche
-

UsagiYojimbo - WRInaute accro

- Messages: 8575
- Inscription: 23 Nov 2005
Perso je soumettrais dynamiquement à Google un index de sitemap en php qui se chargerait de me générer des fichiers sitemap à raison d'un seuil de 50 000 liens par fichier :
https://www.google.com/webmasters/tools/docs/en/protocol.html
https://www.google.com/webmasters/tools/docs/en/protocol.html
-

johnny-57 - WRInaute occasionnel

- Messages: 313
- Inscription: 20 Avr 2007
Ben je pense que générer par un script php autant de fichier sitemap que nécessaire est la solution la plus logique.
Un logiciel planterais vite avec un volume pareil.
Mais j'ai un peu peur de la réaction du serveur quand je vais lui demander de générer un fichier de 50000 liens tiré de la base mysql ça risque de ramer grave non ?
Un logiciel planterais vite avec un volume pareil.
Mais j'ai un peu peur de la réaction du serveur quand je vais lui demander de générer un fichier de 50000 liens tiré de la base mysql ça risque de ramer grave non ?
- chtipepere
- WRInaute occasionnel

- Messages: 496
- Inscription: 8 Jan 2004
Perso, j'ai installé le script en Python fournit par Google sur mon dédié, et la génération de sitemap est un vrai plaisir car totalement automatisé
Il gère les indexs de sitemap, compresse les fichiers, ne mets que 50.000 liens par page, et se base sur les logs Apache pour connaître les pages à indexer et leur donne une importance selon la fréquence à laquelle elle sont appelées.
Un petit fichier XML, une petite tâche CRON, et zou, je m'en occupe plus.
Lorsque j'ai des alertes dans GWT quant à des erreurs dans mon sitemap, je sais que ça vient d'un problème sur le site, ça aussi c'est pratique.
Il gère les indexs de sitemap, compresse les fichiers, ne mets que 50.000 liens par page, et se base sur les logs Apache pour connaître les pages à indexer et leur donne une importance selon la fréquence à laquelle elle sont appelées.
Un petit fichier XML, une petite tâche CRON, et zou, je m'en occupe plus.
Lorsque j'ai des alertes dans GWT quant à des erreurs dans mon sitemap, je sais que ça vient d'un problème sur le site, ça aussi c'est pratique.
-

johnny-57 - WRInaute occasionnel

- Messages: 313
- Inscription: 20 Avr 2007
Mais si il se base sur les log apache pour générer le sitemap, il faudrait donc quand même lancer un logiciel genre xenu afin qu'il crawl toutes les pages pour qu'elles soient dans les logs apache et donc prise en compte par le script pour la génération du sitemap.
Et reste encore le problème de la charge serveur, quand le cron va commencer à générer plus de 2000 fichiers sitemap de 50000 liens chacun ça risque pas de faire souffrir le serveur ?
Et reste encore le problème de la charge serveur, quand le cron va commencer à générer plus de 2000 fichiers sitemap de 50000 liens chacun ça risque pas de faire souffrir le serveur ?
- tonguide
- WRInaute passionné

- Messages: 1406
- Inscription: 28 Nov 2003
Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.
Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).
Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question
)
Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).
Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question
-

johnny-57 - WRInaute occasionnel

- Messages: 313
- Inscription: 20 Avr 2007
108 ... millions. Çà existe ? A moins que tu t'occupes de Wikipedia...ou de EBay...
En fait ça n'existe pas encore les 108 millions de pages mais ça va arriver d'ici à une dizaine de jour maximum. Le site fait actuellement prés de 400.000 pages et passera en une fois à 108 millions supplémentaires. Je me demande même quelle sera l'impact sur le référencement d'autant de page, est ce que google référencera mieux un site qui a plusieurs millions de page plutôt qu'un site qui n'en ai que quelques centaines de milliers, faudra que j'essaie de contrôler ça tien.
En fait, même si je peu pas trop en parler, le concept est simple.
Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
Le calcul est vite fait : 3000 X 36000 communes = 108.000.000 de pages.
Une prévision d'ajout de 60 à 100 nouveau sujet par ville en moyenne et par mois et dors et déjà planifiée ce qui implique 2.160.000 à 3.600.000 nouvelles pages chaque mois.
Vous comprendrez qu'à ce rythme je n'ai aucune envie de le faire en manuel.
Quoiqu'il arrive, il va bien falloir que tu les génères d'une manière ou d'une autre. Donc que ce soit d'une façon ou d'une autre, il faudra afficher 50 000 liens sur une page * 2000.
Personnellement, je ferai un truc dynamique, comme si c'était ton site, et ça l'affiche quand google vient dessus (à la limite tu le mets en cache au premier passage).
Sinon, tu pourrais peut-être trier tes pages, dans 108 millions, il doit y avoir un paquet de déchet (en espérant que ce ne soit pas la majorité, mais tel n'est pas la question Wink)
Générer un fichier de 50000 liens à la volé
Piouf ça me parrait supra hard, de quoi planter le serveur, le temps de génération de la page risque d'être trop long.
En fait je pensais plutôt utiliser un script php qui me génère le fichier sitemap en tant que fichier texte, donc une fois pour toute une peu comme le suggère chtipepere.
Je me demande même si sa solution ne sera pas la plus simple, il faudra que je bloque une machine le temps nécessaire pour crawler toutes les pages avec xenu par exemple, histoire que les logs apache reprennent toutes les pages nécessaire à chaque mise à jours.
- chtipepere
- WRInaute occasionnel

- Messages: 496
- Inscription: 8 Jan 2004
Au vu du nombre de pages que tu as et celui que tu vas avoir, je pense sincèrement que le script de Google pourrait te convenir.
Effectivement, toutes les pages ne seront pas présentent d'un coup dans le sitemap, et en parallèle, Google n'aura pas crawlé toutes tes nouvelles pages en une journée. Les pages s'indexeront doucement dans le temps, ce qui je pense est pas plus mal pour ton référencement.
Car si tes pages possèdent un lien vers ta page d'accueil, ou pire, un petit groupe de liens optimisés pour les grandes villes de France, les pages que tu link vont se retrouver du jour au lendemain avec des centaines de millions de nouveaux liens, et à mon avis, ça va pas être super bien vu de la part de Google.
Et toujours avec le script, tu verras la montée en charge de la génération des sitemaps, ce qui te donnera le temps de chercher/trouver une autre solution si besoin est.
Edit : ah oui, et si tu dupliques tes pages existantes pour toutes les communes françaises, gare au duplicate content, car bien que le nom de la ville change, le contenu ne changera pas, et tes pages seront trop ressemblantes, et zou, déclassement, ou alors dans le bac à sable voire un blacklist... (je dis ça parce que j'ai essayé, et ça a pas plus...).
Effectivement, toutes les pages ne seront pas présentent d'un coup dans le sitemap, et en parallèle, Google n'aura pas crawlé toutes tes nouvelles pages en une journée. Les pages s'indexeront doucement dans le temps, ce qui je pense est pas plus mal pour ton référencement.
Car si tes pages possèdent un lien vers ta page d'accueil, ou pire, un petit groupe de liens optimisés pour les grandes villes de France, les pages que tu link vont se retrouver du jour au lendemain avec des centaines de millions de nouveaux liens, et à mon avis, ça va pas être super bien vu de la part de Google.
Et toujours avec le script, tu verras la montée en charge de la génération des sitemaps, ce qui te donnera le temps de chercher/trouver une autre solution si besoin est.
Edit : ah oui, et si tu dupliques tes pages existantes pour toutes les communes françaises, gare au duplicate content, car bien que le nom de la ville change, le contenu ne changera pas, et tes pages seront trop ressemblantes, et zou, déclassement, ou alors dans le bac à sable voire un blacklist... (je dis ça parce que j'ai essayé, et ça a pas plus...).
-

cedric_g - WRInaute accro

- Messages: 3552
- Inscription: 18 Jan 2006
Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France
Genre "bowling chauffour les bailly" (mon village, où il n'y a même pas une boulangerie... en fait y'a rien)
Bref, le genre de site que j'adore
Je me trompe peut-être mais 3000 activités dans mon bled (où y'a que 110 habitants et autant de vaches, et aucun commerce) ça me fait doucement sourire.
Genre "bowling chauffour les bailly" (mon village, où il n'y a même pas une boulangerie... en fait y'a rien)
Bref, le genre de site que j'adore
Je me trompe peut-être mais 3000 activités dans mon bled (où y'a que 110 habitants et autant de vaches, et aucun commerce) ça me fait doucement sourire.
-

Leonick - WRInaute accro

- Messages: 19592
- Inscription: 8 Aoû 2004
En clair, tu prends du contenu de wikipedia (pour expliquer ce qu'est un boucher, puis tu reproduis ce même contenu pour chacune des villes de France.johnny-57 a écrit:Un site qui propose un peu plus de 3000 sujets différentes fait une page de présentation personnalisé pour chaque activité pour chaque ville de France.
c'est du mega MFA et gg améliore ses filtres pour les virer des 100 premières pages des SERP
+100cedric_g a écrit:Le genre de site qui se place avec très (trop) souvent de l'absence de contenu sur des thématiques, pour toutes les communes de France![]()
-

johnny-57 - WRInaute occasionnel

- Messages: 313
- Inscription: 20 Avr 2007
Oula on s'énerve pas lol, aucune copie de contenue existant, uniquement une amélioration du service existant en le personnalisant à chaque commune en fonction des disponibilités déclarés par les adhérents.
Donc aucune chance de se retrouver avec un sujet traiter sur la page de la ville qui n'est pas ensuite offert réellement au visiteur.
Biensurs la couverture des services évolue en plus ou en moins d'ou une variation dans les pages et que je ne veux pas gérer en manuel parce que trop de travail de suivi.
Juste un mot en passant pour Leonick :
Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?
Qui a dit que le site allait pomper des infos sur d'autres site pour les intégrer a ses pages ?
Tout le contenue sera original et créé par et pour le site.
Biensurs le contenue ne sera pas innovant, on ne va pas inventer le moteur à hyper propulsion et le présenter sur ses pages, mais on va présenté des services, utiles à tous en les intégrant à une page VILLE suivant les déclarations de compétences géographique faites par les adhérents.
Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.
Donc aucune chance de se retrouver avec un sujet traiter sur la page de la ville qui n'est pas ensuite offert réellement au visiteur.
Biensurs la couverture des services évolue en plus ou en moins d'ou une variation dans les pages et que je ne veux pas gérer en manuel parce que trop de travail de suivi.
Juste un mot en passant pour Leonick :
Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?
Qui a dit que le site allait pomper des infos sur d'autres site pour les intégrer a ses pages ?
Tout le contenue sera original et créé par et pour le site.
Biensurs le contenue ne sera pas innovant, on ne va pas inventer le moteur à hyper propulsion et le présenter sur ses pages, mais on va présenté des services, utiles à tous en les intégrant à une page VILLE suivant les déclarations de compétences géographique faites par les adhérents.
Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.
-

Suede - WRInaute accro

- Messages: 3722
- Inscription: 4 Oct 2002
Bonjour
Tu generes un sitemap initial. Tu le fais en statique en le divisant (un site map qui lie à d'autres sitemaps).
Ensuite, tu generes un sitemap en fonction des nouvelles entrées.
Tu devrais pouvoir repérer quels sont les nouvelles pages crées depuis la création du dernier sitemap?
Tu generes un sitemap initial. Tu le fais en statique en le divisant (un site map qui lie à d'autres sitemaps).
Ensuite, tu generes un sitemap en fonction des nouvelles entrées.
Tu devrais pouvoir repérer quels sont les nouvelles pages crées depuis la création du dernier sitemap?
-

e-kiwi - Modérateur

- Messages: 15617
- Inscription: 23 Déc 2003
108 millions de pages ? aucun sens de faire un sitemap car jamais google t'indexera 108.000.000 de pages. tu dois te concentrer sur les 100enes de milliers maximum qu'il t'indexera (ou plus si tu bénéficie d'un PR8-9-10?) et ne pas soumettre des 108.000.000 d'url qui ne le seront pas et risque même de te faire perdre du potentiel sur tes pages principales
-

Leonick - WRInaute accro

- Messages: 19592
- Inscription: 8 Aoû 2004
en fait, gg procédera de la même façon : un site qui envoie, ne serait-ce qu'un sitemap de plusieurs centaines de milliers de pages, comme ça, d'un coup, ça va allumer un clignotant chez eux. Et, même si le contenu ne provient d'aucun autre site, mais retrouver la définition du métier de boulanger pour chaque ville de France, ça fait carrément duplicate content.johnny-57 a écrit:Je te trouve super agressif, tu condamne un concept en l'accusant de choses que tu imagines pourquoi ?
Maintenant j'espère que ce post ne partira pas en HS, je ne pense pas qu'on soit là pour faire le procès de qui que ce soit mais pour parler de la possibilité de générer des sitemaps de très gros volume.
Ne pas oublier que ça a été (et ça continue encore) la méthode de prédilection de spam index d'un certain nombre de webagency pour propulser le site d'un serrurier, d'un électricien, ... sur toutes les villes d'une région.
Et en tant qu'internaute, si je cherche les coordonnées d'un garagiste, je n'ai pas envie de tomber sur un site qui m'indique que "le garagiste est un professionnel qui a comme tâche de réparer mon automobile", etc...
28 messages
• Page 1 sur 2 • 1, 2
Lectures recommandées sur ce thème :
- Générer un Sitemap Google
- Comment générer un Sitemap de 2000 Urls ?
- Generer le SiteMap en XML avec Joomap ?
- Générer un sitemap automatiquement pour un site dynamique
- Peut-on générer le fichier sitemap.xml à la volée
- aide pour générer un fichier sitemap svp
- Adresse d'un bon site pour générer sitemap?
- [Echange de lien] - Atelier 108 : Alarmes, vidéo surveillance, portails automatiques
Consultez la description détaillée des produits ou services de Google suivants : Google Sitemaps, Google AdWords API
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


