indexation de 1,5 millions de pages --sic--
29 messages • Page 1 sur 2 • 1, 2
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
indexation de 1,5 millions de pages --sic--
bonjour
comme vous êtes de bon conseils je vous demande --encore-- vos avis.
je suis un site (donc "je" c'est le site)
je contients 1,5 millions d'articles (si si 1,5 millions)... en les assemblant correctement je trouve 54 000 catégories ou mots-clefs (si si) et un autre assemblage donne 92 000 catégories... en plus le site pourra proposer les articles en plusieures langues d'ici peu!
bien sûr je propose un formulaire de recherche et affiche grace à php/mysql les résultats demandés... et donc GG n'indexe que ma page d'entrée sur le site www*monnomdedomaine*com/index.php et ne vois jamais mes résultats
donc google ne me connait pas sur les articles du site (titre contenu mot clef des articles) mais juste sur les backlink vers la page principale --sic--
j'ai pourtant un PR de 5 et suis sur la première page de GG sur une recherche du thème générale (donc avec 2-3 pages au final)
si je crée un catalogue en .html des articles (juste des informations pertinentes... titre, risque, pertinence, etc) soit 54000 listing + 92000 listing on clique sur le lien dans le listing et il affiche dans index.php mon résultats garce à un url rewriting du style /FR/AAB/xxyxyxyx/le_titre_de_l_article.html devient pour apache index.php?LNAG=FR&ART= xxyxyxyx
ça va donner 54000 + 92000 pages qui renvoient à 1,5 millions de page à indexer du jour au lendemain....
je vais pas aller directement jouer dans le bac à sable avec ça?
je peux protéger ma page principale avec un scheams du style
page principale --vers-- 1 présentation des catalogues A--vers-- 54000 catalogues --vers-- 1,5millions de pages
page principale --vers-- 1 présentation des catalogues B--vers-- 92000 catalogues --vers-- 1,5millions de pages
?
(dans l'attente de vos avis je vais déjà aller piquer le rateau et le sceau de mon gamin...)
comme vous êtes de bon conseils je vous demande --encore-- vos avis.
je suis un site (donc "je" c'est le site)
je contients 1,5 millions d'articles (si si 1,5 millions)... en les assemblant correctement je trouve 54 000 catégories ou mots-clefs (si si) et un autre assemblage donne 92 000 catégories... en plus le site pourra proposer les articles en plusieures langues d'ici peu!
bien sûr je propose un formulaire de recherche et affiche grace à php/mysql les résultats demandés... et donc GG n'indexe que ma page d'entrée sur le site www*monnomdedomaine*com/index.php et ne vois jamais mes résultats
donc google ne me connait pas sur les articles du site (titre contenu mot clef des articles) mais juste sur les backlink vers la page principale --sic--
j'ai pourtant un PR de 5 et suis sur la première page de GG sur une recherche du thème générale (donc avec 2-3 pages au final)
si je crée un catalogue en .html des articles (juste des informations pertinentes... titre, risque, pertinence, etc) soit 54000 listing + 92000 listing on clique sur le lien dans le listing et il affiche dans index.php mon résultats garce à un url rewriting du style /FR/AAB/xxyxyxyx/le_titre_de_l_article.html devient pour apache index.php?LNAG=FR&ART= xxyxyxyx
ça va donner 54000 + 92000 pages qui renvoient à 1,5 millions de page à indexer du jour au lendemain....
je vais pas aller directement jouer dans le bac à sable avec ça?
je peux protéger ma page principale avec un scheams du style
page principale --vers-- 1 présentation des catalogues A--vers-- 54000 catalogues --vers-- 1,5millions de pages
page principale --vers-- 1 présentation des catalogues B--vers-- 92000 catalogues --vers-- 1,5millions de pages
?
(dans l'attente de vos avis je vais déjà aller piquer le rateau et le sceau de mon gamin...)
-

Thierry Bugs - WRInaute accro

- Messages: 4369
- Inscription: Mer Juin 16, 2004 0:15
Avec un site énorme comme tu parles, pourquoi s'occuper de sandbox qui se passe en quelques semaines sur la vie d'un site qui doit être de plusieurs années. Fait ton biz, va doucement sur le réfé au début et on se revoit plus tard 
Sur un truc comme cela, il faut le faire stratégique.
Regarder dans tes statistiques quelles sont les articles les plus consultés.
Balancer en ligne 1000 à 5000 pages HTML tous les 3 jours en priorité sur les articles les plus consultés.
Regarder dans tes statistiques quelles sont les articles les plus consultés.
Balancer en ligne 1000 à 5000 pages HTML tous les 3 jours en priorité sur les articles les plus consultés.
bee_human a écrit:Sur un truc comme cela, il faut le faire stratégique.
Regarder dans tes statistiques quelles sont les articles les plus consultés.
Balancer en ligne 1000 à 5000 pages HTML tous les 3 jours en priorité sur les articles les plus consultés.
Liés les articles les uns aux autres via tes mots-clefs, catégorie, tags ...
Waouuu ... 3 grands WRINautes d'un coup ...
je suis flatté
c'est déjà fait... mais pour arriver sur le premier article on doit passer par un formulaire... d'ou l'idée de pages catalogues avec un minimum d'infos et sans liens croisés ('internaute les aura dans l'article)
oui c'est une idée à creuser! une forme de limitateur évolutif chronologique dans les sous script php/mysql des catalogueurs, pas compliqué à faire, juste trouver le rythme de croisière qui satisfasse l'apétit de GG...
parceque je veux pas que le site tombe en chute libre sur GG... c'est la source de revenu de ma boite ... faut bien que les rédacteurs mangent à la fin du mois ... alors si je suis "pénalisé" pendant 3 mois par GG ça va être régime sec!
c'est clair que je vous tiens au courant!
le référencement est déjà fait (et on le continue un peu tout le temps)
j'ai peut-être mal compris la notion de sandbox... peut-être n'est-ce pas pour l'augmentation soudaine de la taille du site mais seulement des backlinks
en tout cas merci à tous les trois
Suede a écrit:Liés les articles les uns aux autres via tes mots-clefs, catégorie, tags ...
c'est déjà fait... mais pour arriver sur le premier article on doit passer par un formulaire... d'ou l'idée de pages catalogues avec un minimum d'infos et sans liens croisés ('internaute les aura dans l'article)
bee_human a écrit:Balancer en ligne 1000 à 5000 pages HTML tous les 3 jours en priorité sur les articles les plus consultés.
oui c'est une idée à creuser! une forme de limitateur évolutif chronologique dans les sous script php/mysql des catalogueurs, pas compliqué à faire, juste trouver le rythme de croisière qui satisfasse l'apétit de GG...
Thierry Bugs a écrit:Avec un site énorme comme tu parles, pourquoi s'occuper de sandbox qui se passe en quelques semaines sur la vie d'un site qui doit être de plusieurs années.
parceque je veux pas que le site tombe en chute libre sur GG... c'est la source de revenu de ma boite ... faut bien que les rédacteurs mangent à la fin du mois ... alors si je suis "pénalisé" pendant 3 mois par GG ça va être régime sec!
Thierry Bugs a écrit: Fait ton biz, va doucement sur le réfé au début et on se revoit plus tard
c'est clair que je vous tiens au courant!
le référencement est déjà fait (et on le continue un peu tout le temps)
j'ai peut-être mal compris la notion de sandbox... peut-être n'est-ce pas pour l'augmentation soudaine de la taille du site mais seulement des backlinks
en tout cas merci à tous les trois
Thierry Bugs a écrit:Avec un site énorme comme tu parles, pourquoi s'occuper de sandbox qui se passe en quelques semaines sur la vie d'un site qui doit être de plusieurs années. Fait ton biz, va doucement sur le réfé au début et on se revoit plus tard
tiens, est-ce que ça veut dire que plus un site a du contenu (nb de pages) plus la durée de sandbox est courte?
jfcontart a écrit:Thierry Bugs a écrit:Avec un site énorme comme tu parles, pourquoi s'occuper de sandbox qui se passe en quelques semaines sur la vie d'un site qui doit être de plusieurs années.
parceque je veux pas que le site tombe en chute libre sur GG... c'est la source de revenu de ma boite ... faut bien que les rédacteurs mangent à la fin du mois ... alors si je suis "pénalisé" pendant 3 mois par GG ça va être régime sec!
J'ai pas bien compris : tu parviens à payer des rédacteurs en n'ayant que ta home page indexée dans Google ???
Que retourne le commande site:DOMAINE_DE_TON_SITE sur Google ?
la commande site:NDD retourne 5 pages actuelles et des centaines de pages mal indéxées de sa part(GG ajoute des données de session) visiblment le cookie_only de PHP et GG sont pas des grands pôtes.
edit
quoiqu' à la reflexion c'est peut-être aussi des gens qui copient collent l'url des résultats obtenus dans leur page... résultats GG suit ces lien avec l'indicateur de session du site référent (donc il s'invalide chez moi mais GG le mémorise comme élément de l'url) et affiche un résultat...
edit
quoiqu' à la reflexion c'est peut-être aussi des gens qui copient collent l'url des résultats obtenus dans leur page... résultats GG suit ces lien avec l'indicateur de session du site référent (donc il s'invalide chez moi mais GG le mémorise comme élément de l'url) et affiche un résultat...
Dernière édition par jfcontart le Mer Sep 26, 2007 14:25, édité 1 fois.
Si tu veux indexer toutes tes pages il te faudra avoir soit une trés forte popularité, soit un contenu trés peu similaire (en particulier pour les meta title) sur ton million de page, ce qui ne va pas être évident à réussir.
Evite d'avoir plus de 100 liens sur chacune de tes pages (en particulier pour le plan du site).
Evite les page ne possedant qu'un listing de lien sans contenu.
Fait un sitemap xml et renseigne le dans ton robots.txt.
Evite d'avoir plus de 100 liens sur chacune de tes pages (en particulier pour le plan du site).
Evite les page ne possedant qu'un listing de lien sans contenu.
Fait un sitemap xml et renseigne le dans ton robots.txt.
Juste une idée comme ça (dites-moi si je me goure) :
Si toutes les pages sont liées entre-elles par ce système de tag, il ne suffirait pas de donner l'adresse à google d'une de ces pages (ou des quelques unes, les meilleures par exemple) ? Il l'indexerait, puis partirait à la recherche des quelques suivantes, mais ne les indexerait que petit à petit. Ca se passerait probablement mieux que de donner plusieurs centaines de milliers de liens d'un coup.
Si toutes les pages sont liées entre-elles par ce système de tag, il ne suffirait pas de donner l'adresse à google d'une de ces pages (ou des quelques unes, les meilleures par exemple) ? Il l'indexerait, puis partirait à la recherche des quelques suivantes, mais ne les indexerait que petit à petit. Ca se passerait probablement mieux que de donner plusieurs centaines de milliers de liens d'un coup.
cloacking a écrit:Peux t-on voir un site avec 1.5 million d'articles mis à part wikipédia ?
bien sûr
wikipedia c'est une encyclopédie...
les pages jaunes en ont bien plus ...
ne focalisez pas sur les termes article&catalogue... c'est juste une dénomination pratique pour illustrer.
j'aurais pu écrire ... événement d'un jour donné et 2000 calendriers de 365 jours.... (soit ici 2000*365 = 0,7 millions de données)
si je référence de mon coté toutes les caratèristiques d'insectes pour leur classification, ou toutes les molécules brévetées, ou que je donne un nom à chaque flocon de neige avec sa date de naissance et sa date de fonte(tiens là j'ai l'idée du site le plus stupide du millénaire)... l'information n'a pas besoin de faire 10 pages pour être pertinente
je reste assez vague sur le sujet... d'abord parceque je respecte les consignes du forum de ne pas parler de mon site ni de lui faire de pub ici (ce que je trouve bien
r23o a écrit:Evite les pages ne possédant qu'un listing de lien sans contenu
c'est bien là le problème...
Mais le spécialiste ne nous trouve pas si GG ne reférence pas notre site à l'aide de ce listing.
on risque de noyer les néophytes à notre domaine ou de les déstabiliser.
Arghhhh je me demande si on ne fait pas fausse route à vouloir être mieux vu via GG par ce moyen.
vous inquiétez pas si je réponds plus... je vais voir deux spécialistes pour leur demander leur avis.
en tout cas merci pour toutes vos remarques elles ont toutes été très constructives. C'est un vrai plaisir ce forum!
en tout cas merci pour toutes vos remarques elles ont toutes été très constructives. C'est un vrai plaisir ce forum!
29 messages • Page 1 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Tout pour indexer vos contenus dans Google
- Etude de Googlebot, le robot d'indexation de Google
- Outil de test d'indexation Google + analyse de l'âge d'un site
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot)
- Mise à jour de Google Images (16/04/2006)
- la Google Dance de novembre a commencé !
- Indexation du Flash : Google sait gérer les XML/txt externes
- Ouverture d'un forum consacré à DeepIndex sur WebRankInfo
- Nouvelle version de notre FAQ
- La danse de Googlebot :-) La Google Dance
- Ancienneté d'un site dans Google
Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org). - Les sous-domaines d'un site
Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités






le forum