indexation de 1,5 millions de pages --sic--
29 messages
• Page 2 sur 2 • 1, 2
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

cloacking - WRInaute impliqué

- Messages: 722
- Inscription: 20 Oct 2004
l'information n'a pas besoin de faire 10 pages pour être pertinente
Ce n'est donc pas des articles, j'ai eu peur
Tout comme les pages jaunes que vous citez, pour eux c'est juste des données donc sans trop de valeur ajouté à mon sens et là c'est donc beaucoup plus dur de tout faireindexer et positionner convenablement
Idem que si on part d'une base de 36.000 ville et que l'on propose un page pour chaque ville avec rencontre, immobilier, petites annonces, etc ...
On se retrouve vite avec plus de 500.000 pages mais sans plus !
-

phpmikedu83 - WRInaute passionné

- Messages: 1281
- Inscription: 6 Aoû 2005
Vu qu'il y a un formulaire, je pense qu'il y a moyen de tirer de ça un Tag cloud et donc de mettre en avant en premier les articles que les internautes préfèrent
C'est à la mode en plus
C'est à la mode en plus
- jfcontart
- WRInaute discret

- Messages: 178
- Inscription: 22 Sep 2007
Bonjour
bon, alors, suite à une grosse discussion (de 3 jours
) avec deux de mes spécialistes, on a décidé de faire un test avec une rubrique très particulière de nos articles. On va mettre en place les articles qui réponde à un sujet très précis : le risque. Nous avons 155 175 articles évalués comme à risque, avec donc 155 175 mots clefs. Cette information peut (et va) aider les visiteurs à évaluer leur risques à confondre ces articles.
C'est donc une information très courte (l'article de chaque risque comporte entre 2 et 16 lignes explicatives allant du "aucun risque " en passant par le fameux "holallalalalalala" jusqu'au très connu et fatal "WHAAAAAAAAAAAAAAANONMONDIEUPASCA") (oui je suis fan de terry pratchett)
le catalogue va classer les noms des produits selon leur trois premières lettres (ce qui donne 1444 pages pour lister les 155 175 articles)
on va placer un lien de la page d'entrée vers le catalogue, puis 1444 liens vers les liste des produit dont les 3 premmières sont (le choix) puis un lien pour chaque produits vers sa fiche de risque.
les pages vont donc fortement varier en poids en plus.
pour le moment le site est sur GG
en 11 ème position sur motA
en 8 ème position sur motA motB
les 155 175 ne sont pas des mot français... donc seuls les recherches spécifiques à notre domaine doit les trouver en plus ou moins haute position
j'éditerai un suivi régulier pour vous informer de ce qui se passe. Bien sûr si tout se passe bien, je vais lancer les 1,5millions d'articles.
pour ceux que ça intéresse...
A+
bon, alors, suite à une grosse discussion (de 3 jours
C'est donc une information très courte (l'article de chaque risque comporte entre 2 et 16 lignes explicatives allant du "aucun risque " en passant par le fameux "holallalalalalala" jusqu'au très connu et fatal "WHAAAAAAAAAAAAAAANONMONDIEUPASCA") (oui je suis fan de terry pratchett)
le catalogue va classer les noms des produits selon leur trois premières lettres (ce qui donne 1444 pages pour lister les 155 175 articles)
on va placer un lien de la page d'entrée vers le catalogue, puis 1444 liens vers les liste des produit dont les 3 premmières sont (le choix) puis un lien pour chaque produits vers sa fiche de risque.
les pages vont donc fortement varier en poids en plus.
pour le moment le site est sur GG
en 11 ème position sur motA
en 8 ème position sur motA motB
les 155 175 ne sont pas des mot français... donc seuls les recherches spécifiques à notre domaine doit les trouver en plus ou moins haute position
j'éditerai un suivi régulier pour vous informer de ce qui se passe. Bien sûr si tout se passe bien, je vais lancer les 1,5millions d'articles.
pour ceux que ça intéresse...
A+
- bozoleclown
- WRInaute impliqué

- Messages: 893
- Inscription: 24 Nov 2005
et un sitemaps ?
ca pourrait etre ta solution non ? tout du moins en complément.
ca pourrait etre ta solution non ? tout du moins en complément.
- jfcontart
- WRInaute discret

- Messages: 178
- Inscription: 22 Sep 2007
>bozoleclown
je ne crois pas que cela passera. J'ai lu dans google une limite à 1000 articles quelques parts (mais je trouve plus où)
et puis un fichier xml, même pour commencer, de 155 175 termes, ça me semble lourd à générer et délicat à fournir à GG. GG va nous faire une indigestion..
question aussi: si on place un sitemaps, google se contente juste de celui-ci ou alors il va quand même explorer les pages/liens en plus, parceque dans ce cas je mets juste le sitemaps des catalogues et il ira voir les pages lui même?
et petite note : GG n'est pas repassé sur notre site depuis le 27 Septembre 2007 (soit 6 jours...) c'est bizarre... et on chutre dans les positionnements (-6 places)... peut-être un effet de notre nouveau CMS ?!?
GG ne nous avait jamais fait ça en trois ans!
je ne crois pas que cela passera. J'ai lu dans google une limite à 1000 articles quelques parts (mais je trouve plus où)
et puis un fichier xml, même pour commencer, de 155 175 termes, ça me semble lourd à générer et délicat à fournir à GG. GG va nous faire une indigestion..
question aussi: si on place un sitemaps, google se contente juste de celui-ci ou alors il va quand même explorer les pages/liens en plus, parceque dans ce cas je mets juste le sitemaps des catalogues et il ira voir les pages lui même?
et petite note : GG n'est pas repassé sur notre site depuis le 27 Septembre 2007 (soit 6 jours...) c'est bizarre... et on chutre dans les positionnements (-6 places)... peut-être un effet de notre nouveau CMS ?!?
GG ne nous avait jamais fait ça en trois ans!
- bozoleclown
- WRInaute impliqué

- Messages: 893
- Inscription: 24 Nov 2005
non ce n'est pas limité
un fichier sitemaps doit faire 10Mo maximum.
et tu peux agréger 1000 fichiers sitemaps dans un fichier sitemaps générique
Donc 1000*10Mo je pense que tu as ce qu'il faut.
www.sitemaps.org pour le détail de l'implémentation.
tu as changé de CMS en conservant les anciennes urls ou bien ce sont de nouvelles ?
un fichier sitemaps doit faire 10Mo maximum.
et tu peux agréger 1000 fichiers sitemaps dans un fichier sitemaps générique
Donc 1000*10Mo je pense que tu as ce qu'il faut.
www.sitemaps.org pour le détail de l'implémentation.
tu as changé de CMS en conservant les anciennes urls ou bien ce sont de nouvelles ?
- jfcontart
- WRInaute discret

- Messages: 178
- Inscription: 22 Sep 2007
c'est le cms de la boîte et on a changé les modèles d'url pour le coté pratique dans la version 6. On utilise maitenant du urlrewriting avec des fichiers qui ont un nom significatif style www*ndd*com/FR/REF/12455777/titre_de_la_page.html
Google va pas aimer (du moins un temps) ensuite on va lui fournir de quoi le rassasier (les 1,5 millions de pages)
c'est sûr que dans l'idéal changer les URL c'est pas bien vu par GG, mais vu que l'on va passer d'un site à formulaire (5 pages) à un site à formualire simplifié (1 page) plus nos articles en référence pour GG (1,5 millions) ça vaut le coup (du moins pour ce site)
pour le sitempas je pense que tu veux parler de la structure suivante :
C'est une super bonne idée car notre CMS ne générer pas directement le sitempas pour les 1,5 M car techniquement ce sont pas des "articles" du CMS mais des données de la base développée pour les outils de ce site. donc je crée un sitempas des données et le rajoute manullement via un tag sitemap dans le sitemap auto-généré par le CMS.
Hummm j'aime BEAUCOUP
Merci[/code]
Google va pas aimer (du moins un temps) ensuite on va lui fournir de quoi le rassasier (les 1,5 millions de pages)
c'est sûr que dans l'idéal changer les URL c'est pas bien vu par GG, mais vu que l'on va passer d'un site à formulaire (5 pages) à un site à formualire simplifié (1 page) plus nos articles en référence pour GG (1,5 millions) ça vaut le coup (du moins pour ce site)
pour le sitempas je pense que tu veux parler de la structure suivante :
- Code: Tout sélectionner
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
C'est une super bonne idée car notre CMS ne générer pas directement le sitempas pour les 1,5 M car techniquement ce sont pas des "articles" du CMS mais des données de la base développée pour les outils de ce site. donc je crée un sitempas des données et le rajoute manullement via un tag sitemap dans le sitemap auto-généré par le CMS.
Hummm j'aime BEAUCOUP
Merci[/code]
- bozoleclown
- WRInaute impliqué

- Messages: 893
- Inscription: 24 Nov 2005
tu peux limiter les dégats en faisant des redirections http 301 des anciennes urls vers les nouvelles
- bozoleclown
- WRInaute impliqué

- Messages: 893
- Inscription: 24 Nov 2005
google continuera de crawling
d'ailleurs c'est pas dit qu'il crawl ton sitemaps tout de suite mais bon à mon sens ca ne fait pas de mal
c un comparateur de prix ton site ? enfin des flux xml d'affiliiations remis en forme ?
d'ailleurs c'est pas dit qu'il crawl ton sitemaps tout de suite mais bon à mon sens ca ne fait pas de mal
c un comparateur de prix ton site ? enfin des flux xml d'affiliiations remis en forme ?
- jfcontart
- WRInaute discret

- Messages: 178
- Inscription: 22 Sep 2007
> bozoleclown
non
c'est un domaine très spécialisé... mais chut... on joue pas à "question pour un champion"... l'intérêt est surtout de voir comment GG réagit fasse à un site qui a beaucoup de contenu en page, des articles très court et qui n'est pas "people" ou dans un "buzz"... et mon domaine est VRAIMENT pas people! ;-p
alors, ça y est, GG est repassé le 3 oct 2007 (il a eu une panne le robot de GG, il est repassé sur aucun de mes sites durant 5 jours?!?)
résultats : il a indexé les catalogues uniquement et pas jusqu'au bout (je dirais à vu de nez 45% en commençant par le début).
Donc il y a une limite au nombre de liens indéxés par pages. (ok on le savait)
Je vais re-programmer le catalogue en deux niveaux : catalogue de A à Z puis si on clique sur A, catalogue des pages commençant par ABA,ABB,ABD,ABE,ABH,ABI, etc.
le but étant d'avoir moins de 100 liens par catalogues!
ensuite limiter les listing à moins de 100 redirections avec une méthode de résultats par pages (page suivante, page1 , page2 ... dernière page) un simple limit $X,100 devrais suffir, juste revoir le type d'URL pour transférer la page avec l'indice du catalogue.
j'ai des mots-clefs que seul mon site utilise donc je peux facilement tester : si GG ne donne aucun résultat c'est qu'il n'est pas venu me voir.
A+ pour le prochain épisode
[/quote]
non
alors, ça y est, GG est repassé le 3 oct 2007 (il a eu une panne le robot de GG, il est repassé sur aucun de mes sites durant 5 jours?!?)
résultats : il a indexé les catalogues uniquement et pas jusqu'au bout (je dirais à vu de nez 45% en commençant par le début).
Donc il y a une limite au nombre de liens indéxés par pages. (ok on le savait)
Je vais re-programmer le catalogue en deux niveaux : catalogue de A à Z puis si on clique sur A, catalogue des pages commençant par ABA,ABB,ABD,ABE,ABH,ABI, etc.
le but étant d'avoir moins de 100 liens par catalogues!
ensuite limiter les listing à moins de 100 redirections avec une méthode de résultats par pages (page suivante, page1 , page2 ... dernière page) un simple limit $X,100 devrais suffir, juste revoir le type d'URL pour transférer la page avec l'indice du catalogue.
j'ai des mots-clefs que seul mon site utilise donc je peux facilement tester : si GG ne donne aucun résultat c'est qu'il n'est pas venu me voir.
A+ pour le prochain épisode
[/quote]
- jfcontart
- WRInaute discret

- Messages: 178
- Inscription: 22 Sep 2007
GG est repassé le 8 oct 2007 ... il a commencé l'indexation doucement ... depuis les outils pour webmaster j'ai un site:www*domaine*com qui me donne 10 100 résultats.
il ne donne toujours pas de lien direct sur les articles de risque! Vu que c'est un CMS il a peut-être trop peu de texte au milieu de la page de navigation qui différe d'une page à l'autre? GG semble se focaliser sur les catalogues! (qui eux sont pleins de textes et liens différents)
je vais laisser tourner un peu pour voir.
le sitemap est trop lourd (même avec des index) et puis c'est une étude intérressante au niveau de l'indexation "naturelle" de GG. Ca me/nous/vous servira pour d'autres sites
Pour forcer GG à revenir plus souvent je vais modifier la présentation des infos des pages de risques après chaque passage de GG... est-ce une bonne idéee?
Et il faut combien de % de différence entre deux pages pour éviter le duplicate contents? (ok personne peut savoir, mais peut-être que qq a un chiffre empirique à avancer)
A+
il ne donne toujours pas de lien direct sur les articles de risque! Vu que c'est un CMS il a peut-être trop peu de texte au milieu de la page de navigation qui différe d'une page à l'autre? GG semble se focaliser sur les catalogues! (qui eux sont pleins de textes et liens différents)
je vais laisser tourner un peu pour voir.
le sitemap est trop lourd (même avec des index) et puis c'est une étude intérressante au niveau de l'indexation "naturelle" de GG. Ca me/nous/vous servira pour d'autres sites
Pour forcer GG à revenir plus souvent je vais modifier la présentation des infos des pages de risques après chaque passage de GG... est-ce une bonne idéee?
Et il faut combien de % de différence entre deux pages pour éviter le duplicate contents? (ok personne peut savoir, mais peut-être que qq a un chiffre empirique à avancer)
A+
29 messages
• Page 2 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Tout pour indexer vos contenus dans Google - 17-02-2009
- Etude de Googlebot, le robot d'indexation de Google - 30-07-2002
- Outil de test d'indexation Google + analyse de l'âge d'un site - 15-02-2008
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot) - 05-09-2008
- Mise à jour de Google Images (16/04/2006) - 18-04-2006
- la Google Dance de novembre a commencé ! - 28-11-2002
- Indexation du Flash : Google sait gérer les XML/txt externes - 19-06-2009
- Ouverture d'un forum consacré à DeepIndex sur WebRankInfo - 18-01-2003
- Ancienneté d'un site dans Google
Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org). - Les sous-domaines d'un site
Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité

