indexation de 1,5 millions de pages --sic--

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


cloacking
WRInaute impliqué
WRInaute impliqué
 
Messages: 722
Inscription: 20 Oct 2004

Message le Mer Sep 26, 2007 15:21

l'information n'a pas besoin de faire 10 pages pour être pertinente

Ce n'est donc pas des articles, j'ai eu peur :oops:
Tout comme les pages jaunes que vous citez, pour eux c'est juste des données donc sans trop de valeur ajouté à mon sens et là c'est donc beaucoup plus dur de tout faireindexer et positionner convenablement :wink:

Idem que si on part d'une base de 36.000 ville et que l'on propose un page pour chaque ville avec rencontre, immobilier, petites annonces, etc ...
On se retrouve vite avec plus de 500.000 pages mais sans plus !


phpmikedu83
WRInaute passionné
WRInaute passionné
 
Messages: 1281
Inscription: 6 Aoû 2005

Message le Mer Sep 26, 2007 20:50

Vu qu'il y a un formulaire, je pense qu'il y a moyen de tirer de ça un Tag cloud et donc de mettre en avant en premier les articles que les internautes préfèrent ;-)
C'est à la mode en plus :-D

jfcontart
WRInaute discret
WRInaute discret
 
Messages: 178
Inscription: 22 Sep 2007

Message le Ven Sep 28, 2007 16:27

Bonjour

bon, alors, suite à une grosse discussion (de 3 jours :wink: ) avec deux de mes spécialistes, on a décidé de faire un test avec une rubrique très particulière de nos articles. On va mettre en place les articles qui réponde à un sujet très précis : le risque. Nous avons 155 175 articles évalués comme à risque, avec donc 155 175 mots clefs. Cette information peut (et va) aider les visiteurs à évaluer leur risques à confondre ces articles.

C'est donc une information très courte (l'article de chaque risque comporte entre 2 et 16 lignes explicatives allant du "aucun risque " en passant par le fameux "holallalalalalala" jusqu'au très connu et fatal "WHAAAAAAAAAAAAAAANONMONDIEUPASCA") (oui je suis fan de terry pratchett)

le catalogue va classer les noms des produits selon leur trois premières lettres (ce qui donne 1444 pages pour lister les 155 175 articles)

on va placer un lien de la page d'entrée vers le catalogue, puis 1444 liens vers les liste des produit dont les 3 premmières sont (le choix) puis un lien pour chaque produits vers sa fiche de risque.

les pages vont donc fortement varier en poids en plus.

pour le moment le site est sur GG
en 11 ème position sur motA
en 8 ème position sur motA motB

les 155 175 ne sont pas des mot français... donc seuls les recherches spécifiques à notre domaine doit les trouver en plus ou moins haute position

j'éditerai un suivi régulier pour vous informer de ce qui se passe. Bien sûr si tout se passe bien, je vais lancer les 1,5millions d'articles.

pour ceux que ça intéresse... :P
A+ :roll:

bozoleclown
WRInaute impliqué
WRInaute impliqué
 
Messages: 893
Inscription: 24 Nov 2005

Message le Mer Oct 03, 2007 16:31

et un sitemaps ?

ca pourrait etre ta solution non ? tout du moins en complément.

jfcontart
WRInaute discret
WRInaute discret
 
Messages: 178
Inscription: 22 Sep 2007

Message le Mer Oct 03, 2007 17:23

>bozoleclown
je ne crois pas que cela passera. J'ai lu dans google une limite à 1000 articles quelques parts (mais je trouve plus où)

et puis un fichier xml, même pour commencer, de 155 175 termes, ça me semble lourd à générer et délicat à fournir à GG. GG va nous faire une indigestion..

question aussi: si on place un sitemaps, google se contente juste de celui-ci ou alors il va quand même explorer les pages/liens en plus, parceque dans ce cas je mets juste le sitemaps des catalogues et il ira voir les pages lui même?

et petite note : GG n'est pas repassé sur notre site depuis le 27 Septembre 2007 (soit 6 jours...) c'est bizarre... et on chutre dans les positionnements (-6 places)... peut-être un effet de notre nouveau CMS ?!?

GG ne nous avait jamais fait ça en trois ans!

bozoleclown
WRInaute impliqué
WRInaute impliqué
 
Messages: 893
Inscription: 24 Nov 2005

Message le Mer Oct 03, 2007 17:48

non ce n'est pas limité

un fichier sitemaps doit faire 10Mo maximum.
et tu peux agréger 1000 fichiers sitemaps dans un fichier sitemaps générique

Donc 1000*10Mo je pense que tu as ce qu'il faut.

www.sitemaps.org pour le détail de l'implémentation.

tu as changé de CMS en conservant les anciennes urls ou bien ce sont de nouvelles ?


tofm2
WRInaute passionné
WRInaute passionné
 
Messages: 2202
Inscription: 9 Avr 2005

Message le Mer Oct 03, 2007 17:48

r23o a écrit:Fait un sitemap xml et renseigne le dans ton robots.txt.


Comment fait on cela déjà ??

bozoleclown
WRInaute impliqué
WRInaute impliqué
 
Messages: 893
Inscription: 24 Nov 2005

Message le Mer Oct 03, 2007 17:50


jfcontart
WRInaute discret
WRInaute discret
 
Messages: 178
Inscription: 22 Sep 2007

Message le Mer Oct 03, 2007 18:07

c'est le cms de la boîte et on a changé les modèles d'url pour le coté pratique dans la version 6. On utilise maitenant du urlrewriting avec des fichiers qui ont un nom significatif style www*ndd*com/FR/REF/12455777/titre_de_la_page.html

Google va pas aimer (du moins un temps) ensuite on va lui fournir de quoi le rassasier (les 1,5 millions de pages)

c'est sûr que dans l'idéal changer les URL c'est pas bien vu par GG, mais vu que l'on va passer d'un site à formulaire (5 pages) à un site à formualire simplifié (1 page) plus nos articles en référence pour GG (1,5 millions) ça vaut le coup (du moins pour ce site)

pour le sitempas je pense que tu veux parler de la structure suivante :
Code: Tout sélectionner
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>


C'est une super bonne idée car notre CMS ne générer pas directement le sitempas pour les 1,5 M car techniquement ce sont pas des "articles" du CMS mais des données de la base développée pour les outils de ce site. donc je crée un sitempas des données et le rajoute manullement via un tag sitemap dans le sitemap auto-généré par le CMS.

Hummm j'aime BEAUCOUP :P

Merci[/code]

bozoleclown
WRInaute impliqué
WRInaute impliqué
 
Messages: 893
Inscription: 24 Nov 2005

Message le Mer Oct 03, 2007 18:10

tu peux limiter les dégats en faisant des redirections http 301 des anciennes urls vers les nouvelles

jfcontart
WRInaute discret
WRInaute discret
 
Messages: 178
Inscription: 22 Sep 2007

Message le Mer Oct 03, 2007 18:13

on a limité en mettant un tag meta robots à noindex, c'est suffisant non?

et au fait tu sais si GG se contente du sitemap ou s'il va quand même explorer le site?

merci

bozoleclown
WRInaute impliqué
WRInaute impliqué
 
Messages: 893
Inscription: 24 Nov 2005

Message le Mer Oct 03, 2007 18:17

google continuera de crawling
d'ailleurs c'est pas dit qu'il crawl ton sitemaps tout de suite mais bon à mon sens ca ne fait pas de mal

c un comparateur de prix ton site ? enfin des flux xml d'affiliiations remis en forme ?

jfcontart
WRInaute discret
WRInaute discret
 
Messages: 178
Inscription: 22 Sep 2007

Message le Ven Oct 05, 2007 11:16

> bozoleclown
non :D c'est un domaine très spécialisé... mais chut... on joue pas à "question pour un champion"... l'intérêt est surtout de voir comment GG réagit fasse à un site qui a beaucoup de contenu en page, des articles très court et qui n'est pas "people" ou dans un "buzz"... et mon domaine est VRAIMENT pas people! ;-p

alors, ça y est, GG est repassé le 3 oct 2007 (il a eu une panne le robot de GG, il est repassé sur aucun de mes sites durant 5 jours?!?)

résultats : il a indexé les catalogues uniquement et pas jusqu'au bout (je dirais à vu de nez 45% en commençant par le début).

Donc il y a une limite au nombre de liens indéxés par pages. (ok on le savait)

Je vais re-programmer le catalogue en deux niveaux : catalogue de A à Z puis si on clique sur A, catalogue des pages commençant par ABA,ABB,ABD,ABE,ABH,ABI, etc.
le but étant d'avoir moins de 100 liens par catalogues!

ensuite limiter les listing à moins de 100 redirections avec une méthode de résultats par pages (page suivante, page1 , page2 ... dernière page) un simple limit $X,100 devrais suffir, juste revoir le type d'URL pour transférer la page avec l'indice du catalogue.

j'ai des mots-clefs que seul mon site utilise donc je peux facilement tester : si GG ne donne aucun résultat c'est qu'il n'est pas venu me voir.

A+ pour le prochain épisode


[/quote]

jfcontart
WRInaute discret
WRInaute discret
 
Messages: 178
Inscription: 22 Sep 2007

Message le Mar Oct 09, 2007 7:43

GG est repassé le 8 oct 2007 ... il a commencé l'indexation doucement ... depuis les outils pour webmaster j'ai un site:www*domaine*com qui me donne 10 100 résultats.

il ne donne toujours pas de lien direct sur les articles de risque! Vu que c'est un CMS il a peut-être trop peu de texte au milieu de la page de navigation qui différe d'une page à l'autre? GG semble se focaliser sur les catalogues! (qui eux sont pleins de textes et liens différents)

je vais laisser tourner un peu pour voir.

le sitemap est trop lourd (même avec des index) et puis c'est une étude intérressante au niveau de l'indexation "naturelle" de GG. Ca me/nous/vous servira pour d'autres sites :P

Pour forcer GG à revenir plus souvent je vais modifier la présentation des infos des pages de risques après chaque passage de GG... est-ce une bonne idéee?

Et il faut combien de % de différence entre deux pages pour éviter le duplicate contents? (ok personne peut savoir, mais peut-être que qq a un chiffre empirique à avancer)

A+

indexation de 1,5 millions de pages --sic--

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité