Identification des pages modifiées
4 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

Digit - WRInaute impliqué

- Messages: 613
- Inscription: 18 Avr 2003
Identification des pages modifiées
Je viens de faire un petit test (11h).
Sur un site de 7580 pages connues de Google (PR5), j'ai effectué une mise à jour globale hier soir vers 21h: changement de look, de structure interne, d'URL... Bref, c'est comme si c'était un nouveau site, mais je conserve quand même 50% des URL valides (mais 100% des pages ont changé).
Je regarde mes logs ce matin, je constate que Google a augmenté sa fréquence de visites : 120 pages vues par heure.
Parmi les pages crawlées, la moitié (57%) sont des nouvelles URL et 3% des page correspondent à mes URL désuetes.
Conclusions :
- Google est un rapide, en moins de 12h il a remarqué des modifs majeurs et il les aspire
- Google doit probablement mémoriser pour chaque page de sa base une information de date de dernière modification. Si une page est modifiée (et dans sa structure de liens) alors il doit déclencher un crawl sur les pages liées. C'est à confirmer unitairement.
- Dans les crawls issus de ces modifs, Google ne décide pas de mettre à jour sa base de liens existantes mais priorise de suivre les nouveaux liens découverts (proportion de 3% par rapport aux 57%). Il mise donc sur la fraîcheur de son index car il aura tout le temps de supprimer les vieilles pages qui restent cependant accessibles dans son cache, donc ça ne pénalise pas les utilisateurs de Google (et ceux-ci préfèrent avoir les nouvelles pages pour être plus pertinant).
Edition à 11h23 :
Il est passé à une fréquence de 280 pages par heure, il doit donc avoir identifié un volume conséquent de pages à recrawler suite à son crawl en cours.
- La fréquence du bot est définie en live selon le volume de pages changées sur le site
- Plutôt que d'allonger la durée du crawl, Google augmente la fréquence.
Edition 11:36 :
Ma première conclusion a été prématurée sur les nouvellespages. Actuellement il est repassé sur les anciennes ce qui rééquilibre le taux. Par contre il monte toujours sa fréquence, il en est à 350 pages en une heure
Sur un site de 7580 pages connues de Google (PR5), j'ai effectué une mise à jour globale hier soir vers 21h: changement de look, de structure interne, d'URL... Bref, c'est comme si c'était un nouveau site, mais je conserve quand même 50% des URL valides (mais 100% des pages ont changé).
Je regarde mes logs ce matin, je constate que Google a augmenté sa fréquence de visites : 120 pages vues par heure.
Parmi les pages crawlées, la moitié (57%) sont des nouvelles URL et 3% des page correspondent à mes URL désuetes.
Conclusions :
- Google est un rapide, en moins de 12h il a remarqué des modifs majeurs et il les aspire
- Google doit probablement mémoriser pour chaque page de sa base une information de date de dernière modification. Si une page est modifiée (et dans sa structure de liens) alors il doit déclencher un crawl sur les pages liées. C'est à confirmer unitairement.
- Dans les crawls issus de ces modifs, Google ne décide pas de mettre à jour sa base de liens existantes mais priorise de suivre les nouveaux liens découverts (proportion de 3% par rapport aux 57%). Il mise donc sur la fraîcheur de son index car il aura tout le temps de supprimer les vieilles pages qui restent cependant accessibles dans son cache, donc ça ne pénalise pas les utilisateurs de Google (et ceux-ci préfèrent avoir les nouvelles pages pour être plus pertinant).
Edition à 11h23 :
Il est passé à une fréquence de 280 pages par heure, il doit donc avoir identifié un volume conséquent de pages à recrawler suite à son crawl en cours.
- La fréquence du bot est définie en live selon le volume de pages changées sur le site
- Plutôt que d'allonger la durée du crawl, Google augmente la fréquence.
Edition 11:36 :
Ma première conclusion a été prématurée sur les nouvellespages. Actuellement il est repassé sur les anciennes ce qui rééquilibre le taux. Par contre il monte toujours sa fréquence, il en est à 350 pages en une heure
-

WebRankInfo - Administrateur du site

- Messages: 19415
- Inscription: 19 Avr 2002
as-tu la possibilité de vérifier quand ces pages modifiées seront visibles dans les résultats de Google ?
as-tu un logiciel d'analyse du positionnement qui te permettrait de savoir si tu vas bénéficier d'une prime de fraicheur (ou bien tu peux le faire à la main) ?
as-tu un logiciel d'analyse du positionnement qui te permettrait de savoir si tu vas bénéficier d'une prime de fraicheur (ou bien tu peux le faire à la main) ?
-

Digit - WRInaute impliqué

- Messages: 613
- Inscription: 18 Avr 2003
Je vais vérifier, et si elle ne le sont pas toutes à la fois je noterai le PR de chacune.
Désolé, je n'utilise pas de logiciel de positionnement, mais je me souviens de mon classement sur les 10 principaux mots-clefs (ou groupes de mots)
Edité le 17 :
Hop, c'est en ligne
Google l'a pris en compte dans son cache (page de PR5), il a noté une date de modif du 15 février, je pense qu'il se base sur l'heure des data-centers et non pas l'heure française pour ce calcul de date car ma modif a été faite vers 22h le dimanche et je n'ai pas constaté de passage de GGBot sur la page d'accueil dans les 2h qui ont suivi.
Les autres pages sont aussi en cache, daté du 16 février (pages de PR4, PR3 et PR0). Les pages mises à jour dans le cache peuvent posséder des paramètres dans l'URL, donc il semblerait que cela n'influe pas Google pour le rafraîchissement de son cache.
Par contre, il n'y a qu'une vingtaine de pages mises à jour dans le cache Google, à mettre en oposition au volume de pages visitées par le bot.
Ma page principale est montée d'une position sur "contemporary artists". Il y a probablement un peu de prime de fraîcheur, à moins que ce soit dû à la danse en cours.
Désolé, je n'utilise pas de logiciel de positionnement, mais je me souviens de mon classement sur les 10 principaux mots-clefs (ou groupes de mots)
Edité le 17 :
Hop, c'est en ligne
Google l'a pris en compte dans son cache (page de PR5), il a noté une date de modif du 15 février, je pense qu'il se base sur l'heure des data-centers et non pas l'heure française pour ce calcul de date car ma modif a été faite vers 22h le dimanche et je n'ai pas constaté de passage de GGBot sur la page d'accueil dans les 2h qui ont suivi.
Les autres pages sont aussi en cache, daté du 16 février (pages de PR4, PR3 et PR0). Les pages mises à jour dans le cache peuvent posséder des paramètres dans l'URL, donc il semblerait que cela n'influe pas Google pour le rafraîchissement de son cache.
Par contre, il n'y a qu'une vingtaine de pages mises à jour dans le cache Google, à mettre en oposition au volume de pages visitées par le bot.
Ma page principale est montée d'une position sur "contemporary artists". Il y a probablement un peu de prime de fraîcheur, à moins que ce soit dû à la danse en cours.
-

Digit - WRInaute impliqué

- Messages: 613
- Inscription: 18 Avr 2003
J'ai à nouveau un maxi crawl, de l'ordre de 340 pages par heure depuis ce matin. Petite particularité, aucune nouvelle URL n'est parcourue, simplement les anciennes structures.
Un crawl entre les danses doit donc se faire en plusieurs étapes :
1- l'analyse des nouvelles pages et leur récupération,
2- l'identification des anciennes pages qui seraient supprimées (en erreur 404).
A priori, la purge des pages en 404 se ferait sans que le crawl classique n'est leiu : ces deux opérations de crawl sont exclusives.
Un crawl entre les danses doit donc se faire en plusieurs étapes :
1- l'analyse des nouvelles pages et leur récupération,
2- l'identification des anciennes pages qui seraient supprimées (en erreur 404).
A priori, la purge des pages en 404 se ferait sans que le crawl classique n'est leiu : ces deux opérations de crawl sont exclusives.
4 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- le Htaccess des urls modifiees
- GG aime-t-il les pages fréquemment modifiées ?
- Supprimer de mon site des pages modifiées
- Identification et iframe
- Identification et Commentaires en php
- Identification sur la home
- Identification de la langue du bot
- PHP - identification d'url
- Identification sur phpbb
- Identification des robots
- Les bonnes pratiques d'Opquast pour le référencement - 25-02-2008
- Les bonnes pratiques pour son site web : le memento - 22-02-2007
- Résultats Google Maps pour des recherches non locales - 22-04-2009
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
