desindexation de pages dynamiques
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
Mon site est désindexé aussi (reste 66 pages sur 130, snif !). L'architecture de mon site m'oblige à avoir beaucoup de pages au contenu proche, apparemment google déteste ça ! Encore plus emmerdant : parmi les pages désindexées figurent certaines des plus génératrices de trafic.
Comme c'est des pages rewritées, il s'agit peut-être (malheureusement) d'une sanction spécifique. Bref, mon petit site en a pris un coup et moi avec.
Comme c'est des pages rewritées, il s'agit peut-être (malheureusement) d'une sanction spécifique. Bref, mon petit site en a pris un coup et moi avec.
Je voulais savoir où vous en étiez avec la desindexation; j'ai lu sur d'autre topic que pour nombre d'entre vous, les pages étaient à nouveau indexées.
Malheureusement, il n'en est pas le cas pour mon site... avec 76 pages correctement indexées.
Si il ne reste plus que moi avec ce soucis, c'est que cela ne vient pas chez moi des pages dynamiques. a suivre...
Malheureusement, il n'en est pas le cas pour mon site... avec 76 pages correctement indexées.
Si il ne reste plus que moi avec ce soucis, c'est que cela ne vient pas chez moi des pages dynamiques. a suivre...
Très franchement le problème de la désindexation reste un mystère pour moi. Effectivement Google est en train de réindexer (et faire apparaitre dans les résultats) des pages qui avaient disparues de certains sites. Pour certaines de ces pages, il y a du cloaking, pour certaines du spam indexing et d'autres sont tout à fait normales. Donc même en utilisant les techniques à proscrire, Google semble réindexer les pages. A une époque sur ce forum certains ce demandaient si Google n'avait pas perdu ses index suite à un problème technique, je me pose toujours cette question.
Suite à une reindéxation de mes pages il y a 1 mois, voila que ça repart dans le sens inverse de façon assez impressionnante.
Je perds environ 50 pages correctement indexées par jour.
Je voulais savoir si ceux qui avaient rencontré ce probleme il y a quelques temps se trouvent dans la même situation.
Je perds environ 50 pages correctement indexées par jour.
Je voulais savoir si ceux qui avaient rencontré ce probleme il y a quelques temps se trouvent dans la même situation.
Svinkels a écrit:voila que ça repart dans le sens inverse de façon assez impressionnante.
Chez moi c'est pareil pour plusieurs sites. En fait l'indexation fait le yoyo depuis pas mal de temps. En plus j'ai remarqué dans l'index que certaines nouvelles pages qui apparaissent datent de fin septembre (les pages sont datées).
Je viens de parcourir cette très intéressante discussion, et je me rend compte que l'explication de cette histoire de désindexation est toujours inconnue de la plupart des webmasters.
Pourtant, la clé du mystère a été donnée par Danny Sullivan (Searchenginewatch.com) il y'a quelques mois, et GoogleGuy a confirmé que c'était la description la plus proche de la réalité qu'il ait jamais lue sur le sujet.
Qu'en est-il exactement ?
En fait, l'explication vient du comportement de Googlebot, qui est un spider fonctionnant sur un index ouvert. Et cet index ouvert est composé à présent de deux morceaux.
Première partie : le vrai index de Google (celui qui a été récemment crawlé, et est considéré comme "à jour")
Deuxième partie : le deuxième index de Google, composé de pages crawlées par le passé, mais dont on ne sait pas vraiment si elles existent toujours , si elles n'ont pas été modifiées etc... Dans ce deuxième index, selon des indications anciennes de Google, figureraient également des pages issues de crawls particuliers...
Ces pages constituent les fameux "résultats complémentaires".
Conclusion à ce stade : Google a renoncé depuis de nombreux mois à crawler régulièrement tout le web...
En fait Googlebot fonctionne suivant un ordre de priorité : il crawle plus souvent les pages jugées importantes et/ou des pages régulièrements modifiées, et moins souvent les pages et sites statiques et/ou jugées non intéressantes.
Au bout d'un certain temps, la deuxième catégorie de pages est versée dans le deuxième index, car on est plus sûr de leur existence ou de leur fraîcheur.
Dès qu'elles sont à nouveau crawlées, elles remontent dans la première partie de l'index.
Il est clair que parmi les pages jugées comme "non prioritaires", figurent les pages dynamiques sur les sites qui en comportent beaucoup.Un site à fort PR (comme WRI) verra ses pages régulièrement indexées et mises à jour dans l'index. Un site jugé moins prioritaire (le PR est il le seul critère pris en compte ?) verra par contre un nombre limité de ses pages dynamiques crawlées, pour économiser du temps de crawl et de la bande passante... Le reste passe dans l'index complémentaire.
Or les résultats de ce deuxième index n'apparaissent pas (sauf requête tordue) quand le filtre de clustering est activé. Tout se passe donc comme si ces pages étaient désindexées (mais elles sont bien quelque part, en fait dans l'index complémentaire ...)
Et les pages sans titres et description me direz-vous ???
En fait, Google triche doublement quand il annonce 8 milliards de pages dans son index. Ils comptent les deux index (et sans doute d'autres index complémentaires...), et ils comptent aussi les pages dont ils connaissent l'url, mais dont ils n'ont pas "aspiré" et indexé le contenu...
Les résultats sans titre et description proviennent de tentatives de crawl récentes avortées. Googlebot a déterminé au cours de son crawl que ces pages existaient, mais il n'en connait pas le contenu.
Je n'ai pas encore pu déterminer si ces pages étaient de simples liens détectés par Google (sans vérification) , en vue d'un crawl à venir, ou de pages dont l'existence a été vérifiée en demandant seulement le header http://. Compte tenu du faible nombre de pages en erreur 404 dans ces pages, je penche pour la deuxième explication (Googlebot avant d'indexer les pages interroge le header http pour lire le champ IMS).
Au prochain crawl, google aspirera et stockera dans son index la page, qui retrouvera titre et description... En attendant, google communique l'url, car cette page existe, il le sait... Le mystère, c'est sur quoi Google se base pour "classer" la page dans les résultats (l'ancienne version de la page? Les infos partielles en sa possession ?)
Tout ceci est une conséquence de la course à la fraîcheur des pages et à l'indexation continue dans laquelle Google s'est lancé voilà plus d'un an.
Pourtant, la clé du mystère a été donnée par Danny Sullivan (Searchenginewatch.com) il y'a quelques mois, et GoogleGuy a confirmé que c'était la description la plus proche de la réalité qu'il ait jamais lue sur le sujet.
Qu'en est-il exactement ?
En fait, l'explication vient du comportement de Googlebot, qui est un spider fonctionnant sur un index ouvert. Et cet index ouvert est composé à présent de deux morceaux.
Première partie : le vrai index de Google (celui qui a été récemment crawlé, et est considéré comme "à jour")
Deuxième partie : le deuxième index de Google, composé de pages crawlées par le passé, mais dont on ne sait pas vraiment si elles existent toujours , si elles n'ont pas été modifiées etc... Dans ce deuxième index, selon des indications anciennes de Google, figureraient également des pages issues de crawls particuliers...
Ces pages constituent les fameux "résultats complémentaires".
Conclusion à ce stade : Google a renoncé depuis de nombreux mois à crawler régulièrement tout le web...
En fait Googlebot fonctionne suivant un ordre de priorité : il crawle plus souvent les pages jugées importantes et/ou des pages régulièrements modifiées, et moins souvent les pages et sites statiques et/ou jugées non intéressantes.
Au bout d'un certain temps, la deuxième catégorie de pages est versée dans le deuxième index, car on est plus sûr de leur existence ou de leur fraîcheur.
Dès qu'elles sont à nouveau crawlées, elles remontent dans la première partie de l'index.
Il est clair que parmi les pages jugées comme "non prioritaires", figurent les pages dynamiques sur les sites qui en comportent beaucoup.Un site à fort PR (comme WRI) verra ses pages régulièrement indexées et mises à jour dans l'index. Un site jugé moins prioritaire (le PR est il le seul critère pris en compte ?) verra par contre un nombre limité de ses pages dynamiques crawlées, pour économiser du temps de crawl et de la bande passante... Le reste passe dans l'index complémentaire.
Or les résultats de ce deuxième index n'apparaissent pas (sauf requête tordue) quand le filtre de clustering est activé. Tout se passe donc comme si ces pages étaient désindexées (mais elles sont bien quelque part, en fait dans l'index complémentaire ...)
Et les pages sans titres et description me direz-vous ???
En fait, Google triche doublement quand il annonce 8 milliards de pages dans son index. Ils comptent les deux index (et sans doute d'autres index complémentaires...), et ils comptent aussi les pages dont ils connaissent l'url, mais dont ils n'ont pas "aspiré" et indexé le contenu...
Les résultats sans titre et description proviennent de tentatives de crawl récentes avortées. Googlebot a déterminé au cours de son crawl que ces pages existaient, mais il n'en connait pas le contenu.
Je n'ai pas encore pu déterminer si ces pages étaient de simples liens détectés par Google (sans vérification) , en vue d'un crawl à venir, ou de pages dont l'existence a été vérifiée en demandant seulement le header http://. Compte tenu du faible nombre de pages en erreur 404 dans ces pages, je penche pour la deuxième explication (Googlebot avant d'indexer les pages interroge le header http pour lire le champ IMS).
Au prochain crawl, google aspirera et stockera dans son index la page, qui retrouvera titre et description... En attendant, google communique l'url, car cette page existe, il le sait... Le mystère, c'est sur quoi Google se base pour "classer" la page dans les résultats (l'ancienne version de la page? Les infos partielles en sa possession ?)
Tout ceci est une conséquence de la course à la fraîcheur des pages et à l'indexation continue dans laquelle Google s'est lancé voilà plus d'un an.
Merci pour cette explication.
Pour mon site qui était indexé uniquement par son URL, Le Support Google m'a effectivement indiqué qu'il n'était que partiellement indéxée. Mais depuis ce WE j'ai retrouvé le titre et le texte dans les resultas de recherche.
Dans son mail, le support m'a aussi indiqué que peu de pages incluant des "?" dans l'URL était indéxées... Et mon site en contient. (rewriting en prévision)
J'attends de voir si les autre pages du site vont être crawlées.
Pour mon site qui était indexé uniquement par son URL, Le Support Google m'a effectivement indiqué qu'il n'était que partiellement indéxée. Mais depuis ce WE j'ai retrouvé le titre et le texte dans les resultas de recherche.
Dans son mail, le support m'a aussi indiqué que peu de pages incluant des "?" dans l'URL était indéxées... Et mon site en contient. (rewriting en prévision)
J'attends de voir si les autre pages du site vont être crawlées.
merci cariboo pour cette explication si minutieuse et intéressante de ces phénomènes de désindexation et réindexation.
voilà pourquoi on disparait et réapparait sans cesse
ca fait du bien quand on lance une discussion si longue que la solution soit affichée, ca change des sujets sans fin
voilà pourquoi on disparait et réapparait sans cesse
ca fait du bien quand on lance une discussion si longue que la solution soit affichée, ca change des sujets sans fin
cariboo a écrit:Or les résultats de ce deuxième index n'apparaissent pas (sauf requête tordue) quand le filtre de clustering est activé. Tout se passe donc comme si ces pages étaient désindexées (mais elles sont bien quelque part, en fait dans l'index complémentaire ...)
Si, il me semble qu'elles apparaisent dans toutes les requêtes. On les repère par la mention "résultat complémentaire", qui est rajouté dans ce cas. La mention est située sous le snippet dans la ligne de couleur verte. En général quant on clique sur une url avec cette mention on tombe souvent sur une page d'erreur 404 ou alors une page différente du cache qui est lui très ancien. Je le vois pour mon site où il y a de nombreuses pages que j'ai supprimées il y a environ 6 mois. Elles sont encore dans le cache de Google, avec la date de l'indexation (plus de 6 mois), et elles apparaissent lors des requêtes, avec cette mention "résultat complémentaire". Si Google était vraiment honnête il ne devrait pas les faire apparaître, car depuis six mois googlebot a bien dû s'apercevoir qu'elles n'existaient plus, mais je suppose que ça lui permet de dire que son index compte 8 milliards de pages. Amha, c'est ce deuxième index invalide qu'ils font apparaître maintenant dans les requêtes qui perturbe dangereusement les classements depuis quelques jours.
-

HISTOMOBILE - WRInaute occasionnel

- Messages: 211
- Inscription: Jeu Mai 08, 2003 10:40
Pour mon cas, beaucoup de pages dynamiques, j'étais toujours aux environs de 40.000 pages indexées lorsque qu'en octobre 2004, je suis passé à 80.000 pages avec une augmentation de 20% des visiteurs.
http://www.google.com/search?hl=fr&ie=I ... yhdz&meta=
Donc je ne pense pas que les pages dynamiques soient visées.
Comme ce changement était peu après mon inscription a Adword (fin septembre), je croyais que celà en était la cause.
http://www.google.com/search?hl=fr&ie=I ... yhdz&meta=
Donc je ne pense pas que les pages dynamiques soient visées.
Comme ce changement était peu après mon inscription a Adword (fin septembre), je croyais que celà en était la cause.
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Tutoriel URL Rewriting
- Incidence du PHP sur le référencement
- Le référencement de pages PHP
- 2 nouvelles journées d'étude Ranking Metrics
- Référencement : le problème des sessions des pages PHP
- Référencement d'un forum phpBB
- Séminaire sur le référencement : ImiTiki - Online 2005
- Suite de l'article sur le fichier .htaccess : l'URL rewriting
- Séminaire URL Rewriting et sites dynamiques
- L'URL Rewriting expliqué aux débutants
- IP dynamiques et statistiques
- Page dynamiques
- robots txt et pages dynamiques
- redirection 301 pages dynamiques
- .htaccess et pages dynamiques
- Redirection de pages dynamiques
- référencement, iframes et pages dynamiques
- Google image et images dynamiques
- Création de balise dynamiques
- Script métas dynamiques
- sitemap et pages dynamiques
- [Résolu] Sous domaines dynamiques
- Pagerank et liens dynamiques
- Réf de sites dynamiques
- URL rewriting de signatures dynamiques
Consultez la description détaillée des produits ou services de Google suivants : Omnisio
Qui est en ligne
Utilisateurs parcourant ce forum: Baidu [Spider] et 0 invités









le forum