Blog désindexé sans raison apparente

Nouveau WRInaute
Bonjour,

Je rencontre un problème de déréférencement de pages d'un blog wordpress qui est adossé à une boutique en ligne. Le blog comporte une trentaine d'articles depuis 2 ans, dont la plupart est indexée chez Google à des positions plus ou moins bonnes selon les mots clés et la qualité rédactionnelle des articles.

Seulement voilà, je me suis rendu compte après la rédaction d'un article que Google a supprimé toutes les pages du blog de son index, mis à part la page d'accueil du blog, je peux le voir avec la commande "info:". C'est exactement comme si j'avais supprimé moi-même les pages dans GWT ou si j'avais basculé le site en noindex.

Ce que je ne comprends pas c'est qu'une pénalité Google engendre généralement une claque SEO, mais il s'agit là d'un déréférencement pur et simple, chose que je n'ai jamais observée jusque là. Par ailleurs, le blog contient au moins 3 ou 4 articles particulièrement longs et rédigés avec soin (dans les 1500 mots) tandis que le reste se situe dans les 500-800 mots.

Voici des précisions sur la situation :

  • Lorsque je regarde le sitemap des articles dans GWT il m'indique 34 URL indexées sur 39 mais ce n'est pas ce que j'observe
    Le crawl continue à se faire normalement dans mes logs apache.
    Pas de balise noindex, pas de header HTTP noindex dans mes pages.
    Les pages retournent un code 200 comme d'habitude, pas de redirections 301/302 en boucle.
    Lorsque je demande la visite d'une URL dans GWT, je peux afficher la source de la page sans problème d'accès, et l'indexation ne se fait pas.
    Pas de blocage robots.txt
    La page d'accueil du blog contient les 60 premiers mots de chaque article
    Le problème n’apparaît pas chez Bing
    Mes pages de tags et taxonomies sont en noindex avec le plugin Yoast SEO

Voici les modifications les plus récentes sur le site :
  • Mise à jour de Wordpress et du thème Twentythirteen
    Passage en noindex des pages en https:// dans les headers (mais pas pour http:// qui consitue 99% des pages indexées)
    Modification du lien de header du thème Wordpress pour linker vers la boutique plutôt que l'accueil du blog

J'apprécierais vos lumières si vous comprenez ma situation plus que moi,
Merci d'avance
 
WRInaute accro
deltasight a dit:
Google a supprimé toutes les pages du blog de son index, mis à part la page d'accueil du blog, je peux le voir avec la commande "info:".

La commande info: fonctionne page par page. Donc c'est normal si tu tapes info: et le nom de ton blog que ça te retourne une réponse seulement pour la page d'accueil. Il faut réitérer la commande pour chacune des url.


deltasight a dit:
Par ailleurs, le blog contient au moins 3 ou 4 articles particulièrement longs et rédigés avec soin (dans les 1500 mots) tandis que le reste se situe dans les 500-800 mots.

1500 mots ce n'est pas ce qu'on peut appeler long mais plutôt normal pour un article soigneusement rédigé et documenté. Long, ça serait au dessus de 2200-2500 mots.
 
Nouveau WRInaute
Merci pour cette réponse.

Pour avoir remarqué que seule la page d'accueil est référencée, et que les autres pages ne le sont pas, je les ai testées une à une avec la commande info, on est bien d'accord.

Question longueur des pages j'ai chiffré quantitativement pour être précis, mais après tout est relatif et je suis plutôt d'accord avec le chiffre de 2500 mots voire plus, on peut toujours faire plus.

Une idée, un problème similaire déjà surmonté ?
 
Nouveau WRInaute
Bonjour,

Merci de me proposer votre aide.
Vous pouvez accéder au blog depuis le lien temporaire suivant : -http://temp.ipstreet.org
 
WRInaute accro
A priori, je ne vois pas de raison à la désindexation, qui est réelle. As tu vérifié dans GoogleWebmaster Tools qu'il n'y avait pas un problème ?
 
Nouveau WRInaute
Merci d'avoir pris la peine de regarder. Ta réponse me rassure, mais en même temps j'aurais préféré faire des erreurs grossières qui auraient été corrigées plus facilement. :)

Dans GWT :
Pas de pénalité manuelle
Pas de message à l'attention du webmaster
Le fichier robots.txt ne bloque pas le crawl

Je remarque que la méta description de la page d'accueil du blog est le résumé du dernier billet publié.
 
WRInaute accro
Il faudrait regarder la config des différents plugins en détail... vérifier qu'il n'y a pas eu malencontreusement un robots.txt qui empêchait l'indexation et que Google aurait pris en compte avant qu'il soit retiré.
 
Nouveau WRInaute
Merci pour ces nouvelles idées, c'est l'occasion de faire de nouvelles vérifs car je tourne un peu en rond.

Après vérification dans les logs, il n'y a qu'un seul fichier robots.txt qui n'ait jamais été téléchargé. Et il n'a pas évolué depuis plusieurs années.
L'outil GWT m'indique que le fichier robots.txt n'interdit pas mes URL. Je peux voir dans les logs que mes pages sont crawlées quotidiennement, elles ne sont juste pas indexées.
Pour finir, une interdiction de crawl par robots.txt engendrerait un message du type "Page bloquée dans le robots.txt" sans nécessairement désindexer ma page.

J'ai regardé pour un éventuel negative SEO avec Majestic SEO, sans rien trouver d'anormal.
Dans la série des actions négatives, il n'y a pas d'autre compte GWT qui a accès au site.

Il y a une modification qui pourrait éventuellement avoir un effet de bord : je flague toutes les pages HTTPS, sans distinction, en noindex,follow dans les headers HTTP pour éviter le duplicate content. Je me demande si les moteurs de recherche prennent ça bien. J'ai dissocié mes fichiers de logs selon le protocole pour en savoir plus.
 
Discussions similaires
Haut