Messages: 10

Enregistré le: 4 Jan 2010

Message le Ven Mar 10, 2017 11:22

Bonjour à tous et merci de vos contributions éventuelles.
Je m'occupe en autre d'un site sous Prestashop ouvert en début aout 2016 qui vend des pièces détachées de machines et qui contient 25 026 produits. La catalogue a été réalisé par un prestataire extérieure dans le cadre d'une intégration de planche de vues éclatées en rapprochement avec un catalogue fournisseur et il ne contient que 10 511 produits activés, soit 14 515 inactifs. Passons sur le pourquoi de cette situation qui est normale au regard d'éléments incontrôlables, sans rapport avec l'objet du post.
Nous avons soumis le sitemap à Google à l'ouverture du site donc en août 2016 et l'état d'indexation fait rapport de 4 crawl par mois. Voici les chiffres ci-dessous :
21/08/16 4075
28/08/16 4075
04/09/16 41486
11/09/16 39414
18/09/16 34979
25/09/16 32593
02/10/16 32418
09/10/16 32266
16/10/16 32212
23/10/16 32102
30/10/16 32161
06/11/16 32161
13/11/16 32390
20/11/16 32391
27/11/16 32388
04/12/16 32395
11/12/16 32012
18/12/16 31305
25/12/16 30935
01/01/17 24547
08/01/17 13284
15/01/17 11490
22/01/17 11450
29/01/17 11166
05/02/17 10590
12/02/17 10586
19/02/17 10585
26/02/17 10005
05/03/17 9189
Ne voyant pas d'amélioration dans les premiers temps et étant occupé à bien d'autre tâches, faisant aussi confiance au prestataire (la confiance n'exclut pas le contrôle, mais je fus laxiste sur ce coup là !), je découvris que les metas n'étaient pas remplies par le prestataire dans le cadre de l'injection et le rapprochement des fiches produits à activer avant ouverture du site. je fis donc une action corrective début janvier, puis en début février avec soumission de nouveau du sitemap auprès de Google. J'ai fait aussi à cette période le rajout de Bing Webmaster Tools.
Aujourd’hui, dans la SC de Google il y’a 15 640 URL envoyé et 2 915 dans l’index et 10 642 images et 43 dans l’index, et dans Bing 15 639 URL.
La requête site:monsite.com donne environ 9180 résultats à ce jour.
Questions :
On constate plus de 40 000 indexations pour un sitemap n'en comprenant en théorie que 10 500 URL active + 10 500 images, comment cela est possible lors de la premier soumission?
Cette indexation peut-elle être la cause d'un blacklistage de la part de Google ?
Haut
18 Réponses
Messages: 23101

Enregistré le: 19 Avr 2002

Message le Ven Mar 10, 2017 12:12

j'ai du mal à tout bien comprendre, notamment car tu mélanges "état de l'indexation" et les stats sur les sitemaps
- "état de l'indexation" indique le nb total d'URL indexées par Google, qu'elles soient dans des sitemaps ou pas. ça inclut la masse noire...
- les stats d'un sitemap indiquent le nb d'URL du sitemap qui sont dans l'index

en complément, je te suggère de lire mon article pourquoi Google n'indexe pas toutes les URL fournies dans un sitemap ?
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Ven Mar 10, 2017 14:24

Merci de votre retour. Ma présentation peut porter à confusion en effet. je brossais juste un état des lieux... Je sais parfaitement tout cela, et notamment la différence en l'état d'indexation et les stats de sitemap. J'ai aussi lu, entre autres depuis longtemps, vos articles et ceux de vos confrères. Je dois peut-être préciser que je suis webmaster depuis plus de 15 ans et que je me trouve confronté pour la premier fois à cette problématique.
Ma question portait sur ce décalage énorme de ma première indexation (pour des raisons inconnues à ce jour) et je voudrais avoir un point de vue extérieur sur cette problématique. Ici, j'ai eu plus d'indexation que possible !!! et non le contraire...
Donc je repose ma question :
On constate plus de 40 000 indexations pour un sitemap n'en comprenant en théorie que 10 500 URL active + 10 500 images, comment cela est possible lors de la premier soumission?
Cette indexation peut-elle être la cause d'un blacklistage de la part de Google ?
Merci beaucoup de votre retour.
Bien cordialement.
Haut
Messages: 12286

Enregistré le: 23 Nov 2005

Message le Ven Mar 10, 2017 15:06

Sans doute un large volume d'url indexable que tu ne maîtrises pas (ce qu'on appelle la masse noire) : url techniques, url de tri, de recherche, etc.

Mais sans url, impossible d'être plus précis.
Haut
Messages: 23101

Enregistré le: 19 Avr 2002

Message le Ven Mar 10, 2017 15:08

IEDfactory a écrit:Ici, j'ai eu plus d'indexation que possible !!! et non le contraire...

c'est justement ce que j'appelle la masse noire : des URL qui n'auraient pas dû être indexées (et parfois même crawlées)

IEDfactory a écrit:Donc je repose ma question :
On constate plus de 40 000 indexations pour un sitemap n'en comprenant en théorie que 10 500 URL active + 10 500 images, comment cela est possible lors de la premier soumission?
Cette indexation peut-elle être la cause d'un blacklistage de la part de Google ?

je ne crois avoir jamais vu ça dans le rapport des sitemaps. Est-ce bien là qu'il a été fourni ?

le blacklistage consiste à ne plus jamais faire apparaitre un site dans les résultats, à le désindexer totalement
ça n'a donc rien à voir
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Ven Mar 10, 2017 15:24

Pardon, mais il y aplus d'indexation que d'URL ! Cela n'est pas normal ?
Oui toutes les données viennent de la SC de Google....
Haut
Messages: 23101

Enregistré le: 19 Avr 2002

Message le Ven Mar 10, 2017 15:29

IEDfactory a écrit:Oui toutes les données viennent de la SC de Google....

ce n'est pas ma question
le rapport est-il effectivement fourni dans la partie sitemaps ?
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Ven Mar 10, 2017 15:33

Le rapport vient du tableau téléchargé dans la partie "Etat de l'indexation"

pour le sitemap :
Pages Web
15 640 URL envoyées
2 915 Dans l'index

Images
10 642 URL envoyées
43 Dans l'index
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Ven Mar 10, 2017 15:34

en date du 8/03/2017 pour le sitemap...
Haut
Messages: 12286

Enregistré le: 23 Nov 2005

Message le Ven Mar 10, 2017 15:37

Relis les messages précédents : ce n'est pas parce que tu envoies un nombre fini d'url à indexer via le sitemap que Google n'en trouve pas d'autres. Mais il faut une url pour en dire plus...
Haut
Messages: 23101

Enregistré le: 19 Avr 2002

Message le Ven Mar 10, 2017 15:43

donc c'est bien ce que j'écris depuis le début : il ne faut pas mélanger les 2 rapports !
il n'y a pas + d'URL indexées que d'URL fournies dans le sitemap
et pour le reste, c'est la masse noire
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Ven Mar 10, 2017 15:47

Je me permet d'insister ou de vous demander une explication.
Si on regarde les stats de la fin (mois de mars 2017) cela est cohérent entre le sitemap fourni et l'indexation, mais si on regarde les stats du 04/09/2016 on est dans une incohérence complète.
La masse noire correspond à la différence des URL crawlé et celle présente dans le sitemap, non ?
Pourtant c'est grosso modo le m^me sitemap qui a été envoyé entre les deux dates...
Merci de votre retour...
Haut
Messages: 12286

Enregistré le: 23 Nov 2005

Message le Ven Mar 10, 2017 15:53

Sauf que des ajustements techniques menés sur le site ont pu déclencher l'indexation de pages que tu n'envois pas via le sitemap. Mais une fois de plus, sans url...
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Ven Mar 10, 2017 15:57

OK j'entends bien cela, le moteur peut référencer des pages qui ne sont pas dans le sitemap et non bloquées par le robot.txt, mais comment peut-on avoir plus de pages référencées que d'existantes ?
Haut
Messages: 12286

Enregistré le: 23 Nov 2005

Message le Ven Mar 10, 2017 19:39

Qu'en sais-tu ? As tu lancé un crawl de ton site (ScreamingFrog, Xenu, MyRankingMetrics) de manière à vérifier que le nombre de pages qui sont accessibles au moteur correspond stricto sensu au nombre que tu envoies dans les sitemap ? De mon expérience, il y a souvent un delta, plus ou moins important.
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Ven Mar 10, 2017 20:05

OK je vais écouter ton conseil, mais delà de plus du double il y a bien eu un problème et je voudrais l'identifier... Merci de ce retour.
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Dim Mar 12, 2017 11:12

Je remercie les deux contributeurs qui sont intervenus, mais visiblement cela ne donne pas de réponse à mon interrogation sur l'indexation "délirante de mon site sur Google SC (plus de double d'URL existantes... Si quelqu'un à un avis une piste ou autre je suis preneur...
Merci d'avance.
Haut
Messages: 12286

Enregistré le: 23 Nov 2005

Message le Dim Mar 12, 2017 11:23

Tu as lancé un crawl de ton site ? Et tu trouves le même nombre d'url lors du crawl que le nombre que tu envois dans tes sitemaps ?
Haut
Messages: 10

Enregistré le: 4 Jan 2010

Message le Dim Mar 12, 2017 11:49

Merci de continuer le fil même un dimanche ! Il me semble que vous ne comprenez pas le problème, mais c'est moi qui doit mal l'expliquer. Aujourd'hui les résultats sont cohérents entre le nombre d'URL et d'images proposé dans le sitemap et l'indexation, mais au début c'était complétement délirant plus de 40 000 URL. Je n'avais pas fait de contrôle à l'époque, car j'avais la tête dans le guidon... Je suis en attente et en observation en ce moment pour l'amélioration de mon positionnement, mais je constate que quelques semaines (8) après l'indexation des deux dernières soumissions les chiffres sont cohérents. De plus Bing a référencé et positionné très vite les pages, ce qui n'est toujours pas le cas de Google. J'ai un outil de positionnement Adwancd Web Ranking que je lance toutes les semaines pour voir l'évolution, et c'est pas mieux du coté de Google et bon du côté de Bing.
Donc ma question est bien d'essayer de comprendre ou d'avoir des pistes de ce qui a pu se passer au début ? Et si cela n'a pas pénalisé mon site ?
Haut