Messages: 10

Enregistré le: 3 Mar 2014

Message le Lun Mar 03, 2014 13:41

Bonjour à tous,

Notre site est lancé depuis quelques mois, et en ce moment on se retrouve avec un pic ahurissant de 1500 pages bloquées par le robots.txt
Il dépasse même le nombre de pages indexées et la progression continue...


Image


Voici le fichier robot.txt

User-agent: *
# Private pages
Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*back=
Disallow: /*utm_source=
Disallow: /*utm_medium=
Disallow: /*utm_campaign=
Disallow: /*n=
Disallow: /*controller=addresses
Disallow: /*controller=address
Disallow: /*controller=authentication
Disallow: /*controller=cart
Disallow: /*controller=discount
Disallow: /*controller=footer
Disallow: /*controller=get-file
Disallow: /*controller=header
Disallow: /*controller=history
Disallow: /*controller=identity
Disallow: /*controller=images.inc
Disallow: /*controller=init
Disallow: /*controller=my-account
Disallow: /*controller=order
Disallow: /*controller=order-opc
Disallow: /*controller=order-slip
Disallow: /*controller=order-detail
Disallow: /*controller=order-follow
Disallow: /*controller=order-return
Disallow: /*controller=order-confirmation
Disallow: /*controller=pagination
Disallow: /*controller=password
Disallow: /*controller=pdf-invoice
Disallow: /*controller=pdf-order-return
Disallow: /*controller=pdf-order-slip
Disallow: /*controller=product-sort
Disallow: /*controller=search
Disallow: /*controller=statistics
Disallow: /*controller=attachment
Disallow: /*controller=guest-tracking
# Directories
Disallow: /*classes/
Disallow: /*config/
Disallow: /*download/
Disallow: /*mails/
Disallow: /*modules/
Disallow: /*translations/
Disallow: /*tools/
# Files
Disallow: /*fr/mot-de-passe-oublie
Disallow: /*fr/adresse
Disallow: /*fr/adresses
Disallow: /*fr/authentification
Disallow: /*fr/panier
Disallow: /*fr/bons-de-reduction
Disallow: /*fr/historique-des-commandes
Disallow: /*fr/identite
Disallow: /*fr/mon-compte
Disallow: /*fr/details-de-la-commande
Disallow: /*fr/avoirs
Disallow: /*fr/commande
Disallow: /*fr/recherche
Disallow: /*fr/commande-rapide
Disallow: /*fr/suivi-commande-invite
Disallow: /*fr/confirmation-commande
# Sitemap


Cela peut il venir de duplicate content ?


Merci beaucoup pour vos précisions
Haut
16 Réponses
Messages: 18372

Enregistré le: 5 Juin 2006

Message le Lun Mar 03, 2014 13:53

Et le site est ?
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Lun Mar 03, 2014 14:24

Désolé, le site c'est bienvivresenior.com
Haut
Messages: 395

Enregistré le: 28 Aoû 2004

Message le Lun Mar 03, 2014 14:49

Kévin-bvs a écrit:Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*back=
Disallow: /*utm_source=
Disallow: /*utm_medium=
Disallow: /*utm_campaign=
Disallow: /*n=



Tout cela fait référence à du dynamique non? Normal donc si ton contenu augmente que les pages non indexées aussi puisque tu le demandes dans le robots.txt
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Lun Mar 03, 2014 15:09

Oui je suis d'accord mais c'est plus le fait que le nombre de pages bloquées dépassent celui des pages indexées que je trouve surprenant..
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Lun Mar 03, 2014 19:00

Du coup comment puis je faire pour savoir si ça ne bloque que les pages dupliquées ? Est ce qu'une progression aussi forte pourrait venir de ça ?
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Lun Mar 03, 2014 20:42

Désolé du double post, mais ce qui est bizarre aussi c'est que depuis une semaine les pages indexées n'augmentent plus (on le voit bien sur le graphique) alors que je continue de créer des fiches produits et de les mettre en ligne...
Haut
Messages: 12286

Enregistré le: 23 Nov 2005

Message le Lun Mar 03, 2014 20:54

Perso, je sélectionnerais un échantillon représentatif des différents types de pages du site de manière à les tester sur GWT, pour voir comment le robot les interprète.
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Lun Mar 03, 2014 21:26

Pour faire ça je dois donc rentrer les adresses des pages que je veux tester dans l'encart de GWT : "URL Spécifiez les URL et les user-agents à tester. " ?
De l'onglet URL Bloquées.
Haut
Messages: 2911

Enregistré le: 8 Avr 2011

Message le Lun Mar 03, 2014 21:45

en même temps les pages bloquées peuvent monter très vite.

Admettons que tu bloques les fiches de membres, si tu as plus de nouveaux membres inscrits que d'articles que tu publies il y a de fortes chances que le le nombre de pages bloquées dépassent les pages indexées. Dites moi si je fais fausse route :mrgreen:

Après la question est de savoir si c'est bien perçu par google ou non
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Mar Mar 04, 2014 0:14

Peut-être dans un autre cas, mais pas dans celui ci, car justement nous avons moins d'inscriptions et moins de visites en ce moment. Est ce que ça pourrait être lié au taux de pages bloquées ?

Pourtant nos fiches produits ont l'air d'être toutes référencées par Google même les plus récentes de la semaines dernière, alors que sur la courbe le taux d'indexation est nul depuis 1 semaine..
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Mar Mar 04, 2014 11:29

bossboss a écrit:
Kévin-bvs a écrit:Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*back=
Disallow: /*utm_source=
Disallow: /*utm_medium=
Disallow: /*utm_campaign=
Disallow: /*n=



Tout cela fait référence à du dynamique non? Normal donc si ton contenu augmente que les pages non indexées aussi puisque tu le demandes dans le robots.txt



Et supprimer cette partie du robots.txt ne serait pas une bonne chose ?
Haut
Messages: 23107

Enregistré le: 19 Avr 2002

Message le Mar Mar 04, 2014 12:37

il faut raisonner au cas par cas, selon chaque paramètre d'URL...
Par exemple les URL avec orderby ne doivent pas être indexées (et pas non plus crawlées)

Ce n'est pas forcément alarmant comme situation. Il faut plutôt te demander si le nb d'URL indexée correspond au nb d'URL que tu souhaites faire indexer. Est-ce le cas ?
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Mar Mar 04, 2014 14:11

Bonjour,

Merci de ta réponse,

avec la commande "site:" je ressors 1600 résultats
Sur google web tools : il me dit qu'il y a 1280 pages indexées (courbe du haut) mais qui n'augmente plus depuis plus d'une semaine alors que les fiches sont bien indexées quand je les recherche

Sitemap : date d'envoi 208
88 dans l'index
Au final je vois pas trop à quoi ça correspond,c'est normal que ce soit si bas comparé au nombre de pages indexées ?


Après comment trouves t-on le nombre de pages qui devraient être indexées ?

Merci
Haut
Messages: 23107

Enregistré le: 19 Avr 2002

Message le Mer Mar 05, 2014 11:49

Kévin-bvs a écrit:Sitemap : date d'envoi 208
88 dans l'index
Au final je vois pas trop à quoi ça correspond,c'est normal que ce soit si bas comparé au nombre de pages indexées ?


Après comment trouves t-on le nombre de pages qui devraient être indexées ?

Merci

non ce n'est pas normal d'avoir aussi peu de pages indexées par rapport à celles fournies dans le sitemap

le nb de pages qui devraient être indexées est à déterminer par un script, sur-mesure par rapport à ton site.
d'ailleurs, comment est généré le sitemap ? les 208 URL représentent-elles 100% du site ?
Haut
Messages: 10

Enregistré le: 3 Mar 2014

Message le Mer Mar 05, 2014 16:06

Normalement nous avons bien plus de 208 pages...
D'ailleurs sur google avec la commande "site:" nous avons 1600 résultats à tomber dans les recherches? Ce sont bien des pages indexées ?

En fait le sitemap c'est pas nous qui l'avons fait mais la société qui a créée le site.
Haut
Messages: 23107

Enregistré le: 19 Avr 2002

Message le Mer Mar 05, 2014 18:27

Kévin-bvs a écrit:Normalement nous avons bien plus de 208 pages...
D'ailleurs sur google avec la commande "site:" nous avons 1600 résultats à tomber dans les recherches? Ce sont bien des pages indexées ?

oui, c'est une estimation du nb de pages indexées. Mais moi je demande le nb de pages à indexer. Il peut être très différent et dans ce cas cela signifie qu'il y a des pb.
tu devrais faire l'exercice de créer un tableau listant pour chaque type de page le nombre d'URL
par exemple 23 catégories + 5645 fiches produit + XXX pages de tel type, etc.
c'est justement le boulot de la création d'un fichier sitemap exhaustif
Haut