Majorité de page en "noindex"

maloc · 22 Juillet 2016

Bonjour,

La question est assez basique, mais j'ai un doute, donc je préfère demander votre avis.

Est-ce qu'il y a une contre indication à avoir une majorité de page en noindex ?

Je m'explique, des pages sont créés chaque jour par centaine (justifié), seulement, leur durée de vie est très courte, et je ne souhaite pas référencer ces pages, mais en gros, la catégorie qui les contient oui. Seulement, pour une raison pratique, mes membres préfèrent une page à part plutôt qu'une fausse page AJAX ou équivalent.

Bref, le site a beaucoup de page (plusieurs dizaines de milliers), aurait facilement 30 fois plus de page en "noindex". Est-ce que c'est dérangeant pour Google d'avoir un très grand nombre de page "noindex" par rapport à ceux que je laisse indexé ?

(dès lors qu'elles sont trop expirés, donc supérieur à 3 mois en général, je pourrai mettre ses pages en 301 vers la page à référencer, par exemple).

Merci de votre avis !

Bigb06 · 23 Juillet 2016

Bonjour,

je pense qu'il n'y a aucun problème concernant le positionnement, par contre coté crawl ca peut etre problématique pour Google qui doit crawler les urls pour s'apercevoir qu'elles sont en noindex. Le mieux est de rajouter un attribut rel="nofollow" sur les liens vers des pages noindex pour éviter à Google de crawler des pages inutilement.

Madrileño · 24 Juillet 2016

Bonjour,

+1 rel nofollow et robots.txt pour aider le bot.

Cordialement.

NicolasH · 25 Juillet 2016

Bonjour,

Tu peux par exemple mettre tes pages dans un dossier (exemple : /pages/) et bloquer ce dossier au crawl dans le robots.txt.

Pour être certain de ne pas avoir ces pages indexées dans les moteurs de recherche mais aussi pour désindexer celles qui le sont déjà tu peux ajouter la balise meta suivante :
<meta name="robots" content="noindex"> sur l'ensemble des pages concernées.

maloc · 25 Juillet 2016

Ok, merci de votre avis, c'est ce que j'avais fais, mais effectivement, je n'avais pas pensé au nofollow, je vais m'y atteler

Madrileño · 25 Juillet 2016

Bonjour,

Si vous souhaitez d'autres avis, vous pouvez présenter l'URL du site.

Cordialement.

patrick_lejeune · 25 Juillet 2016

La règle de base en liens internes est INDEX et liens FOLLOW. Une autre approche est plus directe: une page qui ne doit plus être reprise reprend un lien vers une nouvelle page à contenu équivalent (ou vers la catégorie supérieure).

header('Status: 301 Moved Permanently', false, 301);
header('Location: http://www.exemple.com/categorie/');

Rappelle quand même le noindex ... ca ne bloque pas le robot d'indexation, juste qu'il n'en tient pas compte dans les résultats. La solution est plutôt d'utiliser le fichier robot.txt et ses règles pour qu'il ne les lise pas du tout! (ou redirection ci-dessus)

NicolasH · 26 Juillet 2016

Bonjour,

patrick_lejeune >> Je pense qu'il faut utiliser les 2 (robots.txt + noindex).
Eventuellement la 301 à la place mais il faut que cela soit justifié mais vu ce que dit l'auteur dans le 1er message je ne pense pas que la 301 le soit.

maloc · 26 Juillet 2016

L'idée de mettre un canonical vers la catégorie supérieur vous semble-t-il approprié ? (à la place du noindex par conséquent).

WebRankInfo · 30 Juillet 2016

si tu as 30x plus de pages en noindex que les index, il me semble évident que la meilleure solution est d'empêcher Google de les crawler (ainsi que de les indexer, cela va sans dire)

je suppose qu'elles ne sont pas indexées pour l'instant, donc il ne te reste qu'à les bloquer via le fichier robots.txt

noren · 1 Août 2016

Il faut quand même que ces pages ne soient pas accessibles par GG lorsqu'il visite le site. Sinon il va quand même les indexer en mettant un message dans la meta pour signaler qu'il n'a pas pu les crawler. Ca me semble pas génial non plus.

WebRankInfo · 1 Août 2016

noren a dit:
il va quand même les indexer en mettant un message dans la meta pour signaler qu'il n'a pas pu les crawler.

tu mélanges les choses... s'il ne peut pas les crawler (jamais), il ne pourra pas les indexer.
c'est dans le cas inverse, quand on bloque le crawl et qu'on cherche malgré tout à faire apparaitre ces pages dans les SERP, par exemple avec une commande site:

noren · 1 Août 2016

Je parle du cas de figure expliqué sur cette page, dans le paragraphe suivant : Google connait des pages sans pourtant y accéder !
https://www.webrankinfo.com/dossiers/indexation/crawl-respect-robots-txt

Parler d'indexation n’est peut être pas tout à fait juste mais du moment que des pages sont likées sur notre site ou ailleurs, même si elles sont bloquées par le robots.txt elles peuvent parfois être "indexées" (visible dans les serps).

On peut même lire dans l'article : Conclusion : Google peut vous générer du trafic grâce à des pages qu'il n'a jamais crawlées !

Après effectivement je ne sais pas si le problème persiste lorsque GG a pu avant le blocage du crawl, crawler la page et vérifier qu'elle était en noindex.
L’idéal serait vraiment dans le robots.txt de bloquer le crawl et "l'indexation". Il y a d'ailleurs une commande noindex non officielle pour le robots.txt il me semble.

Si je parle de ça ici, c’est que j'avais rencontré pas mal de soucis avec le robots.txt

Quoi qu'il en soit il me semble que dans certains cas, meme si on bloque le crawl, vu qu'il ne peut avoir aucune info sur la page, il ajoute la page dans les serps (index) mais ajoute une META et un Title par défaut.

patrick_lejeune · 6 Août 2016

> Olivier, c'est moi qui m'y colle :mrgreen:
> Noren :wink:
On commence par les différentes possibilités pour empécher qu'une page soit vue (moteurs et visiteurs).
1. htaccess avec redirection vers une autre page ou message d'erreur
- message d'erreur: erreur 404 (page n'existe pas), 303 (interdit)
2. en PHP pour quelques CMS et développements "maison" dans le header (ou avant)
sur la page: interdit l'accés à tout le monde

Code:

header("HTTP/1.1 403 Forbidden");
 exit();

ou renvoyer une redirection

header('Status: 301 Moved Permanently', false, 301);
header('Location: http://www.tas-le look-referencement.be/t-eteint-ton-ordi-pour-les-vacances');

3. robot.txt: permet d'interdire la page aux robots qui suivent les directives
- tous les robots ne suivent pas ces directives (les vrais moteurs oui)
- interdire les robots pour une page déjà crawlée ne supprime pas la page des résultats: d'où les premières solutions (erreurs 404 ou redirection)
... dans tous ces cas (les parasites)
tu peux bloquer la page /http ... a-pas-visiter.htm et un lien vers a-pas-visiter.htm/XXXX passe dans beaucoup de cas. Même aussi spécifique: http://exemple.com/referencement.WRI peut passer avec des blocages sur http://www.exemple.com/referencement.WRI