Suprression de 1 000 000 urls

Nouveau WRInaute
A tous,

Après un long audit d'un site web, j'en suis arrivé à la conclusion qu'il fallait que je supprime plus de 1 000 000 d'urls complétements inutiles sur mon site. La décision est prise mais j'aimerai savoir s'il existe un moyen pour pas trop me faire griller par Google ?
En effet, si je supprime toutes ces pages, il va y avoir des erreurs 404 dans tous les sens. Est-ce qu'il y a un moyen de supprimer des urls de façon "propre"

Merci à tous
 
WRInaute accro
301 vers les pages les plus pertinentes par rapport à la 404

ou

404 "intelligente", proposant des pages proches de la demande
 
Olivier Duffez (admin)
Membre du personnel
si elles sont toutes dans un même répertoire, c'est très facile (*), sinon moins (en tout cas dans ce 2nd cas ça peut être long)

* tu mets un Disallow du répertoire dans le fichier robots.txt puis tu en demandes la désindexation dans Search Console

au fait, il a combien d'URL le site ?
 
Nouveau WRInaute
WebRankInfo a dit:
si elles sont toutes dans un même répertoire, c'est très facile (*), sinon moins (en tout cas dans ce 2nd cas ça peut être long)

* tu mets un Disallow du répertoire dans le fichier robots.txt puis tu en demandes la désindexation dans Search Console

au fait, il a combien d'URL le site ?

En tout il y a environ 1 700 000 urls. Le problème que je vais rencontrer c'est que c'est un unique répertoire, mais que j'ai quand même 20 000 urls que je souhaite garder. Du coup je ne peux pas mettre un Disallow dans le fichier.
HawkEye a dit:
301 vers les pages les plus pertinentes par rapport à la 404

ou

404 "intelligente", proposant des pages proches de la demande

J'avais pensé au début à faire une redirection intelligente "404", mais est-ce que ça ne serait pas un signal assez négatif aux yeux de google ? Plus de 1 000 000 d'url en erreur 404 du jour au lendemain ? Même si je le fais petit à petit pas sûr que cela soit positif.
De plus, l'idée de cette suppression d'url est de laisser un temps de crawl plus important à GoogleBot aux URLS qui en valent plus le coup.
 
WRInaute accro
Un NoIndex / Disallow pur et dur va te stériliser complètement ces pages, d'un seul coup.
Elles apportent probablement du trafic, même si c'est peu, et elles ont - qu'on le veuille ou non - du jus à transmettre (peut être mal, mais tout de même).

Des redirections 301 te permettraient de renvoyer une partie de ce "jus" vers d'autres pages.
Attention... j'ai parlé de pages pertinentes: si tu rediriges 1M pages vers 200K autres pages, ça passe... mais si c'est pour renvoyer 1M pages vers 5 pages de type "la catégorie à laquelle la page morte appartenait"... ça passera moins bien.

...et dans ce second cas, quitte à perdre leur jus, ne perds pas leur trafic: une 404 reste une page crawlée et "analysable", elle renvoie des signaux. Ton visiteur tombe dessus, il lui est proposé une série d'autres pages valables et cohérentes avec ce que tu as pu analyser comme info (depuis l'URL, depuis un id, depuis ce qu'il te reste en DB à propos de cette page), et continue sa visite, ce qui a un impact sur pas mal d'indicateurs.
 
Nouveau WRInaute
HawkEye a dit:
Un NoIndex / Disallow pur et dur va te stériliser complètement ces pages, d'un seul coup.
Elles apportent probablement du trafic, même si c'est peu

Ces URls n'apportent justement aucun trafic organique. c'est pour ça que je les ai sélectionné.
J'ai gardé les 20 000 urls du même type qui elles apportent du trafic. J'ai récupéré toutes les urls de ce type depuis 2011, et seulement 20 000 apportent du trafic organique.

HawkEye a dit:
...et dans ce second cas, quitte à perdre leur jus, ne perds pas leur trafic: une 404 reste une page crawlée et "analysable"

Le but étant de justement éviter Google a perdre son temps sur 1 000 000 d'url qui ne servent à rien et passer plus de temps à crawler des pages que j'aimerai ranker. En analysant les logs serveurs je me suis rendu compte que Googlebot passe beaucoup trop de temps dessus et très peu sur les autres urls.
 
WRInaute accro
WebRankInfo a dit:
qui te dit que ces pages avaient du jus ? (autre que le maillage interne)

Rien ne permet de l'affirmer avec certitude, mais si c'est le cas (ne fût-ce qu'un peu...), ce serait dommage de s'en passer ;)

fneuenschwander a dit:
Le but étant de justement éviter Google a perdre son temps sur 1 000 000 d'url qui ne servent à rien et passer plus de temps à crawler des pages que j'aimerai ranker.

J'ai bien compris ton intention. La 301 va désindexer tes pages (au profit d'autres pages): elles ne seront rapidement plus crawlées.
 
Membre Honoré
Bonjour,

N'hésitez pas à présenter le site pour des avis plus précis.
Sinon vu le chantier (indiqué avec le sujet), un bon nettoyage devrait être bien.

Cordialement.
 
Nouveau WRInaute
Merci à tous pour vos réponses.
Je pense que je vais opter pour la désindexation pur et dure (étant donné qu'il n'y a aucun jus sur ces urls).
Je vais probablement le faire petit à petit, environ 100 000 urls par semaine et voir ce que ça donne.

je vous tiendrai au courant de l'avancée des choses.

PS : dernière question, si je mets la balise "noindex, follow" pensez-vous que cela pourrait résoudre mon problème ?
 
WRInaute accro
fneuenschwander a dit:
PS : dernière question, si je mets la balise "noindex, follow" pensez-vous que cela pourrait résoudre mon problème ?

Non.
Car si ces pages reçoivent elles-mêmes des liens, google viendra toujours les crawler. Il viendra les voir juste pour s'assurer que la balise meta n'a pas changé et pour suivre les liens que ces pages contiennent, au cas où le contenu de ces pages change.

Si ton problème est d'empêcher google de venir visiter ces pages pour s'occuper un peu plus des pages plus importantes, il faut, en plus, que ces pages ne reçoivent plus aucun lien interne.

Mais là encore ça ne va pas suffire car maintenant qu'elles sont connues de google, il va toujours y revenir.
Il faudrait donc qu'elles retournent un code 410 pour indiquer à google qu'elles ont été supprimées. ou un code 301 pour indiquer qu'elles ont été déplacées définitivement. Google viendra ensuite les revisiter à maintes reprises pour s'assurer que cette réponse est maintenue dans le temps. Et quand il en aura la certitude il ne viendra plus.
 
WRInaute discret
Je confirme indigene.

J'ai un site de plus de 2 millions de pages, dont certaines disparaissent régulièrement.
Même avec des 410, google les crawl et les met en erreur dans gmt au bout de plus d'un an, même s'il n'y a plus aucun lien interne et externe.
 
WRInaute accro
oui, il retourne les voir régulièrement car google n'oublie rien. Une fois qu'il a eut connaissance d'une url il va toujours revenir la voir. Mais il espace ses visites. Parfois il peut revenir seulement tous les 6 mois ou encore moins. Il ajuste la fréquence de ses crawl en fonction de la vie de chaque page. Si aujourd'hui il vient visiter la page toutes les semaines, avec un code 410 il va espacer ses visites.
C'est comme dans un forum, il ne crawl pas aussi souvent les posts très anciens que les posts d'il y a quelques jours.
 
WRInaute passionné
ATTENTION : je l'ai fait (404) . NE FAIT JAMAIS ÇA, je t'expliques ;
j'ai changé pour la deuxième fois il y a pas mal de mois ma structure. J'ai déplacé 4 millions de pages sur 10 millions, j'ai laissé en 404 pour que google les effaces. Vu que c'est sous 1000 répertoires différents, je n'ai pas voulu charger le fichier HTACCESS.

Ca été très vite la cata; perte de 40% du trafic en quelques jours. J'ai donc tout remis a sa place, mon trafic a mis plus de 3 mois pour revenir a la normale. J'ai ensuite trouvé une formule pour déplacer répertoires et sous répertoires, et sous sous... avec une redirection 302 vers une nouvelle forme d'url, en test SEO. Ca n'a rien changé. Du coup, je suis revenu a la normale (au début) avec des redirections des nouveaux répertoires vers les anciens. ca n'a rien changé, mais finalement, j'aurais mieux fait de ne rien faire. Il a fallu 6 mois au total pour revenir exactement au même trafic.

je te conseille très vivement des redirections par gourpe si tu peux, jamais de 404. au mieux, je laisse, et je met no-index sur les pages, tu pourra le virer si ton trafic baisse, sans rien changer.
 
Nouveau WRInaute
longo600 a dit:
ATTENTION : je l'ai fait (404) . NE FAIT JAMAIS ÇA, je t'expliques ;
j'ai changé pour la deuxième fois il y a pas mal de mois ma structure. J'ai déplacé 4 millions de pages sur 10 millions, j'ai laissé en 404 pour que google les effaces. Ca été très vite la cata; perte de 40% du trafic en quelques jours.

Mais est-ce que tes pages à la base recevaient du trafic ? Cela expliquerait peut-être la perte de trafic de 40%.
Alors que dans mon cas ces pages là ne reçoivent absolument 0 trafic et ce depuis 2011
 
WRInaute passionné
pas toutes. Certaines ne recevaient plus de trafic car les urls avaient changées dans le temps, puisque le site a 19 ans d'existance et si mes souvenir sont bon, sous ce domaine depuis 2006. Lors du changement de structure, j'ai changé de serveur, et toutes les pages ont été régénérées puisque ce sont toutes des pages statiques régénérées par mon application chaque semaine. Donc, toutes les anciennes pages n'ont pas été régénérées , en plus d'avoir changé de structure.

Mais bref, evite a tout prix de balancer a google un signal d'erreurs 404 qui monte en flèche. Cela dit, on s'en remet si tu veux tenter l'expérience ...

Et presque 1 an après, ce n'est toujours pas 100% terminé chez moi. Google me trouve des 404 tous les jours, au rythme d'une trentaine, ce qui est peu. Cela signifie qu'il passe sur certaines pages moins consultées plus rarement que d'autres.
 
WRInaute passionné
fneuenschwander a dit:
Je vais donc opter pour la redirection 301 intelligente
1million de pages zéro trafic, je te conseille avant de toucher de prendre un audit auprès d'un vrai expert, même payant.
Ce serait une perte énorme, si tu les supprimes, en potentiel. Il vaut mieux exploiter leur présence dans les data de google.

Il suffit tellement de peu parfois... dommage qu'il n'y a pas l'url du site.
 
Discussions similaires
Haut