Google bot c'est vraiment une logique binaire ^^
11 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
Google bot c'est vraiment une logique binaire ^^
J'ai un petit problème, j'ai fait une premiere version d'url rewriting de mon forum, avec par exemple des liens comme ceci:
monsite.com/forum/message_XXXX.html
comme on peut retrouver sur WRI (je crois), et ca envoyait à l'endroit PILE d'un post sur le forum. Donc environ 70 000 liens comme ça ont existait sur mon forum, et google les as déjà crawlé.
Mais depuis quelques temps, j'ai viré tous ces liens, plsu auccun n'apparait sur mon forum j'ai voulu privileger ce type d'url:
monsite.com/forum/xxx_titre_du_topic.html
mais googlebot à bonne mémoire et il se souvient des anciennes pages, et il continu à les crawler très fortement, et le pire c'est que ces pages en pratique existent, donc il va continuer at vitae eternam? Meme si plus aucune page ne les link?
Ca me fait du contenu dupliqué ça.
Comment l'en empecher à votre avis?
monsite.com/forum/message_XXXX.html
comme on peut retrouver sur WRI (je crois), et ca envoyait à l'endroit PILE d'un post sur le forum. Donc environ 70 000 liens comme ça ont existait sur mon forum, et google les as déjà crawlé.
Mais depuis quelques temps, j'ai viré tous ces liens, plsu auccun n'apparait sur mon forum j'ai voulu privileger ce type d'url:
monsite.com/forum/xxx_titre_du_topic.html
mais googlebot à bonne mémoire et il se souvient des anciennes pages, et il continu à les crawler très fortement, et le pire c'est que ces pages en pratique existent, donc il va continuer at vitae eternam? Meme si plus aucune page ne les link?
Ca me fait du contenu dupliqué ça.
Comment l'en empecher à votre avis?
-

schtroumpf - WRInaute impliqué

- Messages: 382
- Inscription: Dim Oct 26, 2003 11:46
Pourquoi les anciennes pages existent -elles en pratique? Vire le rewriting des anciennes pages et elles n'existeront plus. Enfin, c'est mon avis...
Arnaud
Arnaud
je ne vois pas se que je pourrai mettre dans le robots.txt pour emepcher de visiter ces pages, car c'est des pages url rewrités.
Virer la réécriture en message_xxx.html ca voudrait dire comme sous entend mahe 70 000 pages en 404 c'est pas très pro.
Je voudrais simplement qu'il arrete de les crawler, et ensuite je virerai la regle de réécriture.
Il a bien arreté de crawler directement mes anciennes anciennes pages viextopic.php?t=xxxx il a comprit que il n'y avait plus de liens vers ce genre de pages mais pour les messages_xxx.html malgré le fait qu'il n'y ai plus de lien il continu.
Et je suis vert quand je vois des milliers et des milliers de crawls sur des pages que je ne vois plus apparaitre.
Y a pas de solutions?
Sans faire des 404 à gogo. Juste lui dit d'arreter de crawler ça.
Virer la réécriture en message_xxx.html ca voudrait dire comme sous entend mahe 70 000 pages en 404 c'est pas très pro.
Je voudrais simplement qu'il arrete de les crawler, et ensuite je virerai la regle de réécriture.
Il a bien arreté de crawler directement mes anciennes anciennes pages viextopic.php?t=xxxx il a comprit que il n'y avait plus de liens vers ce genre de pages mais pour les messages_xxx.html malgré le fait qu'il n'y ai plus de lien il continu.
Et je suis vert quand je vois des milliers et des milliers de crawls sur des pages que je ne vois plus apparaitre.
Y a pas de solutions?
-

schtroumpf - WRInaute impliqué

- Messages: 382
- Inscription: Dim Oct 26, 2003 11:46
Si tu fait une redirection 301 des anciennes url vers les nouvelles? Je pense que ça doit pas être trop dur à faire.
Arnaud
Arnaud
Et bien si... Car message_xxx.html est le lien vers un post sur un forum alors que les urls que j'ai sont des topics sur un forum.
Faire une corelation entre post et topic avec en plus gestion des différentes pages quand un topic depasse 15 posts.
T'imagine tout se qu'il faut coder, autant j'aime bien coder, j'ai fait l'url rewritting avec mot clef dans le titre moi meme, autant ça ce serait de la folie.
Faire une corelation entre post et topic avec en plus gestion des différentes pages quand un topic depasse 15 posts.
T'imagine tout se qu'il faut coder, autant j'aime bien coder, j'ai fait l'url rewritting avec mot clef dans le titre moi meme, autant ça ce serait de la folie.
-

schtroumpf - WRInaute impliqué

- Messages: 382
- Inscription: Dim Oct 26, 2003 11:46
Ok, je vois pas sinon.
Arnaud
Arnaud
-

Cendrillon - WRInaute accro

- Messages: 4747
- Inscription: Mar Aoû 17, 2004 15:41
reste avec ta 1re version d'UR ... de toute façon c'est pas bon pour ton ref de changer plusieurs fois ... 
oui mais meme dans ma premiere version je n'aurai jamais du faire une page message_xxx.html pour les "post" car ca fait des duplicate contents avec les viewtopic de toute façon.
Y a qu'a voir Wri, il a viré le petit lien qui se trouvé normalement juste avant chacun de nos post avant le: "Posté le : Ven Déc 03" Normalement il y a une image à cet endroit avec un lien vers le post exact.
(je comprend du reste pas pourquoi Olivier à viré l'image, il aurait pu virer le lien en laissant l'image blanche ou orange en fonction du fait que oui ou non on a déjà vu le post).
Y a qu'a voir Wri, il a viré le petit lien qui se trouvé normalement juste avant chacun de nos post avant le: "Posté le : Ven Déc 03" Normalement il y a une image à cet endroit avec un lien vers le post exact.
(je comprend du reste pas pourquoi Olivier à viré l'image, il aurait pu virer le lien en laissant l'image blanche ou orange en fonction du fait que oui ou non on a déjà vu le post).
Une page et ses extraits, ca ne fait pas vraiment de duplication en fait.
Sinon le robots.txt ne met pas la page en 404, il conseille aux robots de ne plus y aller, donc ca peut aider.
Tu peux aussi protéger par des meta noindex (surtout si ce sont des pages "message" distinctes des pages "topic", bref sans empiéter sur les pages a garder).
Ou aussi bannir les IPs des robots cherchant a voir ces pages?
S'il n'y a plus du tout (meme dans les messages postés) de liens vers ces URLs, ca devrait aller. Mais si elles se font des liens entre elles, c'est pas gagné...
Voir la FAQ de Google pour supprimer des pages de l'index
Sinon le robots.txt ne met pas la page en 404, il conseille aux robots de ne plus y aller, donc ca peut aider.
Tu peux aussi protéger par des meta noindex (surtout si ce sont des pages "message" distinctes des pages "topic", bref sans empiéter sur les pages a garder).
Ou aussi bannir les IPs des robots cherchant a voir ces pages?
S'il n'y a plus du tout (meme dans les messages postés) de liens vers ces URLs, ca devrait aller. Mais si elles se font des liens entre elles, c'est pas gagné...
Voir la FAQ de Google pour supprimer des pages de l'index
11 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot)
- Google utilise-t-il plusieurs algorithmes à la fois ?
- Google Presently : le concurrent de Powerpoint
- 1ère faille de sécurité découverte sur Google Chrome
- Mise à jour de Google Images (Juillet 2006)
- Mise à jour de Google Images (16/04/2006)
- Google rachète DoubleClick pour 3,1 milliards de dollars
- Google crawle les fichiers CSS
- Affichage de la description DMOZ dans MSN Search
- WebRankInfo lance un forum sur le référencement Google des images, vidéos, cartes...
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités



le forum