Google bot c'est vraiment une logique binaire ^^

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


JeunZ
WRInaute accro
WRInaute accro
 
Messages: 5301
Inscription: Mer Fév 18, 2004 12:41

Google bot c'est vraiment une logique binaire ^^

Message le Ven Déc 03, 2004 1:20

J'ai un petit problème, j'ai fait une premiere version d'url rewriting de mon forum, avec par exemple des liens comme ceci:

monsite.com/forum/message_XXXX.html


comme on peut retrouver sur WRI (je crois), et ca envoyait à l'endroit PILE d'un post sur le forum. Donc environ 70 000 liens comme ça ont existait sur mon forum, et google les as déjà crawlé.


Mais depuis quelques temps, j'ai viré tous ces liens, plsu auccun n'apparait sur mon forum j'ai voulu privileger ce type d'url:

monsite.com/forum/xxx_titre_du_topic.html


mais googlebot à bonne mémoire et il se souvient des anciennes pages, et il continu à les crawler très fortement, et le pire c'est que ces pages en pratique existent, donc il va continuer at vitae eternam? Meme si plus aucune page ne les link?

Ca me fait du contenu dupliqué ça.


Comment l'en empecher à votre avis?

Tex
WRInaute impliqué
WRInaute impliqué
 
Messages: 447
Inscription: Ven Juil 09, 2004 11:17

Message le Ven Déc 03, 2004 11:37

faut dire a google de plus passer sur ces pages, donc robots.txt ou htaccess ..


schtroumpf
WRInaute impliqué
WRInaute impliqué
 
Messages: 382
Inscription: Dim Oct 26, 2003 11:46

Message le Ven Déc 03, 2004 11:38

Pourquoi les anciennes pages existent -elles en pratique? Vire le rewriting des anciennes pages et elles n'existeront plus. Enfin, c'est mon avis...

Arnaud


mahefarivony
WRInaute accro
WRInaute accro
 
Messages: 11405
Inscription: Lun Oct 14, 2002 10:00

Message le Ven Déc 03, 2004 11:44

70 000 404 bachées ? :-)


JeunZ
WRInaute accro
WRInaute accro
 
Messages: 5301
Inscription: Mer Fév 18, 2004 12:41

Message le Ven Déc 03, 2004 12:24

je ne vois pas se que je pourrai mettre dans le robots.txt pour emepcher de visiter ces pages, car c'est des pages url rewrités.


Virer la réécriture en message_xxx.html ca voudrait dire comme sous entend mahe 70 000 pages en 404 c'est pas très pro.


Je voudrais simplement qu'il arrete de les crawler, et ensuite je virerai la regle de réécriture.


Il a bien arreté de crawler directement mes anciennes anciennes pages viextopic.php?t=xxxx il a comprit que il n'y avait plus de liens vers ce genre de pages mais pour les messages_xxx.html malgré le fait qu'il n'y ai plus de lien il continu.

Et je suis vert quand je vois des milliers et des milliers de crawls sur des pages que je ne vois plus apparaitre.


Y a pas de solutions? :-( Sans faire des 404 à gogo. Juste lui dit d'arreter de crawler ça.


schtroumpf
WRInaute impliqué
WRInaute impliqué
 
Messages: 382
Inscription: Dim Oct 26, 2003 11:46

Message le Ven Déc 03, 2004 12:46

Si tu fait une redirection 301 des anciennes url vers les nouvelles? Je pense que ça doit pas être trop dur à faire.

Arnaud


JeunZ
WRInaute accro
WRInaute accro
 
Messages: 5301
Inscription: Mer Fév 18, 2004 12:41

Message le Ven Déc 03, 2004 12:57

Et bien si... Car message_xxx.html est le lien vers un post sur un forum alors que les urls que j'ai sont des topics sur un forum.


Faire une corelation entre post et topic avec en plus gestion des différentes pages quand un topic depasse 15 posts.


T'imagine tout se qu'il faut coder, autant j'aime bien coder, j'ai fait l'url rewritting avec mot clef dans le titre moi meme, autant ça ce serait de la folie.


schtroumpf
WRInaute impliqué
WRInaute impliqué
 
Messages: 382
Inscription: Dim Oct 26, 2003 11:46

Message le Ven Déc 03, 2004 13:00

Ok, je vois pas sinon.

Arnaud


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

Message le Ven Déc 03, 2004 15:54

reste avec ta 1re version d'UR ... de toute façon c'est pas bon pour ton ref de changer plusieurs fois ... :wink:


JeunZ
WRInaute accro
WRInaute accro
 
Messages: 5301
Inscription: Mer Fév 18, 2004 12:41

Message le Ven Déc 03, 2004 16:51

oui mais meme dans ma premiere version je n'aurai jamais du faire une page message_xxx.html pour les "post" car ca fait des duplicate contents avec les viewtopic de toute façon.

Y a qu'a voir Wri, il a viré le petit lien qui se trouvé normalement juste avant chacun de nos post avant le: "Posté le : Ven Déc 03" Normalement il y a une image à cet endroit avec un lien vers le post exact.

(je comprend du reste pas pourquoi Olivier à viré l'image, il aurait pu virer le lien en laissant l'image blanche ou orange en fonction du fait que oui ou non on a déjà vu le post).


niceunef
WRInaute accro
WRInaute accro
 
Messages: 1811
Inscription: Lun Jan 19, 2004 18:55

Message le Ven Déc 03, 2004 18:25

Une page et ses extraits, ca ne fait pas vraiment de duplication en fait.
Sinon le robots.txt ne met pas la page en 404, il conseille aux robots de ne plus y aller, donc ca peut aider.
Tu peux aussi protéger par des meta noindex (surtout si ce sont des pages "message" distinctes des pages "topic", bref sans empiéter sur les pages a garder).
Ou aussi bannir les IPs des robots cherchant a voir ces pages?
S'il n'y a plus du tout (meme dans les messages postés) de liens vers ces URLs, ca devrait aller. Mais si elles se font des liens entre elles, c'est pas gagné...
Voir la FAQ de Google pour supprimer des pages de l'index


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités