Cloaking et sessions


dredd
Nouveau WRInaute
 
Messages: 49
Inscription: Mer Nov 17, 2004 12:03

Cloaking et sessions

Message le Lun Nov 22, 2004 17:47

Bonjour à tous,

Plutot nouveau sur le web, et pas informaticien par formation, j'ai vu pas mal de choses sur le problème posé au niveau réferencement par l'utilisation des sessions. Et j'ai vu aussi qu'une solution passait par le cloaking des pages pour ne pas démarrer de sessions quand un robot était détecté. ça me parait valable comme approche technique, et "déontologiquement" acceptable quant on ne peut pas se passer de session.

Voila mes questions :
Pour détecter le passage des robots, je pense me greffer sur un bout du script de robostat (robostat.inc). Est ce que je peux, sans m'attirer les foudres du (des?) développeurs de l'outil ? Je ne sais pas trop à qui demander ça, donc je poste sur ce forum dédié à Robostats. Si ce n'est pas possible, pas de problème, je développerai un script spécifique.

Du coup, je me suis plongé dans le code de robostat.inc, et j'ai vu que pour la détection, le script passait soit par l'IP, soit par le User_agent. Pourquoi le test ne se fait il pas systématiquement sur les 2 ? Je prend comme exemple google, qui semble changer d'IP de temps en temps. La detection ne serait elle pas plus efficace ?

Encore une fois, je suis plutôt débutant en programmation, donc ne voyez aucune prétention dans mon post, mais je suis curieux et j'aime bien comprendre.

Merci de vos réactions


Twister
WRInaute passionné
WRInaute passionné
 
Messages: 619
Inscription: Ven Jan 16, 2004 14:37

Re: Cloaking et sessions

Message le Lun Nov 22, 2004 19:47

dredd a écrit:Du coup, je me suis plongé dans le code de robostat.inc, et j'ai vu que pour la détection, le script passait soit par l'IP, soit par le User_agent. Pourquoi le test ne se fait il pas systématiquement sur les 2 ? Je prend comme exemple google, qui semble changer d'IP de temps en temps. La detection ne serait elle pas plus efficace ?

Salut,
n'importe qui peut se balader sur ton site avec l'user-agent de google (avec une simple extension sous mozilla par exemple), il est facile de changer d'user_agent, ce n'est pas la même chose pour l'IP.
C'est surement une première raison, ça rend les stats plus fiables.

Sinon, c'est vrai que le mot "cloacking" fait peur, mais si c'est pour cette raison ... tu devrais demander par mp à Wri.

:wink:


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15814
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Nov 23, 2004 10:40

Tu peux reprendre des bouts du code Robotstats si tu veux, pas de pb.


dredd
Nouveau WRInaute
 
Messages: 49
Inscription: Mer Nov 17, 2004 12:03

Message le Mar Nov 23, 2004 10:51

Bonjour,

Merci de ton accord WRI, c'est sympa, je m'y colle de suite. J'avais déja fait quelques tests, mais je voulais pas passer pour un vilain pirate !

Twister, tu penses que c'est pour éviter que des petit malins se fassent passer pour google (par ex) que la détection se fait par l'IP ? Mais à quoi cela leur servirait de faker (je viens d'apprendre ce terme :wink: ) leur user (ider :wink: ) ? qu'est ce qu'ils auraient à y gagner ?

bye


anguenot.com
WRInaute passionné
WRInaute passionné
 
Messages: 909
Inscription: Mer Mai 14, 2003 21:35

Message le Mar Nov 23, 2004 11:00

Salut,
L'user agent n'est en effet pas fiable parce que facilement "configurable" par n'importe qui sous firefox ou par des outils en ligne.

Il est en revanche indispensable de le détecter, en plus de l'IP, si tu veux pouvoir différencier Mediapartners, le robot d'adsense, du VRAI googlebot. En effet, les 2 partagent les mêmes IPs: 66.249.64.xx ces temps-ci.

Ton script doit fonctionner sur le principe suivant:
Code: Tout sélectionner
1- lire l'IP
2- si c'est l'IP de Googlebot, lire l'user agent
3- si presence de la chaine "Mediapartners" dans l'user agent, c'est le robot d'adsense, sinon, c'est le vrai ggbot.


Par ailleurs, googlebot change de temps en temps d'IP, et le fait de surveiller les user agents reste le meilleur moyen de s'en rendre compte rapidement. En effet, la présence du mot "Googlebot" dans l'user agent de googlebot semble être une constante, même quand il change d'ip ou d'user agent.


dredd
Nouveau WRInaute
 
Messages: 49
Inscription: Mer Nov 17, 2004 12:03

Message le Mar Nov 23, 2004 11:06

Merci Anguenot.com

Peut tu me dire si c'est important de differencier les 2 robots : Ce qui m'interesse, c'est de bloquer les sessions, quel que soit le robot.
En plus, je n'affiche pas d'adsenses, donc mediaprtner ne devrait pas passer (à mon avis, mais je suis pas au top) ?


jeromax
WRInaute accro
WRInaute accro
 
Messages: 1087
Inscription: Mer Nov 12, 2003 17:48

Message le Mar Nov 23, 2004 11:14

je cloakais (??? ça se conjugue en français ce mot?) aussi il n'y a pas si longtemps en supprimant les sessions si c'était un robot. L'astuce pour éviter cela est de mettre toutes les urls en absolue
=> plus de session dans l'url et chaque visiteur est pourtant identifiable par un n° de session unique ! !
=> plus de différence de code entre un robot et un visiteur.... :wink:

Si quelqu'un sait comment le serveur arrive à récupérer la session quand même je veux bien savoir. Par où passe le numéro de session dans ce cas là? certainement dans les en-têtes non?


dredd
Nouveau WRInaute
 
Messages: 49
Inscription: Mer Nov 17, 2004 12:03

Message le Mar Nov 23, 2004 11:25

Bonjour Jeromax,

Ta remarque m'interesse particulièrement (Super, non :D ), parce que je pose la question depuis quelques temps : Sur mon site, même quand je desactive les cookies, je ne vois jamais les identifiants de sessions passer par l'url. Du coup, j'en était arrivé à penser qu'ils n'étaient pas affichés dans l'url, par qu'ils étaient lu quand meêm par les moteurs, d'ou les pb de referencement.

Mais il y a peut être une autre raison ? mes url sont en absolue (elles sont du type -http://www.monsite.com/page1.php?var=xxx), mais c'est le codage par défaut de dreamweaver, je n'ai rien fait de spécial.

Un doute horrible me m'étreint: Serais-je en train de me casser le c... pour rien !


anguenot.com
WRInaute passionné
WRInaute passionné
 
Messages: 909
Inscription: Mer Mai 14, 2003 21:35

Message le Mar Nov 23, 2004 11:43

dredd a écrit:Merci Anguenot.com

Peut tu me dire si c'est important de differencier les 2 robots : Ce qui m'interesse, c'est de bloquer les sessions, quel que soit le robot.
En plus, je n'affiche pas d'adsenses, donc mediaprtner ne devrait pas passer (à mon avis, mais je suis pas au top) ?

Dans ce cas, ça te fait 2 bonnes raisons pour ne pas avoir besoin de différencier mediapartners de googlebot :wink:


jeromax
WRInaute accro
WRInaute accro
 
Messages: 1087
Inscription: Mer Nov 12, 2003 17:48

Message le Mar Nov 23, 2004 12:04

Le test est simple à faire:
Modifie une de tes pages en affichant l'ip du visiteur courant.
va sur la page http://www.delorie.com/web/lynxview.cgi ... onsite.com
note l'ip qui s'affiche et rajoute le dans ta liste des robots.
retourne sur la page delorie et regarde les liens. Si il y a une variable session à la fin, c'est pas bon... sinon c'est gagné.


dredd
Nouveau WRInaute
 
Messages: 49
Inscription: Mer Nov 17, 2004 12:03

Message le Mer Nov 24, 2004 20:29

Merci Jeromax

jeromax a écrit:va sur la page http://www.delorie.com/web/lynxview.cgi ... onsite.com
note l'ip qui s'affiche et rajoute le dans ta liste des robots.
.


Mais si je met mon ip dans la liste des robots (bonne idée !), je n'ai pas besoin d'aller sur ce site : il suffit que j'affiche une variable de session sur une page pour voir si les sessions sont passées ou non ? je me trompe ?


Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités