Cloaking et sessions
11 messages • Page 1 sur 1
Cloaking et sessions
Bonjour à tous,
Plutot nouveau sur le web, et pas informaticien par formation, j'ai vu pas mal de choses sur le problème posé au niveau réferencement par l'utilisation des sessions. Et j'ai vu aussi qu'une solution passait par le cloaking des pages pour ne pas démarrer de sessions quand un robot était détecté. ça me parait valable comme approche technique, et "déontologiquement" acceptable quant on ne peut pas se passer de session.
Voila mes questions :
Pour détecter le passage des robots, je pense me greffer sur un bout du script de robostat (robostat.inc). Est ce que je peux, sans m'attirer les foudres du (des?) développeurs de l'outil ? Je ne sais pas trop à qui demander ça, donc je poste sur ce forum dédié à Robostats. Si ce n'est pas possible, pas de problème, je développerai un script spécifique.
Du coup, je me suis plongé dans le code de robostat.inc, et j'ai vu que pour la détection, le script passait soit par l'IP, soit par le User_agent. Pourquoi le test ne se fait il pas systématiquement sur les 2 ? Je prend comme exemple google, qui semble changer d'IP de temps en temps. La detection ne serait elle pas plus efficace ?
Encore une fois, je suis plutôt débutant en programmation, donc ne voyez aucune prétention dans mon post, mais je suis curieux et j'aime bien comprendre.
Merci de vos réactions
Plutot nouveau sur le web, et pas informaticien par formation, j'ai vu pas mal de choses sur le problème posé au niveau réferencement par l'utilisation des sessions. Et j'ai vu aussi qu'une solution passait par le cloaking des pages pour ne pas démarrer de sessions quand un robot était détecté. ça me parait valable comme approche technique, et "déontologiquement" acceptable quant on ne peut pas se passer de session.
Voila mes questions :
Pour détecter le passage des robots, je pense me greffer sur un bout du script de robostat (robostat.inc). Est ce que je peux, sans m'attirer les foudres du (des?) développeurs de l'outil ? Je ne sais pas trop à qui demander ça, donc je poste sur ce forum dédié à Robostats. Si ce n'est pas possible, pas de problème, je développerai un script spécifique.
Du coup, je me suis plongé dans le code de robostat.inc, et j'ai vu que pour la détection, le script passait soit par l'IP, soit par le User_agent. Pourquoi le test ne se fait il pas systématiquement sur les 2 ? Je prend comme exemple google, qui semble changer d'IP de temps en temps. La detection ne serait elle pas plus efficace ?
Encore une fois, je suis plutôt débutant en programmation, donc ne voyez aucune prétention dans mon post, mais je suis curieux et j'aime bien comprendre.
Merci de vos réactions
Re: Cloaking et sessions
dredd a écrit:Du coup, je me suis plongé dans le code de robostat.inc, et j'ai vu que pour la détection, le script passait soit par l'IP, soit par le User_agent. Pourquoi le test ne se fait il pas systématiquement sur les 2 ? Je prend comme exemple google, qui semble changer d'IP de temps en temps. La detection ne serait elle pas plus efficace ?
Salut,
n'importe qui peut se balader sur ton site avec l'user-agent de google (avec une simple extension sous mozilla par exemple), il est facile de changer d'user_agent, ce n'est pas la même chose pour l'IP.
C'est surement une première raison, ça rend les stats plus fiables.
Sinon, c'est vrai que le mot "cloacking" fait peur, mais si c'est pour cette raison ... tu devrais demander par mp à Wri.
-

WebRankInfo - Administrateur du site

- Messages: 15814
- Inscription: Ven Avr 19, 2002 19:51
Tu peux reprendre des bouts du code Robotstats si tu veux, pas de pb.
Bonjour,
Merci de ton accord WRI, c'est sympa, je m'y colle de suite. J'avais déja fait quelques tests, mais je voulais pas passer pour un vilain pirate !
Twister, tu penses que c'est pour éviter que des petit malins se fassent passer pour google (par ex) que la détection se fait par l'IP ? Mais à quoi cela leur servirait de faker (je viens d'apprendre ce terme
) leur user (ider
) ? qu'est ce qu'ils auraient à y gagner ?
bye
Merci de ton accord WRI, c'est sympa, je m'y colle de suite. J'avais déja fait quelques tests, mais je voulais pas passer pour un vilain pirate !
Twister, tu penses que c'est pour éviter que des petit malins se fassent passer pour google (par ex) que la détection se fait par l'IP ? Mais à quoi cela leur servirait de faker (je viens d'apprendre ce terme
bye
-

anguenot.com - WRInaute passionné

- Messages: 909
- Inscription: Mer Mai 14, 2003 21:35
Salut,
L'user agent n'est en effet pas fiable parce que facilement "configurable" par n'importe qui sous firefox ou par des outils en ligne.
Il est en revanche indispensable de le détecter, en plus de l'IP, si tu veux pouvoir différencier Mediapartners, le robot d'adsense, du VRAI googlebot. En effet, les 2 partagent les mêmes IPs: 66.249.64.xx ces temps-ci.
Ton script doit fonctionner sur le principe suivant:
Par ailleurs, googlebot change de temps en temps d'IP, et le fait de surveiller les user agents reste le meilleur moyen de s'en rendre compte rapidement. En effet, la présence du mot "Googlebot" dans l'user agent de googlebot semble être une constante, même quand il change d'ip ou d'user agent.
L'user agent n'est en effet pas fiable parce que facilement "configurable" par n'importe qui sous firefox ou par des outils en ligne.
Il est en revanche indispensable de le détecter, en plus de l'IP, si tu veux pouvoir différencier Mediapartners, le robot d'adsense, du VRAI googlebot. En effet, les 2 partagent les mêmes IPs: 66.249.64.xx ces temps-ci.
Ton script doit fonctionner sur le principe suivant:
- Code: Tout sélectionner
1- lire l'IP
2- si c'est l'IP de Googlebot, lire l'user agent
3- si presence de la chaine "Mediapartners" dans l'user agent, c'est le robot d'adsense, sinon, c'est le vrai ggbot.
Par ailleurs, googlebot change de temps en temps d'IP, et le fait de surveiller les user agents reste le meilleur moyen de s'en rendre compte rapidement. En effet, la présence du mot "Googlebot" dans l'user agent de googlebot semble être une constante, même quand il change d'ip ou d'user agent.
Merci Anguenot.com
Peut tu me dire si c'est important de differencier les 2 robots : Ce qui m'interesse, c'est de bloquer les sessions, quel que soit le robot.
En plus, je n'affiche pas d'adsenses, donc mediaprtner ne devrait pas passer (à mon avis, mais je suis pas au top) ?
Peut tu me dire si c'est important de differencier les 2 robots : Ce qui m'interesse, c'est de bloquer les sessions, quel que soit le robot.
En plus, je n'affiche pas d'adsenses, donc mediaprtner ne devrait pas passer (à mon avis, mais je suis pas au top) ?
je cloakais (??? ça se conjugue en français ce mot?) aussi il n'y a pas si longtemps en supprimant les sessions si c'était un robot. L'astuce pour éviter cela est de mettre toutes les urls en absolue
=> plus de session dans l'url et chaque visiteur est pourtant identifiable par un n° de session unique ! !
=> plus de différence de code entre un robot et un visiteur....
Si quelqu'un sait comment le serveur arrive à récupérer la session quand même je veux bien savoir. Par où passe le numéro de session dans ce cas là? certainement dans les en-têtes non?
=> plus de session dans l'url et chaque visiteur est pourtant identifiable par un n° de session unique ! !
=> plus de différence de code entre un robot et un visiteur....
Si quelqu'un sait comment le serveur arrive à récupérer la session quand même je veux bien savoir. Par où passe le numéro de session dans ce cas là? certainement dans les en-têtes non?
Bonjour Jeromax,
Ta remarque m'interesse particulièrement (Super, non
), parce que je pose la question depuis quelques temps : Sur mon site, même quand je desactive les cookies, je ne vois jamais les identifiants de sessions passer par l'url. Du coup, j'en était arrivé à penser qu'ils n'étaient pas affichés dans l'url, par qu'ils étaient lu quand meêm par les moteurs, d'ou les pb de referencement.
Mais il y a peut être une autre raison ? mes url sont en absolue (elles sont du type -http://www.monsite.com/page1.php?var=xxx), mais c'est le codage par défaut de dreamweaver, je n'ai rien fait de spécial.
Un doute horrible me m'étreint: Serais-je en train de me casser le c... pour rien !
Ta remarque m'interesse particulièrement (Super, non
Mais il y a peut être une autre raison ? mes url sont en absolue (elles sont du type -http://www.monsite.com/page1.php?var=xxx), mais c'est le codage par défaut de dreamweaver, je n'ai rien fait de spécial.
Un doute horrible me m'étreint: Serais-je en train de me casser le c... pour rien !
-

anguenot.com - WRInaute passionné

- Messages: 909
- Inscription: Mer Mai 14, 2003 21:35
dredd a écrit:Merci Anguenot.com
Peut tu me dire si c'est important de differencier les 2 robots : Ce qui m'interesse, c'est de bloquer les sessions, quel que soit le robot.
En plus, je n'affiche pas d'adsenses, donc mediaprtner ne devrait pas passer (à mon avis, mais je suis pas au top) ?
Dans ce cas, ça te fait 2 bonnes raisons pour ne pas avoir besoin de différencier mediapartners de googlebot
Le test est simple à faire:
Modifie une de tes pages en affichant l'ip du visiteur courant.
va sur la page http://www.delorie.com/web/lynxview.cgi ... onsite.com
note l'ip qui s'affiche et rajoute le dans ta liste des robots.
retourne sur la page delorie et regarde les liens. Si il y a une variable session à la fin, c'est pas bon... sinon c'est gagné.
Modifie une de tes pages en affichant l'ip du visiteur courant.
va sur la page http://www.delorie.com/web/lynxview.cgi ... onsite.com
note l'ip qui s'affiche et rajoute le dans ta liste des robots.
retourne sur la page delorie et regarde les liens. Si il y a une variable session à la fin, c'est pas bon... sinon c'est gagné.
Merci Jeromax
Mais si je met mon ip dans la liste des robots (bonne idée !), je n'ai pas besoin d'aller sur ce site : il suffit que j'affiche une variable de session sur une page pour voir si les sessions sont passées ou non ? je me trompe ?
jeromax a écrit:va sur la page http://www.delorie.com/web/lynxview.cgi ... onsite.com
note l'ip qui s'affiche et rajoute le dans ta liste des robots.
.
Mais si je met mon ip dans la liste des robots (bonne idée !), je n'ai pas besoin d'aller sur ce site : il suffit que j'affiche une variable de session sur une page pour voir si les sessions sont passées ou non ? je me trompe ?
11 messages • Page 1 sur 1
Lectures recommandées sur ce thème :
- Référencement : le problème des sessions des pages PHP
- Gestion des langues et des sessions en PHP / MySQL
- Incidence du PHP sur le référencement
- Le référencement de pages PHP
- Début du Full Crawl
- Comment créer une page web en PHP
- Google Developer Day 2007 : à Paris et dans 9 autres villes
- Ranking Metrics propose désormais des audits de référencement
- Explications sur le Crawl Caching Proxy de Google
- Gérer l'entête HTTP en PHP
- Cloaking or not cloaking ? (+ utilité des balises meta)
- Cloaking or not cloaking? Exemple d'Amazon et Fnac
- cloaking or not cloaking - Site flash
- Sessions: problème sessions deux erreurs qui se contredisent
- ovh: cloaking or not cloaking
- cloaking
- Cloaking ?
- Cloaking ??
- Frame = cloaking ????
- est ce du cloaking ??
- cloaking impossible à détecter!
- Cookies et cloaking
- robotstat et cloaking
- Cloaking ou pas ?
- Est-ce du cloaking ?
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


le forum