La verité sur phpsessid

Nouveau WRInaute
Après moult recherches, moult lectures et quelques expériences, je ne sais décidement plus quoi penser du handicap qu'est "sensé" causer le passage du SID en GET pour l'indexation des pages en PHP.
Je m'explique. J'avais fini au fil de mes recherches sur le sujet tant sur WRI que dans d'autres maisons, par me faire à l'idée que lorsque session.use_trans_sid était réglé à 1 (on) sur le serveur, Googlebot ne POUVAIT PAS indexer les pages du site.

L'explication du phénomène me paraissant logique et les solutions de cloaking étant dénoncées ici ou là comme peu fiables, j'avais donc opté pour une solution de "cloisonnement" décrite ici appliquable sans trop de modifs.

Jusqu'à ce que je m'apperçoive (ô stupeur !) que certaines des pages du site, hébergé sur un serveur appliquant par défaut le passage du SID par l'url en cas du refus du cookie (pas le choix), étaient bel et bien référencées.
Seul dénominateur commun entre ces pages, un lien interne au site mais renseigné en absolu (je ne sais pas pourquoi) et pointant vers une page absolument annexe. Si c'est là la cause de l'indexation des pages, par quel mécanisme ? Et comment google parvient-il à les référencer avec des url exemptes de PHPSESSID ?

J'expose là le cas d'un site particulier mais je pense que le topic a une portée...universelle non ?

merci d'avance pour vos suggestions...
 
WRInaute occasionnel
tout simplement car le googlebot soit accepter les cookies.
j'ai une gestion de sessions tout se qu'il y a de plus classique et aucun soucis

j'ai déjà lu deux trois message sur cela mais je ne comprends vraiment pas en quoi cela présente un probléme.

au pire il ouvrirait une nouvelle session à chaque page... et alors?
 
WRInaute discret
gorgu a dit:
au pire il ouvrirait une nouvelle session à chaque page... et alors?

eh bien pour la même page tu auras une infinité d'url (id_session ne sera jamais le même) donc si google s'amuse à scrawler cette page il va vite bousiller sa base d'où :arrow:
 
Nouveau WRInaute
Merci ptitpimousse, comme je l'ai dit ça me paraît logique...
Mais alors comment expliquer cet étrange cas de figure...ou pire encore ça. Là, on a carrément des url avec des SID référencés.

Cet exemple est troublant, qu'est ce qui dans ces pages, où dans d'autres d'ailleurs, fait qu'elles sont effectivement indexées ? La logique voudrait effectivement que google n'indexe pas des pages qui changent d'url à chacune de ses visites, mais il faut alors expliquer POURQUOI on arrive à obtenir des pages référencées avec des SID en GET sinon on passe à côté d'une partie...de la logique justement.

Des idées peut-être...
 
WRInaute passionné
Tout dépend en fait du site et de l'utilité des sessions (compte membre, panier virtuel...).
Google n'acceptant pas les cookies, si la session est transmise dans l'url GG ne va pas référencer les pages d'où 2 solutions :

Ne pas demarrer la session si c'est google qui visite le site (cloaking)

Demarrer la session le plus tard possible et lorsque cela est vraiment necessaire (exemple des forum phpbb référencé par GG : la session n'est demarrer que lorsqu'un membre se connecte)
 
WRInaute passionné
matbool a dit:
Merci ptitpimousse, comme je l'ai dit ça me paraît logique...
Mais alors comment expliquer cet étrange cas de figure...ou pire encore ça. Là, on a carrément des url avec des SID référencés.

Cet exemple est troublant, qu'est ce qui dans ces pages, où dans d'autres d'ailleurs, fait qu'elles sont effectivement indexées ? La logique voudrait effectivement que google n'indexe pas des pages qui changent d'url à chacune de ses visites, mais il faut alors expliquer POURQUOI on arrive à obtenir des pages référencées avec des SID en GET sinon on passe à côté d'une partie...de la logique justement.

Des idées peut-être...

Des sujets on déjà traités de cela. C'est certainement une faille de GG.
 
Nouveau WRInaute
Je m'excuse auprès des modos, visiblement je me suis gouré de forum...problème de sémantique...

netsys a dit:
Tout dépend en fait du site et de l'utilité des sessions (compte membre, panier virtuel...).
Google n'acceptant pas les cookies, si la session est transmise dans l'url GG ne va pas référencer les pages d'où 2 solutions :
Ne pas demarrer la session si c'est google qui visite le site (cloaking)
Demarrer la session le plus tard possible et lorsque cela est vraiment necessaire (exemple des forum phpbb référencé par GG : la session n'est demarrer que lorsqu'un membre se connecte)
ça d'accord, c'était clair...ou je me suis mal expliqué :wink: .

netsys a dit:
C'est certainement une faille de GG.
MERCI pour l'info !
Je n'avais pas vu de post traitant ces résultats comme une faille google... Si pas de contradicteurs je prends...ça m'arrangerait même. Reste une question de taille: pourquoi ces pages sont référencées et pas les autres ? Une faille selective ?

Je n'ai pas vu de sujet récapitulatif spécifique aux sessions sur les forums WRI. Vu le nombre impressionant de questions sur ce thème et les contradictions levées dans les réponses ce serait chouette qu'un des kadors qui rôdent dans le coin s'y colle façon info/intox histoire d'avoir deux ou trois certitudes dans ce domaine.
Certains me diront "ouuai t'as qu'à te bouquiner 72 topics ruminer le tout !"
Mais je vous assure que sans connaître le niveau d'expertise des uns et des autres, il est difficile de faire tri...
 
WRInaute passionné
Bonjour, je pense avoir une réponse partielle à ta question, sur l'exemple de phpBB.

Quand tu arrives sur une page PhpBB avec un lien contenant un SID, le forum va corriger automatiquement le SID avec un plus récent si le tien est périmé (heureusement, sinon récupérer le SID de la dernière connection d'admin te donnerait tous les droits).
Donc à chaque fois que tu visites le forum, quelque soit le lien qui t'y a amené, les liens seront différents. Ca, c'est très mauvais.

Par contre, dans l'exemple que tu as cité, j'ai cliqué sur le lien présent dans Google avec un SID. Les autres liens présents sur le site avaient le même SID par la suite. Du coup, si on suppose que Google a visité ce site l'an dernier avec un SID donné, chaque fois qu'il y revient en suivant le même lien, il voit les mêmes URL avec le même SID à la fin.
Cela pourrait expliquer que les pages ne soient pas pénalisées. :wink:
 
Nouveau WRInaute
Bien vu Dj_Apx ! Tu as mis dans le mil je crois bien. Là je suis convaincu.
Je vais étudier ça. Je vous tiendrai au courant.
Merci.
 
Nouveau WRInaute
et si

le post est un peu vieux, mais bon.

Si le problème venait du fait que tes pages s'appellent htm
as-tu essayé de les renommer php.

parce que mes pages en php avec phpsessionid sont correctement reconnues!

A+
 
WRInaute passionné
Le probleme du sid est que la page n'existera peut-etre plus au moment ou google la visitera; le sid transmettant des données qui ne sont plus stockées dans la base de donnée quand google revient.

François
 
WRInaute passionné
Heu, vous avez déjà entendu parler d'usurpation d'identité par ursurpation de session ?
Je sais bien que les sessions ne fournissent pas une méthode simple d'identification, que même les cookies peuvent être détournés, mais pitié ne simplifiez pas le travail des pirates en fournissant en clair les identifiants de sessions dans les urls.
 
Discussions similaires
Haut