Messages: 621

Enregistré le: 18 Avr 2003

Message le Dim Jan 23, 2005 12:30

Bonjour,

J'ai constaté que la BNF (Bibliothèque Nationale de France) a effectué un partenariat avec archive.org et a débuté un archivage des sites français.
Extrait des logs afin d'identifier l'empreinte :
Code: Tout sélectionner
207.241.234.209 - - [22/Jan/2005:16:16:57 +0100] "GET / HTTP/1.0" 200 32945 "-" "mozilla/5.0 (compatible; heritrix//1.3.0-200412151053 +http://crawls.archive.org/collections/bnf/crawl.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.


A noter :
    Le crawl est lent
    il respecte le robots.txt
    dès qu'une page est accédée, ses éléments graphiques sont récupérés


Pour en savoir plus :
http://bibnum.bnf.fr/robot/
Haut
11 Réponses
Messages: 99

Enregistré le: 1 Sep 2004

Message le Dim Jan 23, 2005 18:15

ce robot est completement idiot, il a suivit les liens de mes formulaires, faisant par la même des grosse betises sur mon site
Haut
Messages: 2104

Enregistré le: 29 Aoû 2002

Message le Dim Jan 23, 2005 18:18

soccarfr a écrit:ce robot est completement idiot, il a suivit les liens de mes formulaires, faisant par la même des grosse betises sur mon site


Si c'est possible, c'est à toi que tu dois t'en prendre... tu dois faire en sorte qu'un robot ne puisse pas influer sur le contenu de tes sites (sinon, je ne te parle même pas de ce que pourrait faire le robot d'adsense sur ton site... lui il a accès à absolument toutes les urls que tes visteurs voient/créent pour peu que tu y affiches leur pub).
Haut
Messages: 19

Enregistré le: 14 Mar 2005

Message le Mar Mar 15, 2005 9:52

Est ce que les résultats sont visibles quelque part que le site de la BNF ?
Haut
Messages: 2076

Enregistré le: 27 Juin 2003

Message le Dim Mar 20, 2005 14:59

Cet archivage s'effectue dans le cadre de la nouvelle loi sur le dépôt légal en préparation comme l'indique le lien donné par Digit. Les pages collectées ne seront a priori pas consultables ailleurs que dans les locaux de la BnF, voir http://www.bnf.fr/pages/infopro/depotle ... ommuniquer
Haut
Messages: 19

Enregistré le: 14 Mar 2005

Message le Mer Mar 30, 2005 14:21

C'est un peu dommage.
Mais j'imagine que c'est à cause de problèmes de copyright
Haut
Messages: 2076

Enregistré le: 27 Juin 2003

Message le Mer Mar 30, 2005 16:12

C'est cela. Le fait que l'état des sites à certains moments de leur histoire soit *reproduit* a pour conséquence que les reproductions entrent dans le champ de la Directive européenne de 2001 et donc que la seule exception autorisée limite la possibilité de consulter ces reproductions aux locaux des organismes dépositaires du dépôt légal. C'est ce qui est expliqué dans la page Web dont j'ai donné le lien un peu plus haut.
Haut
Messages: 1847

Enregistré le: 31 Aoû 2007

Message le Jeu Avr 07, 2011 22:39

Bon, pareil je viens de me faire crawler par ce bot (avec un autre UA):
Code: Tout sélectionner
194.199.7.22 admin-serv.net - [07/Apr/2011:22:35:12 +0200] "GET /blog/610/pleskcentos-installer-ncftp-en-utilisant-yum-a-laide-des-depots-epel/ HTTP/1.0" 200 9528 "https://admin-serv.net/blog/" "Mozilla/5.0 (compatible; bnf.fr_bot; +http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html)"


Je trouve toutefois bizarre qu'il soit en HTTP/1.0.

Leur page d'explication est assez "bizarre", je vois pas en quoi mon site devrait être stocké quelque part.
Haut
Messages: 4815

Enregistré le: 21 Sep 2008

Message le Jeu Avr 07, 2011 22:43

et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.

Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?
Haut
Messages: 1847

Enregistré le: 31 Aoû 2007

Message le Jeu Avr 07, 2011 22:57

JanoLapin a écrit:et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.

Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?


C'était un peu ma question, mon contenu est très "mâché" pour un robot je pense (beaucoup de termes anglophones) après peut-être que la CNIL a partagé ses données de sites enregistrés.
Haut
Messages: 4815

Enregistré le: 21 Sep 2008

Message le Jeu Avr 07, 2011 23:44

Qq précisions supplémentaires de la BnF sur son bot:

* sites en FR (partenarriat avec l'Afnic)
* utilise le robots Heritrix (le même qu'archives.org, dont il utilise une des signatures (c'est très con !)
* il respecterait les instructions du robots.txt

Le choix des sites dotés de l'extension .fr c'est très subjectif. Cela peut très bien être le site de quelqu'un à l'étranger (une marque, etc..). Inversement, un site français peut-être doté d'une autre extension, sans être concerné par cette histoire.

C'est super, d'un côté la justice ne reconnaît pas archives.org comme preuve, ni même (je crois) comme commencement de preuve. Et à côté de cela elle s'en sert pour faire respecter une obligationq u'elle a créée elle-même: le dépôt à la BnF.


On ne marcherait pas un peu sur la tâte là?
Haut
Messages: 1

Enregistré le: 21 Nov 2012

Message le Mer Nov 21, 2012 11:55

Pas de respect pour le robots.txt

Protocole robot.txt
En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt. Ce protocole vise à optimiser l’activité des robots d’indexation utilisés par les moteurs de recherche, en filtrant les contenus non textuels et/ou non indexables (fichiers binaires comme images, sons ou vidéos ; feuilles de style ou fichiers d’administration du site Web).
Afin d’accomplir sa mission de dépôt légal, la BnF peut choisir de capturer certains des fichiers concernés par le robots.txt, quand ceux-ci sont nécessaires pour reconstituer la forme éditoriale du site (dans le cas notamment des fichiers image ou feuille de style). Ce non-respect du robots.txt n’entre pas en conflit avec la protection de la correspondance privée garantie par la loi, car toutes les données mises à la disposition sur l'Internet sont considérées comme publiées, qu’elles soient ou non filtrées par le robots.txt.
Haut