La BNF archive...

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


Digit
WRInaute impliqué
WRInaute impliqué
 
Messages: 621
Enregistré le: 18 Avr 2003

La BNF archive...

Message le Dim Jan 23, 2005 11:30

Bonjour,

J'ai constaté que la BNF (Bibliothèque Nationale de France) a effectué un partenariat avec archive.org et a débuté un archivage des sites français.
Extrait des logs afin d'identifier l'empreinte :
Code: Tout sélectionner
207.241.234.209 - - [22/Jan/2005:16:16:57 +0100] "GET / HTTP/1.0" 200 32945 "-" "mozilla/5.0 (compatible; heritrix//1.3.0-200412151053 +http://crawls.archive.org/collections/bnf/crawl.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.


A noter :
    Le crawl est lent
    il respecte le robots.txt
    dès qu'une page est accédée, ses éléments graphiques sont récupérés


Pour en savoir plus :
http://bibnum.bnf.fr/robot/

soccarfr
WRInaute discret
WRInaute discret
 
Messages: 99
Enregistré le: 1 Sep 2004

Message le Dim Jan 23, 2005 17:15

ce robot est completement idiot, il a suivit les liens de mes formulaires, faisant par la même des grosse betises sur mon site

Haq
WRInaute passionné
WRInaute passionné
 
Messages: 2104
Enregistré le: 29 Aoû 2002

Message le Dim Jan 23, 2005 17:18

soccarfr a écrit:ce robot est completement idiot, il a suivit les liens de mes formulaires, faisant par la même des grosse betises sur mon site


Si c'est possible, c'est à toi que tu dois t'en prendre... tu dois faire en sorte qu'un robot ne puisse pas influer sur le contenu de tes sites (sinon, je ne te parle même pas de ce que pourrait faire le robot d'adsense sur ton site... lui il a accès à absolument toutes les urls que tes visteurs voient/créent pour peu que tu y affiches leur pub).

cadix
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 19
Enregistré le: 14 Mar 2005

Message le Mar Mar 15, 2005 8:52

Est ce que les résultats sont visibles quelque part que le site de la BNF ?

tuisp
WRInaute passionné
WRInaute passionné
 
Messages: 2076
Enregistré le: 27 Juin 2003

Message le Dim Mar 20, 2005 13:59

Cet archivage s'effectue dans le cadre de la nouvelle loi sur le dépôt légal en préparation comme l'indique le lien donné par Digit. Les pages collectées ne seront a priori pas consultables ailleurs que dans les locaux de la BnF, voir http://www.bnf.fr/pages/infopro/depotle ... ommuniquer

cadix
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 19
Enregistré le: 14 Mar 2005

Message le Mer Mar 30, 2005 13:21

C'est un peu dommage.
Mais j'imagine que c'est à cause de problèmes de copyright

tuisp
WRInaute passionné
WRInaute passionné
 
Messages: 2076
Enregistré le: 27 Juin 2003

Message le Mer Mar 30, 2005 15:12

C'est cela. Le fait que l'état des sites à certains moments de leur histoire soit *reproduit* a pour conséquence que les reproductions entrent dans le champ de la Directive européenne de 2001 et donc que la seule exception autorisée limite la possibilité de consulter ces reproductions aux locaux des organismes dépositaires du dépôt légal. C'est ce qui est expliqué dans la page Web dont j'ai donné le lien un peu plus haut.

Julia41
WRInaute passionné
WRInaute passionné
 
Messages: 1847
Enregistré le: 31 Aoû 2007

Re: La BNF archive...

Message le Jeu Avr 07, 2011 21:39

Bon, pareil je viens de me faire crawler par ce bot (avec un autre UA):
Code: Tout sélectionner
194.199.7.22 admin-serv.net - [07/Apr/2011:22:35:12 +0200] "GET /blog/610/pleskcentos-installer-ncftp-en-utilisant-yum-a-laide-des-depots-epel/ HTTP/1.0" 200 9528 "https://admin-serv.net/blog/" "Mozilla/5.0 (compatible; bnf.fr_bot; +http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html)"


Je trouve toutefois bizarre qu'il soit en HTTP/1.0.

Leur page d'explication est assez "bizarre", je vois pas en quoi mon site devrait être stocké quelque part.

JanoLapin
WRInaute accro
WRInaute accro
 
Messages: 4815
Enregistré le: 21 Sep 2008

Re: La BNF archive...

Message le Jeu Avr 07, 2011 21:43

et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.

Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?

Julia41
WRInaute passionné
WRInaute passionné
 
Messages: 1847
Enregistré le: 31 Aoû 2007

Re: La BNF archive...

Message le Jeu Avr 07, 2011 21:57

JanoLapin a écrit:et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.

Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?


C'était un peu ma question, mon contenu est très "mâché" pour un robot je pense (beaucoup de termes anglophones) après peut-être que la CNIL a partagé ses données de sites enregistrés.

JanoLapin
WRInaute accro
WRInaute accro
 
Messages: 4815
Enregistré le: 21 Sep 2008

Re: La BNF archive...

Message le Jeu Avr 07, 2011 22:44

Qq précisions supplémentaires de la BnF sur son bot:

* sites en FR (partenarriat avec l'Afnic)
* utilise le robots Heritrix (le même qu'archives.org, dont il utilise une des signatures (c'est très con !)
* il respecterait les instructions du robots.txt

Le choix des sites dotés de l'extension .fr c'est très subjectif. Cela peut très bien être le site de quelqu'un à l'étranger (une marque, etc..). Inversement, un site français peut-être doté d'une autre extension, sans être concerné par cette histoire.

C'est super, d'un côté la justice ne reconnaît pas archives.org comme preuve, ni même (je crois) comme commencement de preuve. Et à côté de cela elle s'en sert pour faire respecter une obligationq u'elle a créée elle-même: le dépôt à la BnF.


On ne marcherait pas un peu sur la tâte là?

PascalP37
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 1
Enregistré le: 21 Nov 2012

Re: La BNF archive...

Message le Mer Nov 21, 2012 10:55

Pas de respect pour le robots.txt

Protocole robot.txt
En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt. Ce protocole vise à optimiser l’activité des robots d’indexation utilisés par les moteurs de recherche, en filtrant les contenus non textuels et/ou non indexables (fichiers binaires comme images, sons ou vidéos ; feuilles de style ou fichiers d’administration du site Web).
Afin d’accomplir sa mission de dépôt légal, la BnF peut choisir de capturer certains des fichiers concernés par le robots.txt, quand ceux-ci sont nécessaires pour reconstituer la forme éditoriale du site (dans le cas notamment des fichiers image ou feuille de style). Ce non-respect du robots.txt n’entre pas en conflit avec la protection de la correspondance privée garantie par la loi, car toutes les données mises à la disposition sur l'Internet sont considérées comme publiées, qu’elles soient ou non filtrées par le robots.txt.


Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :