La BNF archive...
11 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

Digit - WRInaute impliqué

- Messages: 613
- Inscription: 18 Avr 2003
La BNF archive...
Bonjour,
J'ai constaté que la BNF (Bibliothèque Nationale de France) a effectué un partenariat avec archive.org et a débuté un archivage des sites français.
Extrait des logs afin d'identifier l'empreinte :
A noter :
Pour en savoir plus :
http://bibnum.bnf.fr/robot/
J'ai constaté que la BNF (Bibliothèque Nationale de France) a effectué un partenariat avec archive.org et a débuté un archivage des sites français.
Extrait des logs afin d'identifier l'empreinte :
- Code: Tout sélectionner
207.241.234.209 - - [22/Jan/2005:16:16:57 +0100] "GET / HTTP/1.0" 200 32945 "-" "mozilla/5.0 (compatible; heritrix//1.3.0-200412151053 +http://crawls.archive.org/collections/bnf/crawl.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.
A noter :
- Le crawl est lent
il respecte le robots.txt
dès qu'une page est accédée, ses éléments graphiques sont récupérés
Pour en savoir plus :
http://bibnum.bnf.fr/robot/
- Haq
- WRInaute passionné

- Messages: 2104
- Inscription: 29 Aoû 2002
soccarfr a écrit:ce robot est completement idiot, il a suivit les liens de mes formulaires, faisant par la même des grosse betises sur mon site
Si c'est possible, c'est à toi que tu dois t'en prendre... tu dois faire en sorte qu'un robot ne puisse pas influer sur le contenu de tes sites (sinon, je ne te parle même pas de ce que pourrait faire le robot d'adsense sur ton site... lui il a accès à absolument toutes les urls que tes visteurs voient/créent pour peu que tu y affiches leur pub).
- tuisp
- WRInaute passionné

- Messages: 2076
- Inscription: 27 Juin 2003
Cet archivage s'effectue dans le cadre de la nouvelle loi sur le dépôt légal en préparation comme l'indique le lien donné par Digit. Les pages collectées ne seront a priori pas consultables ailleurs que dans les locaux de la BnF, voir http://www.bnf.fr/pages/infopro/depotle ... ommuniquer
- tuisp
- WRInaute passionné

- Messages: 2076
- Inscription: 27 Juin 2003
C'est cela. Le fait que l'état des sites à certains moments de leur histoire soit *reproduit* a pour conséquence que les reproductions entrent dans le champ de la Directive européenne de 2001 et donc que la seule exception autorisée limite la possibilité de consulter ces reproductions aux locaux des organismes dépositaires du dépôt légal. C'est ce qui est expliqué dans la page Web dont j'ai donné le lien un peu plus haut.
-

Julia41 - WRInaute passionné

- Messages: 1734
- Inscription: 31 Aoû 2007
Re: La BNF archive...
Bon, pareil je viens de me faire crawler par ce bot (avec un autre UA):
Je trouve toutefois bizarre qu'il soit en HTTP/1.0.
Leur page d'explication est assez "bizarre", je vois pas en quoi mon site devrait être stocké quelque part.
- Code: Tout sélectionner
194.199.7.22 admin-serv.net - [07/Apr/2011:22:35:12 +0200] "GET /blog/610/pleskcentos-installer-ncftp-en-utilisant-yum-a-laide-des-depots-epel/ HTTP/1.0" 200 9528 "https://admin-serv.net/blog/" "Mozilla/5.0 (compatible; bnf.fr_bot; +http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html)"
Je trouve toutefois bizarre qu'il soit en HTTP/1.0.
Leur page d'explication est assez "bizarre", je vois pas en quoi mon site devrait être stocké quelque part.
-

JanoLapin - WRInaute accro

- Messages: 3574
- Inscription: 21 Sep 2008
Re: La BNF archive...
et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.
Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?
Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?
-

Julia41 - WRInaute passionné

- Messages: 1734
- Inscription: 31 Aoû 2007
Re: La BNF archive...
JanoLapin a écrit:et la BNF se sent une vocation modianle d'archivage.. ou bien la loi française ne va s'appliquer qu'aux citoyens en France.
Comment ce robot compte-t-il faire la différnece ? Quel est le rôle des extensions?
C'était un peu ma question, mon contenu est très "mâché" pour un robot je pense (beaucoup de termes anglophones) après peut-être que la CNIL a partagé ses données de sites enregistrés.
-

JanoLapin - WRInaute accro

- Messages: 3574
- Inscription: 21 Sep 2008
Re: La BNF archive...
Qq précisions supplémentaires de la BnF sur son bot:
* sites en FR (partenarriat avec l'Afnic)
* utilise le robots Heritrix (le même qu'archives.org, dont il utilise une des signatures (c'est très con !)
* il respecterait les instructions du robots.txt
Le choix des sites dotés de l'extension .fr c'est très subjectif. Cela peut très bien être le site de quelqu'un à l'étranger (une marque, etc..). Inversement, un site français peut-être doté d'une autre extension, sans être concerné par cette histoire.
C'est super, d'un côté la justice ne reconnaît pas archives.org comme preuve, ni même (je crois) comme commencement de preuve. Et à côté de cela elle s'en sert pour faire respecter une obligationq u'elle a créée elle-même: le dépôt à la BnF.
On ne marcherait pas un peu sur la tâte là ?
* sites en FR (partenarriat avec l'Afnic)
* utilise le robots Heritrix (le même qu'archives.org, dont il utilise une des signatures (c'est très con !)
* il respecterait les instructions du robots.txt
Le choix des sites dotés de l'extension .fr c'est très subjectif. Cela peut très bien être le site de quelqu'un à l'étranger (une marque, etc..). Inversement, un site français peut-être doté d'une autre extension, sans être concerné par cette histoire.
C'est super, d'un côté la justice ne reconnaît pas archives.org comme preuve, ni même (je crois) comme commencement de preuve. Et à côté de cela elle s'en sert pour faire respecter une obligationq u'elle a créée elle-même: le dépôt à la BnF.
On ne marcherait pas un peu sur la tâte là ?
11 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- La BNF adopte Bing
- La BnF a un moteur de recherche bibnum
- La BNF négocie avec Google une numérisation de ses archives
- Site archive
- Web archive
- WEB ARCHIVE DEAD .?
- Intérêts et inconvénients de Internet Archive
- No Archive (balise meta NOARCHIVE)
- Comment ne pas être archivé ni indexé ?
- Preuve de plagiat avec Web archive.org ?
Consultez la description détaillée des produits ou services de Google suivants : Google News Archive Search
- Tester l'indexation récente d'un site dans Google
Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités



