API Wikipedia?

cprail · 7 Juillet 2006

Bonjour,
j'ai vu souvent des sites intégrant le contenu de Wikipedia de façon systématique (du genre -http://www.answers.com/main/ntquery;jsessionid=67idokp2s4hur?tname=mike-portnoy&sbid=lc06b)
Est-ce que Wikipedia offre une API ou un outil pour intégrer automatiquement son contenu à d'autres sites ou s'il s'agit de rapports particuliers entre ces sites et la fondation?

Merci!

Zim' · 7 Juillet 2006

il y a de forte chance pour que les mecs parsent directement wikipedia...

medium69 · 7 Juillet 2006

Le contenu de Wikipédia est libre de droit et réutilisable pr tout le monde, à condition d'indiquer la source de l'article, en y faisant un lien par exemple, la liste des auteurs de cet articles et un lien vers la licence GFDL.

Perso, je reprend du contenu pour les article en rapport avec les sciences.

Comme l'à dit Zim', tu prend le contenu brut, et tu le met en forme selon ta volonté.

Pour ma part, je me suis créer un script pour automatiser une grande partie de la tâche.

spidetra · 7 Juillet 2006

un truc du style WebService basé sur SOAP et qui permettrait de faire des requêtes du type :
GetWikipediaArticle
GetWikipediaPageInfo
GetWikipediaPageLinks

accord KDE wikipedia

par contre je n'ai rien trouvé directement sur le site wikipedia. si tu trouve tient moi au courant ça m'intéresse aussi

dd32 · 7 Juillet 2006

PARSING :
Class: Wiki Parser
-http://www.phpclasses.org/browse/package/3111.html

Class: HTML SAX Parser :
-http://www.phpclasses.org/browse/package/2140.html

Parse Wikipedia pages in Python using BeautifulSoup :
-http://nkour.blogspot.com/2005/06/parse-wikipedia-pages-in-python-using.html

RSS Wikipedia : -http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Syndication

Ca devait se faire (wikipedia API) :
-http://www.micropersuasion.com/2005/12/wikipedia_plans.html
-http://typolis.net/sumaato/stories/227/ (cf. les liens de Spidetra)

spidetra · 7 Juillet 2006

Juste pour information, wikipedia autorise la reproduction et la diffusionde son contenu, mais il n'autorise pas à crawler son site dans n'importe qu'elle condition.

http://fr.wikipedia.org/robots.txt
wget, larbin, lwp sont interdit sur le site.

La page sur les bot de Wikipedia. Cette page concerne essentiellement les bots interne à Wikipedia Fr, les bots d'administration de wikipedia.

Comme toujours quand vous développez vos bots externes toujour crawler mode poli, voire en mode très poli pour Wikipedia qui doit être très sollicité
Le Crawl-Delai minimum du robots.txt est positionné à 1s, et il est même gentiment demandé de mettre un délai plus grand.

cprail · 7 Juillet 2006

C'est ce que je pensais aussi, les solutions ne sont pas - pour l'instant - des solutions "officielles".
Merci spidetra et dd32 pour les liens.