Nutch : Un projet open-source concurent pour Google ?

Nouveau WRInaute
Article a but informatif :
Dérriere ce titre plus que racoleur se cache la naissance d'un projet Open-Source de création d'un moteur de recherche web , un équivalent de Google mais dont les algorithmes seraient publiés.

Nutch , c'est un nom c'est un nom , a été intité dans le secret l'année derniére et se trouve setenu, entre autres,par un responsable de la recherche et développement chez Overture ( un concurent de Google ) et par l'aquéreur d'Altavista et All The Web , qui a initié le projet et financé son lancement.

le 16Juin , Nutch a réaliser un premier test qualifié "d'encourageant" sur un index de 100 milliones de pages , ce qui ne represente toutefois qu'une fraction des deux à trois milliards d'url référencés par Google.

Tout les moteurs de recherche existants ont des méthodes secretes pour décider quel documents sont les meilleures ; L'idée est de rendre public l'ensemble du fonctionnement de Nutch depuis sa maniere d'indexer les pages web jusqu'aux algorithmes servant à leur classement.

Pour autant Overture ne subvient pas à tous les besoins de Nutch et Doug Cutting cherche activement des fonds pour monter une démonstration publique avant la fin de l'année . En attendant , Nutch focntionne sur trois ordinateurs "de base" et supporte trois requetes par seconde.

La route et encore longue pour contrer Google .

( planet Magazine novembre 2003 )
p.s : aritcle accepté par WRI avant d'etre poster
 
WRInaute accro
en tout cas... je viens de faire des recherches sur des mots en français... c'est n'importe quoi les résultats :lol:

Risque pas de m'amener des visiteurs ce moteur... tous les résultats sont en anglais... et n'ont rien à voir avec la requête :lol:
 
WRInaute occasionnel
L'idée de rendre publique l'agorithme de pertinence est assez intéressante.
Je pense que les joueurs d'echecs deviendront des compions du référencement.
 
WRInaute passionné
Euh... Je viens de jeter un oeil sur http://www.nutch.org/docs/en/org.html .
Board of Directors:
Mitch Kapor
Tim O'Reilly
Peter Savich (Overture Research)
Raymie Stata (UCSC)
Graham Spencer (Digital Consumer)
Doug Cutting
Sauf si c'est bidonné (et ça n'en a pas l'air), les noms imposent un minimum de respect : Mitch Kapor est un des fondateurs de Lotuset de l'Electronic Frontier Foundation. Il est aussi le fondateur de l'Open Source Application Foundation. Tim O'Reilly n'est pas n'importe qui non plus : http://www.oreilly.com/oreilly/tim_bio.html

D'après http://www.nutch.org/docs/en/credits.html , ils sont soutenus par du beau linge : Overture Research et The Internet Archive.
 
WRInaute passionné
Ouhais... Je me pose la question sur la futur pertinence des résultats sur un moteur open source car si les les "spammeurs" devinent déjà comment contourner les algos en leurs faveur on imagine même pas ce qu'il pourront faire sur un moteur open source !
 
WRInaute occasionnel
BadProcESs a dit:
si les les "spammeurs" devinent déjà comment contourner les algos en leurs faveur on imagine même pas ce qu'il pourront faire sur un moteur open source !

C'est tout a fait exact ! publier un tel code ne servirait strictement à rien. (à part pour les boites pour créer leur propre moteur. :mrgreen:

tuisp a dit:
J'ai pas tout compris, là...
A lire http://www.whois.sc/nutch.org et http://www.whois.sc/nutch.com ces deux sites ne m'ont pas vraiment l'air d'avoir un lien.

non, nutch.com et .org n'ont strictement rien à voir !!
.
 
WRInaute occasionnel
Je ne comprend plus rien :
D'abord ya ou yapas ?
ensuite sil ya c quoi l'url ?

Si c'est nutch.com, je suis trop déçu
 
WRInaute passionné
nutch.com est probablement un petit malin qui a exploité le nom (qui ne veut rien dire).
willybfriendly, dans http://www.webmasterworld.com/forum16/1037.htm donne cette citation :
As of June, 2003, we have successfully built a 100 million page demo system. Unfortunately, we do not yet have enough hardware to support a public demo. Hopefully we will be able to add that in the next few months. Stay tuned.
La FAQ du site dit :
The Nutch project itself may choose to host small-scale demo system, so that folks can see that it really works. This will require only moderate funding, perhaps a few hundred thousand dollars. The Nutch project may never host a full-scale deployment for folks to use as their everyday search engine. We'll leave that to commercial ventures who can afford it.
Autrement dit, il semble qu'il n'y ait rien à voir (pour le moment en tous cas).
 
Nouveau WRInaute
bonjour,

je voudrais saoir svp est ce que j ai le droit de modifier la source de nutch pour creer un moteur de recherche,
d'aprés mes etude nutch est sous licence apache mais j'ai pas compris cette licence est ce qu'elle nous donne le droit de modifier ... et est ce que je peux dire à la fin que cest mon propre moteur de recherche ??

merci en avance.
 
WRInaute accro
mathlouthi a dit:
bonjour,

je voudrais saoir svp est ce que j ai le droit de modifier la source de nutch pour creer un moteur de recherche,
d'aprés mes etude nutch est sous licence apache mais j'ai pas compris cette licence est ce qu'elle nous donne le droit de modifier ... et est ce que je peux dire à la fin que cest mon propre moteur de recherche ??

merci en avance.

C'est un logiciel libre, donc tu peux modifier. De plus, c'est une licence permissive (équivalente à l'ASL), donc tu peux conserver les modifications pour toi (ou les donner, c'est comme tu veux). Il y a juste une contrainte sur la protection du nom "Nutch".
 
Discussions similaires
Haut