Petit crawler en C/C++/Java/Python

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


ecocentric
WRInaute accro
WRInaute accro
 
Messages: 3602
Inscription: 10 Fév 2004

Petit crawler en C/C++/Java/Python

Message le Jeu Sep 23, 2004 11:09

Bonjour,
Je suis à la recherche d'un logiciel, éventuellement basique, capable de récupérer des pages HTML en grand nombre, voire de créer un index. Il pourrait être développé en C, C++, Java ou Python. Il doit être Open Source (possibilité de l'intégrer dans un projet plus grand). Quelqu'un a-t-il une idée ?
RV.


herveG
Modérateur
Modérateur
 
Messages: 9919
Inscription: 5 Mar 2003

Message le Jeu Sep 23, 2004 12:19

je cherche aussi....!! merci pour toute info !! :)


rebirth
WRInaute impliqué
WRInaute impliqué
 
Messages: 909
Inscription: 18 Avr 2004

Message le Jeu Sep 23, 2004 13:05

De meme en elargissant meme au Perl...voire PHP....

J'ai besoin d'un outil capable de recuperer les meta : title et keywords...
J'ai quelques idees pour optimiser mes pages..

Enfin si ca existe pas vraiment je le ferai en open, mais j'ai plein de projets en meme temps a finir :(
Ca me plairait plus de trouver un truc open, prendre ce qu'il faut et hop !


jerome347
WRInaute impliqué
WRInaute impliqué
 
Messages: 573
Inscription: 19 Mar 2004

Message le Jeu Sep 23, 2004 13:14

rebirth a écrit:voire PHP....
J'ai besoin d'un outil capable de recuperer les meta : title et keywords...


En php il y a la fonction get_meta_tags.

et pour récupérer le title, un petit parser de ce genre suffit :

Code: Tout sélectionner
function GetBetween($file, $debut, $fin)
   {
   $file = file($file);
   $retour = implode('', $file);
   $retour = explode($debut, $retour);
   $retour = explode($fin, $retour['1']);
   return $retour['0'];
   }

shrom
WRInaute impliqué
WRInaute impliqué
 
Messages: 865
Inscription: 5 Juil 2004

Message le Jeu Sep 23, 2004 13:16

Tu as une liste des moteurs de recherche open source ici:
http://www.searchtools.com/tools/tools-opensource.html

Dans la liste, je connais surtout nutch ( devait servir de base à mozdex, mais mozdex semble définitivement fermé ) qui a un indexer assez puissant et mnoGoSearch qui permet d'indexer les bases de données.


ecocentric
WRInaute accro
WRInaute accro
 
Messages: 3602
Inscription: 10 Fév 2004

Message le Jeu Sep 23, 2004 13:34

rebirth a écrit:De meme en elargissant meme au Perl...voire PHP....

J'ai besoin d'un outil capable de recuperer les meta : title et keywords...
J'ai quelques idees pour optimiser mes pages..

Enfin si ca existe pas vraiment je le ferai en open, mais j'ai plein de projets en meme temps a finir :(
Ca me plairait plus de trouver un truc open, prendre ce qu'il faut et hop !


Je m'amuse un peu avec ça : http://seo.ecocentric.be/meta.php . Eventuellement, contacte-moi en MP pour le code.
Dernière édition par ecocentric le Jeu Sep 23, 2004 13:56, édité 1 fois.


ecocentric
WRInaute accro
WRInaute accro
 
Messages: 3602
Inscription: 10 Fév 2004

Message le Jeu Sep 23, 2004 13:35

jerome347 a écrit:En php il y a la fonction get_meta_tags.


Intéressant. Je ne connaissais pas.


ecocentric
WRInaute accro
WRInaute accro
 
Messages: 3602
Inscription: 10 Fév 2004

Message le Jeu Sep 23, 2004 13:38

shrom a écrit:Dans la liste, je connais surtout nutch ( devait servir de base à mozdex, mais mozdex semble définitivement fermé ) qui a un indexer assez puissant et mnoGoSearch qui permet d'indexer les bases de données.


Nutch est déjà un gros logiciel. Je cherche plutôt quelque-chose de très simple, compact au niveau de code, très facilement installable. L'idée n'est pas de pouvoir concurrencer Google ;-), plutôt de pouvoir traiter en continu quelques centaines de sites, voire quelques milliers, avec une bonne stabilité et une rapidité correcte, et d'appliquer des trairement sur ce qui a été crawlé. .

http://www.searchtools.com/tools/tools-opensource.html


Très bon ![/code]


rebirth
WRInaute impliqué
WRInaute impliqué
 
Messages: 909
Inscription: 18 Avr 2004

Message le Jeu Sep 23, 2004 17:46

Ok merci a tous, pour tout ces liens :D

Je connaissais pas cette fonction en PHP, enfin de l'autre cote, je m'y suis mis il y a pas trop longtemps....
Ca me change pas trop du C/Perl, mais c'est cool pour le Web...


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité