récuperer automatiquement des noms de domaines

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

récuperer automatiquement des noms de domaines

Message le Mar Sep 11, 2007 13:24

Bonjour,

je suis entrain de developper un moteur de recherche et j'ai voulu developper une technique qui recupere des urls ou des noms de domaines automatiquement à partir du net ...

avez vous des idées ?

Merci d'avance..
Cordialment...

boutdepapier
WRInaute discret
WRInaute discret
 
Messages: 163
Inscription: 4 Aoû 2006

Message le Mar Sep 11, 2007 13:28

hum ? En gros t'as un TP d'info :p

A mon avis, il faut que tu fasses un spider. Le spider va partir d'une 20 aine de sites et parcourir tous les liens.

C'est comme ça que tu récupéres les noms de domaines dans chaque lien tu extrait le contenu de la balise href...

Ce contenu extrait ta base de sites s'est agrandit et tu peux recommencer avec les nouveaux. ect... jusqu'à ne plus avoir de place sur ton disque dur :)


e-kiwi
Modérateur
Modérateur
 
Messages: 15618
Inscription: 23 Déc 2003

Message le Mar Sep 11, 2007 13:28

tu lui donne les gros sites de départ, tu fais une fonction qui recupere tous les liens sortants d une page, et roulez jeunesse

paolo20110
WRInaute discret
WRInaute discret
 
Messages: 98
Inscription: 4 Mai 2004

Message le Mar Sep 11, 2007 13:31

Je crois que c'est assez basique surtout pour un moteur de recherche, si tu veux en devlloper un c'est pas gagné sans connaitre ca c'est pas gagné...

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Mar Sep 11, 2007 13:34

Merci pour vos réponse mais j ai une idée qui est trop manuelle , j ai utilisé Xenu et je lui est passé alexa.com mais la solution est trés manuelle , je voudrais une technique automatique

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Mar Sep 11, 2007 13:37

en fait mon moteur est à base de nutch si vous le connaissez et ce dernier on le passe un fichier urls.txt qui contient des urls ou des noms de domaines et son crawl fetch ces urls et les indexe mais le sousci mainteent est comment edvelopper qqchose d'automatique pour remplir ce fichier urls.txt

boutdepapier
WRInaute discret
WRInaute discret
 
Messages: 163
Inscription: 4 Aoû 2006

Message le Mar Sep 11, 2007 13:43

Ha oui Nutch... C'est une belle initiative :) Tu veux faire un moteur pour ?

Sinon la méthode on te l'as donnée : tu extrais tous les textes des arguments href dans les balises <a> qui commencent par http.

C'est l'ALGO ou méthode automatique de résolution automatique du probléme.

Bref maintenat c'est à toi de mettre le code. Bon courage !

paolo20110
WRInaute discret
WRInaute discret
 
Messages: 98
Inscription: 4 Mai 2004

Message le Mar Sep 11, 2007 13:46

Pour scroller les sites africains depuis le repertoire d'alexa...
cf ces 2 precedents topics...

boutdepapier
WRInaute discret
WRInaute discret
 
Messages: 163
Inscription: 4 Aoû 2006

Message le Mar Sep 11, 2007 13:56

bah partir d'Alexa n'est pas le bon choix ou une 20 aines de gros sites et portails africains spareil

En fait tu prend l'algo que l'on t'as donné et tu ajoutes une restriction :
- Ne récupérer que les url qui ont une extension d'un pays africain.

Genre : un site en .fr est français donc ne doit pas être enregistré.

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Mar Sep 11, 2007 13:56

non c pas africains ,

mon sousci est developper un script ou utliser une api qui scrolle des websites du net.

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Mar Sep 11, 2007 13:59

c quel que chose comme urlsextractor puis passer les urls extracté pour l'algo pour les traiter et ...

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Mar Sep 11, 2007 14:00

pour le extension des sites on peut avoir un sites farncais mais n'est pas .fr ca ca ????????

boutdepapier
WRInaute discret
WRInaute discret
 
Messages: 163
Inscription: 4 Aoû 2006

Message le Mar Sep 11, 2007 14:09

Dans ce cas c'est un site canadien... Ensuite y a des balises de langues.

Ou tu peux mettre une détection des mots les plus récurrents du français...


KOogar
WRInaute accro
WRInaute accro
 
Messages: 3974
Inscription: 16 Nov 2004

Message le Mar Sep 11, 2007 14:34

mathlouthi a écrit:non c pas africains ,

mon sousci est developper un script ou utliser une api qui scrolle des websites du net.


scrolle ? je pense que tu voulais dire crawler..

pour ton moteur :
basiquement tu vas chercher les liens d'une page et tu les suis.. pas compliquer ca, c'est quand on commence a classer que ca se complique ^^

ce code va chercher les liens d'une page: ^^
Code: Tout sélectionner
$masque = '#a href="(.*?)"#i';
preg_match_all($masque,$la_page_a_crwaler,$matches,PREG_SET_ORDER);
// le resultat se trouve dans le tableau $matches

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Mar Sep 11, 2007 15:11

Merci KOogar,
mais comment je vais executer ce code ?

récuperer automatiquement des noms de domaines

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité