récuperer automatiquement des noms de domaines
19 messages
• Page 1 sur 2 • 1, 2
- mathlouthi
- Nouveau WRInaute

- Messages: 49
- Inscription: 28 Aoû 2007
récuperer automatiquement des noms de domaines
Bonjour,
je suis entrain de developper un moteur de recherche et j'ai voulu developper une technique qui recupere des urls ou des noms de domaines automatiquement à partir du net ...
avez vous des idées ?
Merci d'avance..
Cordialment...
je suis entrain de developper un moteur de recherche et j'ai voulu developper une technique qui recupere des urls ou des noms de domaines automatiquement à partir du net ...
avez vous des idées ?
Merci d'avance..
Cordialment...
- boutdepapier
- WRInaute discret

- Messages: 163
- Inscription: 4 Aoû 2006
hum ? En gros t'as un TP d'info :p
A mon avis, il faut que tu fasses un spider. Le spider va partir d'une 20 aine de sites et parcourir tous les liens.
C'est comme ça que tu récupéres les noms de domaines dans chaque lien tu extrait le contenu de la balise href...
Ce contenu extrait ta base de sites s'est agrandit et tu peux recommencer avec les nouveaux. ect... jusqu'à ne plus avoir de place sur ton disque dur
A mon avis, il faut que tu fasses un spider. Le spider va partir d'une 20 aine de sites et parcourir tous les liens.
C'est comme ça que tu récupéres les noms de domaines dans chaque lien tu extrait le contenu de la balise href...
Ce contenu extrait ta base de sites s'est agrandit et tu peux recommencer avec les nouveaux. ect... jusqu'à ne plus avoir de place sur ton disque dur
- paolo20110
- WRInaute discret

- Messages: 98
- Inscription: 4 Mai 2004
Je crois que c'est assez basique surtout pour un moteur de recherche, si tu veux en devlloper un c'est pas gagné sans connaitre ca c'est pas gagné...
- mathlouthi
- Nouveau WRInaute

- Messages: 49
- Inscription: 28 Aoû 2007
Merci pour vos réponse mais j ai une idée qui est trop manuelle , j ai utilisé Xenu et je lui est passé alexa.com mais la solution est trés manuelle , je voudrais une technique automatique
- mathlouthi
- Nouveau WRInaute

- Messages: 49
- Inscription: 28 Aoû 2007
en fait mon moteur est à base de nutch si vous le connaissez et ce dernier on le passe un fichier urls.txt qui contient des urls ou des noms de domaines et son crawl fetch ces urls et les indexe mais le sousci mainteent est comment edvelopper qqchose d'automatique pour remplir ce fichier urls.txt
- boutdepapier
- WRInaute discret

- Messages: 163
- Inscription: 4 Aoû 2006
Ha oui Nutch... C'est une belle initiative
Tu veux faire un moteur pour ?
Sinon la méthode on te l'as donnée : tu extrais tous les textes des arguments href dans les balises <a> qui commencent par http.
C'est l'ALGO ou méthode automatique de résolution automatique du probléme.
Bref maintenat c'est à toi de mettre le code. Bon courage !
Sinon la méthode on te l'as donnée : tu extrais tous les textes des arguments href dans les balises <a> qui commencent par http.
C'est l'ALGO ou méthode automatique de résolution automatique du probléme.
Bref maintenat c'est à toi de mettre le code. Bon courage !
- paolo20110
- WRInaute discret

- Messages: 98
- Inscription: 4 Mai 2004
Pour scroller les sites africains depuis le repertoire d'alexa...
cf ces 2 precedents topics...
cf ces 2 precedents topics...
- boutdepapier
- WRInaute discret

- Messages: 163
- Inscription: 4 Aoû 2006
bah partir d'Alexa n'est pas le bon choix ou une 20 aines de gros sites et portails africains spareil
En fait tu prend l'algo que l'on t'as donné et tu ajoutes une restriction :
- Ne récupérer que les url qui ont une extension d'un pays africain.
Genre : un site en .fr est français donc ne doit pas être enregistré.
En fait tu prend l'algo que l'on t'as donné et tu ajoutes une restriction :
- Ne récupérer que les url qui ont une extension d'un pays africain.
Genre : un site en .fr est français donc ne doit pas être enregistré.
- mathlouthi
- Nouveau WRInaute

- Messages: 49
- Inscription: 28 Aoû 2007
non c pas africains ,
mon sousci est developper un script ou utliser une api qui scrolle des websites du net.
mon sousci est developper un script ou utliser une api qui scrolle des websites du net.
- mathlouthi
- Nouveau WRInaute

- Messages: 49
- Inscription: 28 Aoû 2007
c quel que chose comme urlsextractor puis passer les urls extracté pour l'algo pour les traiter et ...
- mathlouthi
- Nouveau WRInaute

- Messages: 49
- Inscription: 28 Aoû 2007
pour le extension des sites on peut avoir un sites farncais mais n'est pas .fr ca ca ????????
- boutdepapier
- WRInaute discret

- Messages: 163
- Inscription: 4 Aoû 2006
Dans ce cas c'est un site canadien... Ensuite y a des balises de langues.
Ou tu peux mettre une détection des mots les plus récurrents du français...
Ou tu peux mettre une détection des mots les plus récurrents du français...
-

KOogar - WRInaute accro

- Messages: 3974
- Inscription: 16 Nov 2004
mathlouthi a écrit:non c pas africains ,
mon sousci est developper un script ou utliser une api qui scrolle des websites du net.
scrolle ? je pense que tu voulais dire crawler..
pour ton moteur :
basiquement tu vas chercher les liens d'une page et tu les suis.. pas compliquer ca, c'est quand on commence a classer que ca se complique ^^
ce code va chercher les liens d'une page: ^^
- Code: Tout sélectionner
$masque = '#a href="(.*?)"#i';
preg_match_all($masque,$la_page_a_crwaler,$matches,PREG_SET_ORDER);
// le resultat se trouve dans le tableau $matches
- mathlouthi
- Nouveau WRInaute

- Messages: 49
- Inscription: 28 Aoû 2007
Merci KOogar,
mais comment je vais executer ce code ?
mais comment je vais executer ce code ?
19 messages
• Page 1 sur 2 • 1, 2
Lectures recommandées sur ce thème :
- recuperer automatiquement les urls des resultat gg
- récupérer automatiquement les balises métas description
- Récupérer automatiquement la latitude et la longitude d'une page Google Maps
- sous-domaines automatiquement
- Différences: nom de sous-domaines, répertoires ou noms de domaines différents ?
- Sous-domaines ou noms de domaines et annuaires
- Recuperer des domaines
- X noms de domaines
- Pb de noms de domaines
- 2 noms de domaines -> 1 site
Consultez la description détaillée des produits ou services de Google suivants : Google Picasa, Google AdWords API
- Les sous-domaines d'un site
Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité

