get sites actif

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

get sites actif

Message le Mer Sep 05, 2007 8:39

Bonjour,

tout d'abord je suis désolé si ne m'exprime bien .

je suis entrein de tester un moteur de recherche (nutch) et si vous connaissez ce dernier dot avoir un fichier urls.txt qui contient un ensemble d'urls qu'on les passe au crawl pour les indexer , mon sousci est comment avoir le maximum d'urls possible via un script ou une stratégie qq je sais pas mais un maximum de sites pour les passer au crawl .....

merci eaucoup pour vos lumieres .

Cordialemnt..
Lassaad MATHLOUTHI


nickargall
WRInaute accro
WRInaute accro
 
Messages: 6468
Inscription: 13 Juin 2005

Message le Mer Sep 05, 2007 9:20

Bonjour

Peut etre que le logiciel Xenu pourra t'aider? Il va lister toutes les URL d'un site et te sortir un rapport HTML avec beaucoup d'informations, notamment "list of valid URLS you can submit to a search engine"... ou quelquechose comme ça.

Tu peux ensuite copier cette liste et la recoller dans un fichier texte.

Le logiciel est gratuit, tu peux le télécharger sur cette page
http://home.snafu.de/tilman/xenulink.html

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Mer Sep 05, 2007 13:36

merci beaucoup pour votre reponse mais j ai pas compris qu est ce que tu vise par "list of valid urls you can submit to a search engine
"


nickargall
WRInaute accro
WRInaute accro
 
Messages: 6468
Inscription: 13 Juin 2005

Message le Mer Sep 05, 2007 13:44

Lorsque Xenu a terminé de visiter ton site, il te propose d'éditer un rapport HTML. Sur ce rapport, tu as une liste de tous les URL qu'il a réussi à trouver. Tu peux alors les copier dans un fichier texte .txt.

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Lun Sep 10, 2007 8:35

Bonjour nichargall ,

Xenu a terminé le parcours du sites (alexa) mais il n a pas demander de faire un rapport il ya justes des urls vert et rouges mais ils ne sont pas des domaines ils sont des urls et la plupart sont de la forme www.alexa.com/blablabla mais pour mon boulot mon besoins est comment je peux avoir les domaines de l'afirque en fait je suis entrain de developper un moteur de recherche et je veux avoir les domaines de l'afrique et que les domaine de l'afrique pour les indexer , je veux que lorsqu je tape un mot dans mon moteur il n'apporte que des sites afriquain. c ca l'objectif et je vous remercie beaucoups d'avance si vous avez une idée ou un script de qui fait ce genre de truc ..

Cordialemnt...
Lassaad MATHLOUTHI

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Lun Sep 10, 2007 11:23

rebonjour ,

j ai repeté la procedure de xenu
mais lors du reporting j arrive pas à enregestrer le fichier index.html dans le filezellaserver il ya un / qui est ajouté au debut du repertoire et je sais pas d'ou il vient


nickargall
WRInaute accro
WRInaute accro
 
Messages: 6468
Inscription: 13 Juin 2005

Message le Lun Sep 10, 2007 11:53

Lorsque le rapport HTML s'affiche dans ton navigateur, tu peux copier la liste d'URL donnée dans un fichier texte sans souci ..

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Lun Sep 10, 2007 12:59

merci beaucoup pour votre réponse mais il n ya aucun rapport qui s'affiche , en fait lorsque Xenu termine sa procédure il demande reporting je clique sur oui puis il ya un formulaire pour un compte ftp je met 127.0.0.1 puis nom d'utilisatur puis le mot de pass puis le dossier mais il n ya rien dans le dossier ...


nickargall
WRInaute accro
WRInaute accro
 
Messages: 6468
Inscription: 13 Juin 2005

Message le Lun Sep 10, 2007 13:01

une question : de quoi as-tu besoin ? Des URL des pages du site Alexa ? d'adresses de sites africains ? ...au juste ..

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Lun Sep 10, 2007 13:06

exactement je voudrais tous les domaines des sites afriquain d'ou j ai acceder à l'alexa et j ai cherché les repertoires de l'afrique .. mais lorsque j met l'url de l'alaxa ou http://www.lesannuaires.com/annuaire-afrique.html dans le xenu comme j ai vous expliqué ja i pas pu avoir le rapport html

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Lun Sep 10, 2007 13:13

mon skype ytlassaad
mon mail ing.lassaad@hotmail.com


nickargall
WRInaute accro
WRInaute accro
 
Messages: 6468
Inscription: 13 Juin 2005

Message le Lun Sep 10, 2007 13:15

ah ben non alors, Xenu va te donner toutes les URL du site Alexa.com et des liens externes mélangés.

Sinon pour avoir un rapport Xenu, il faut cliquer sur Cancel quand il te demande le ftp. Il ouvrira alors une page HTML avec le rapport dedans.

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Lun Sep 10, 2007 13:23

ok je vais réssayer ,

à propos que les sites africains est ce que vous avez une idée ? surtout je vais developper un script qui va faire ce truc mon objectif est de rendre cette fonctionnalités automatique ??

mathlouthi
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 49
Inscription: 28 Aoû 2007

Message le Lun Sep 10, 2007 13:38

c ad je veux alimenter la base de sites à indexer dans mon moteur de recherche qu'avec des sites africains ...


nickargall
WRInaute accro
WRInaute accro
 
Messages: 6468
Inscription: 13 Juin 2005

Message le Lun Sep 10, 2007 13:42

bon ben désolé, pas d'idée ...

get sites actif

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités