Créer un robot

WRInaute discret
Bonjour,
j'ai une bête question, comment est-ce qu'on fait un bête petit robot d'indexation ?
Vous avez des tuto ?
Merci
 
WRInaute accro
Créer un robot à partir de zero ou utiliser un truc déjà existant ?

A mon avis... le mieux c'est d'utiliser PHPDIG et de le lancer dans l'indexation de sites web.

Mais attention, ce genre de boulot consomme énormément de resources et je doute que ton robot puisse aller bien loin sur un petit hébergement :wink:
 
WRInaute discret
Oui mais j'ai juste envie de faire des petits tests sinon vous n'avez pas d'autres liens, cours,.. ?
Merci bcp
 
S
suppr10380
Guest
J'avais essayer d'en monter un avec ASPseek sous Debian mais en une semaine ma base dépassait déjà les 2 GO avec seulement 25000 pages.

bonne chance
 
S
suppr10380
Guest
Photoshop user a dit:
soccarfr a dit:
J'avais essayer d'en monter un avec ASPseek sous Debian mais en une semaine ma base dépassait déjà les 2 GO avec seulement 25000 pages.

tu indéxais juste les textes ? 8O

texte, meta, et cache html

mais je compte me relancer là dedans en faisant un indexage des sites de mon annuaire. chaque soumission mettant en file d'attente d'indexage. et si ça marche je pense fait l'inverse, chaque site indexé sera soumit à l'annuaire. Mais bon mes occupations actuelles me laissent peu de temps pour travailler à fond le projet.
 
WRInaute discret
En fait moi j'ai fait un robot comme ça :
Il y a deux bases de donées =>
1ère : URL_INDEX
2ème : TO_UPDATE

Le fonctionnement du robot =>
Il parcoure la bdd : URL_INDEX, il met tout à jour si jamais le site n'existe plus il le supprime de URL_INDEX.
Il récupère tous les liens de ce site , et les insérès dans la bdd : TO_UPDATE.
Biensûr si le lien est déjà présent dans une des deux BDD alors il ne fait rien.
--------
Après il parcoure la TO_UPDATE , il met tous les liens à jour , si la page n'existe pas il la supprimer sinon il l'ajoute à la BDD => URL_INDEX et la supprime de TO_UPDATE.
--------
Donc après beaucoup de passage du robot , toute les pages devrait être indexés.

Voilà, est-ce que c'est bien ?
Merci
 
Discussions similaires
Haut