Discussion, création d'un moteur de recherche

Nouveau WRInaute
Yop, alors voila
l'idée, c'est que j'ai décidé de creer un moteur de recherche sur un de mes serveurs. l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau...

je vais donc attaquer ca ce soir, et si je fais ce post, c'est pour écouter vos propositions et idées, qu'est ce que vous pensez qu'un bon annuaire devrait faire au niveau des calculs pour ressortir les sites les plus précis au niveaux des mots clés.

je n'ai pas la prétention de refaire google (ni les moyens d'ailleurs), mais je pense que ca peut être interessant....

voila, maintenant, je vous écoute...
 
WRInaute discret
Ben prépare toi à investir dans un gros serveur dédié alors !
Parceque question ressource ... vlà ce que ca bouffe... c'est énorme. Discute bien de tes projets avec ton hébergeur.

Bonne chance.

Tcho.
 
Nouveau WRInaute
alors, pour l'instant, j'ai 3 dédiés, et j'ai lancé ca sur un vieux p4 1.7ghz chez moi,
j'ai juste codé la partie crawler, qui ne fait que récupérer des urls de pages, avec un minimum de traitement. je l'ai lancé ce matin (avant de partir bosser, et la, j'ai 40827 pages indexées. ca fait dans les 10 000pages / heures (dont 5000 pages les 10 premieres minutes).
 
WRInaute accro
Sinon, plutôt que de tout coder toi même, il y a phpdig qui est bien fait et bien optimisé au niveau des ressources.
 
Nouveau WRInaute
blman a dit:
Sinon, plutôt que de tout coder toi même, il y a phpdig qui est bien fait et bien optimisé au niveau des ressources.
non, justement, l'idée etait de tout faire a 100%, c'est pour ca que je le fait... un moteur de recherche comme ca est pas viable fasse a google, yahoo, askj ou autres....
 
WRInaute passionné
Bonjour et bon courage

tu demandes des idées donc :

-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
- Nom de domaine peut important sur mot clefs
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-affichage d'un icon du site (exalead) sur les réponses données
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-navigation simplifié et intuitive
-possibilité de le customiser (préférences)
-affinage des réponse (exalead et UJIKO)
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort


voila c'est les 1er trucs qui me vienne..
 
Nouveau WRInaute
itraque a dit:
-affinage des réponse (exalead et UJIKO)
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort
-affichage d'un icon du site (exalead) sur les réponses données
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-navigation simplifié et intuitive
tout ca je veux bien, et c'etait prévu pour la plupart.



itraque a dit:
- Nom de domaine peut important sur mot clefs
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-possibilité de le customiser (préférences)


voila c'est les 1er trucs qui me vienne..
euj ... je pensais avoir dit que j'avais pas les moyens techniques de google .... 8O :D
mais pourquoi pas..... :wink:
 
WRInaute accro
Une bonne base serait d'indexer les pages en retirant les balises HTML et d'utiliser des index FULLTEXT (comme ça tu utilise la fonction de recherche dee MySQL (MATCH)
 
Nouveau WRInaute
blman a dit:
Une bonne base serait d'indexer les pages en retirant les balises HTML et d'utiliser des index FULLTEXT (comme ça tu utilise la fonction de recherche dee MySQL (MATCH)
j'yavais pensé, mais :
- tu tiens pas compte du poids des mots (h1, h2, title....)
- sur une base de 100 000 site, j'ose même pas imaginer le temps de traitement d'une recherche
- la base de données va peser des gigas pour rien, vu que je serais quand même obliger d'avoir la version avec balises pour le cache

spidetra a dit:
ben non, l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau. si je reutilise un truc, autant laisser tomber....
e-kiwi a dit:
tiens, ca me donne faim tout ca
t'as regardé http://www.phpdig.net/ (en dehors de tes heures de boulot)
pareil (et non, j'ai le pc pris par un script photoshop)
 
WRInaute accro
Ok, petit lu, as-tu lu le lien que je t'avais filer au début du post ? Si oui, qu'est-ce que tu pense de tout ce qu'on a pu dire ?
 
Nouveau WRInaute
ouaip je l'ai lu, j'avais d'ailleurs pas pensé a la fct soundex pour l'ortographe (le coup du essayez avec cette orthographe ...)

nickel aussi pour les stopwords, ca fait des plombes que je cherchais un fichier complet...

en fait j'ai deja fait un moteur de recherche dans une base de données (70 000 entrées a scanner 8O ), mais pas aussi complexe....
 
WRInaute passionné
petit lu a dit:
spidetra a dit:
ben non, l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau. si je reutilise un truc, autant laisser tomber....

c'est au contraire un très bon moyen de progresser. Je participe a un projet OpenSource (moteur de recherche ) et ça a bc d'avantages :
- Tu es en relation avec des developpeurs internationaux de haut-niveaux
- A mon petit niveau j'arrive à écrire des patches et des plug-in et donc apporter ma toute petite contrib à la communauté
- Tu touches à des algos / technos / framework auquel tu n'auras jamais accés seul dans ton coin.
Exemple : tu pense pouvoir implémenter l'algo map-reduce de Google, le clustering avbec carrot2, des ontologies avec Jena ?
 
Nouveau WRInaute
spidetra a dit:
petit lu a dit:
spidetra a dit:
ben non, l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau. si je reutilise un truc, autant laisser tomber....

c'est au contraire un très bon moyen de progresser. Je participe a un projet OpenSource (moteur de recherche ) et ça a bc d'avantages :
- Tu es en relation avec des developpeurs internationaux de haut-niveaux
- A mon petit niveau j'arrive à écrire des patches et des plug-in et donc apporter ma toutes petites contrib à la communauté
- Tu touches à des algos / technos / framework auquel tu n'auras jamais accés seul dans ton coin.
Exemple : tu pense pouvoir implémenter l'algo map-reduce de Google, le clustering avbec carrot2, des ontologies avec Jena ?
justement c'est des tarés ces gars la, j'ai fait un stage au laas, il m'ont fais programmer un emulateur de microprocesseur, j'ai du ecrire un programme que l'on devait programmer (si si)

donc, la , ca me permet de me le faire pépère, sans avoir a prendre 3 aspirines le soir........

ah tien, mon script photoshop est fini, snif, au boulot
 
Discussions similaires
Haut