Développer un moteur de recherche en PHP.

Verticrawl
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 13
Inscription: 2 Sep 2005

Message le Mar Oct 24, 2006 18:15

blman a écrit:Je viens de regarder FULL TEXT. C'est très bien mais ça ne convient pas vraiment à mon cas, car j'ai beaucoup d'info dans ma table qui sont des référénces à d'autres tables. Je vais quand essayer d'approfondir...

Je vais aussi tester la fonction SOUNDEX : peut-être pas pour les résultats mais pour proposer une autre recherche en cas de faute d'orthographe.



Le soundex est une cle base sur un algo de langue anglaise...si bien que "audience" est considéré comme différent de "odience" (sic)...

Aussi, pour faire une chose "propre/clean" dans votre moteur, vous devez au moins déterminer la langue du document avant d'en faire l'indexation...cela passe aussi par la detection de charset...et sa transcription dans votre charset perso ...(je vous conseille UTF-8 !!)

Quant à Salton..c'est une bonne approche qui devient vite bizarre surtout si un document contient une grande quantite d'un même mot. Il est surexpose comme dans google 95 ! (souvenez vous ;) )

Bon courage..vous etes sur la bonne voie

thierry8
WRInaute accro
WRInaute accro
 
Messages: 3251
Inscription: 11 Juil 2005

Message le Mer Oct 25, 2006 22:03

au passage pourquoi tous les posts de spidetra sont "effacé" (édité je suppose)


blman
WRInaute accro
WRInaute accro
 
Messages: 3077
Inscription: 5 Sep 2003

Message le Mer Oct 25, 2006 23:09

thierry8 a écrit:au passage pourquoi tous les posts de spidetra sont "effacé" (édité je suppose)


Parce que Spidetra ne traine plus sur ce forum. Il a voulu éditer certains messages à son départ. Dommage, pour le connaitre un peu, je peux dire qu'on a perdu quelqu'un de vraiment compétent :cry:

thierry8
WRInaute accro
WRInaute accro
 
Messages: 3251
Inscription: 11 Juil 2005

Message le Jeu Oct 26, 2006 7:17

ah ! ben oui, c'est dommage... :(

Tilt
WRInaute impliqué
WRInaute impliqué
 
Messages: 858
Inscription: 26 Mar 2005

Message le Dim Fév 11, 2007 22:01

Très intéressant ce topic ! J'essaie moi aussi de coder un petit moteur (php 5) avec classement par pertinence. Le point central à mon avis c'est d'intégrer dans l'algo la proximité entre les mots (plus les mots clés recherchés sont proches dans le contenu et plus ce contenu est un bon résultat), et la possibilité de chercher dans des fichiers physiques (2 choses qu'on ne peut pas faire avec mysql 5 en mode fulltext).

Et bien sûr que ça puisse fonctionner sur un mutu avec 16M de mémoire php et toutes les autres restrictions.


MrPiment
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 2
Inscription: 29 Mai 2006

Message le Ven Avr 13, 2007 9:15

Topic effectivement très intéressant, je suis moi aussi sur une problèmatique de création de moteur de recherche (Php+MySQL).

Je vais tout d'abord potasser toutes les choses mentionnées jusqu'à présent avant de vous faire un retour si j'ai quelque chose de pertinent à proposer.

Si quelqu'un a conserver les liens de spidetra cela m'intéresserait de les consulter....

L'un d'entre vous sait comment faire pour configurer MySQL afin d'utiliser un dico FR (ou EN, ES,...); peut-on le faire dynamiquement (selon l'origine du visiteur par ex) ou est-ce au démarrage du serveur mySQL ?

Je pense notamment aux stopwords et aux dico des recherches fullText.

JeromeRookie
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 462
Inscription: 11 Aoû 2003

Message le Sam Déc 01, 2007 10:38

bonjour. je relance ce sujet car j'ai également développé mon propre algo;
il fonctionne comme décris ci-dessous :
- je recherche les mots clé et affecte un poids à chaque match.
- je calcule donc une valeur 'pertinence' que j'affecte à chaque produit directement dans la base de donnée.

mais j'ai un énorme problème que je ne voyais pas au début : le trafic de mon site à tripler en un an et donc, il arrive en permanence qu'un internaute fasse une recherche XXX. je calcule donc la pertinence pour admettons 200 produits sur 5000 concernés par cette recherche et lui affiche les résultats. je lui propose également de faire des clés de tri. le problème c'est qu'entre le moment ou l'interanute clic sur une clé de tri, un autre internaute a pu faire une recherche YYY qui reclacule le champ pertinence.
quelqu'un a-t-il une idée ?

forummp3
WRInaute passionné
WRInaute passionné
 
Messages: 1982
Inscription: 8 Fév 2004

Message le Sam Déc 01, 2007 11:55

JeromeRookie a écrit:bonjour. je relance ce sujet car j'ai également développé mon propre algo;
il fonctionne comme décris ci-dessous :
- je recherche les mots clé et affecte un poids à chaque match.
- je calcule donc une valeur 'pertinence' que j'affecte à chaque produit directement dans la base de donnée.

mais j'ai un énorme problème que je ne voyais pas au début : le trafic de mon site à tripler en un an et donc, il arrive en permanence qu'un internaute fasse une recherche XXX. je calcule donc la pertinence pour admettons 200 produits sur 5000 concernés par cette recherche et lui affiche les résultats. je lui propose également de faire des clés de tri. le problème c'est qu'entre le moment ou l'interanute clic sur une clé de tri, un autre internaute a pu faire une recherche YYY qui reclacule le champ pertinence.
quelqu'un a-t-il une idée ?
ben tu stocke le resultat d'une recherche, et tu fais ensuite de temps en temps ta "google dance" en mettant a jour les resultats. pour les plus populaire, tu peux faire un mise a jour de la recherche toutes les 24heures, ou bien toute les heures, a toi de voir la frequence de mise a jour de ta base.

Développer un moteur de recherche en PHP.

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google SearchMash

  • Analyse du positionnement
    AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
  • Transformer des simples citations de votre site en liens
    Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité