Un moteur de recherche dédié, configurable, rapide pour mon

Nouveau WRInaute
Bonjour,

Ceci est en quelque sorte une prise de température auprès de développeurs de sites que vous êtes.
Vous êtes nombreux à inclure un moteur de recherche à votre site et j'ai relevé 2 procédés principaux :
  • recherche Google (ou autre moteur/crawler)
  • recherche interne de type full text ou similaire sur la base de données du site

Utiliseriez vous un web-service de moteur de recherche dédié à votre activité et qui aurait pour caractéristiques principales :
  • hautement scalable : jusqu'à des millions de documents, des milliers de recherches par jour
  • rapide : 1 seconde maximum pour obtenir un résultat même sur une base de plusieurs millions de documents
  • personnalisable (recherche sur des critères qui vous sont propres : localisation GPS, id du forum, catégorie du document, nombre d'étoiles d'un hôtel, etc...)
  • utilisant des algos de recherche probabilistes pertinents (bien loins donc du full text mysql), gérant la proximité des mots, supportant de nombreux opérateurs booléens (and, or, not, ...)
  • proposant une orthographe corrigée (werbankinfo -> did you mean "webrankinfo" ?) à la Google
  • proposant des documents similaires (sur un blog par exemple, proposer les billets qui parlent d'un sujet proche)
  • disponibilité quasi immédiate et garantie des nouveaux documents (donc pas d'attente de crawl comme Google)

L'idée est de proposer un web-service avec une API de type XMLRPC (donc interfaces PHP, python, C, Java, ... facilement développables) pour un moteur de recherche externalisé. Des plugins dotclear, wordpress, ... peuvent être développés pour faciliter l'intégration de ce service à ces moteurs de blogs.

Le site web soumet par l'API les nouveaux documents créés (la fiche d'une location par exemple sur un site de location de vacances) avec les critères de recherche de ce document (tranche de prix, type de location, coordonnées GPS, ...) qui sont automatiquement acceptés par le service et indexés en quelques minutes maximum.

Le site web utilise alors la même API pour interroger sa/ses bases de données et obtenir une recherche de très bonne qualité, sur des critères personnalisés sur sa base de données. Le site utilise les résultats de recherche pour construire la page web présentée à l'utilisateur.
Le tout se faisant à travers une API, le résultat est totalement intégré au site, en intégration graphique parfaite et totalement transparente pour le visiteur.

Ce genre de services existe déjà pour de grosses entreprises qui outsourcent la gestion de leur recherche. L'idée est de le créer pour les "petits" développeurs de site web que nous sommes tous sous un format de type "low-cost".
Le service serait gratuit pour un "petit" site avec un nombre de requêtes raisonnables par jour, et ensuite un prix à la carte progressif suivant la taille de la base de données, le nombre de requêtes par jour.

Pour le webmaster c'est la possibilité de :
  • avoir une recherche de très bonne qualité sur des critères personnels et complexes.
  • avoir des résultats de recherche dans un temps ne faisant pas fuir le visiteur.
  • intégrer ses résultats de recherche à l'ergonomie du site.
  • avoir des services supplémentaires comme la correction de la requête (did you mean ... ?) ou la recherche de documents similaires.
  • ne pas dépendre du bon vouloir d'un crawler à indexer son site rapidement.
  • diminuer le prix de son hébergement si la fonctionnalité de recherche est prépondérante sur ce site et l'oblige à choisir un hébergement plus cher pour avoir plus de CPU.
  • se reposer sur un service totalement scalable et de haute disponibilité.

Je vous laisse à vos critiques, remarques, idées...

E.
 
Discussions similaires
Haut