Moteur de recherche Français

Nouveau WRInaute
Bonjour à tous,
Je vous invite à essayer notre moteur de recherche spécialisé dans les sites en français, dazoo.fr
Lancé début 2014 nous en sommes arrivés à des algos aujourd'hui stables dont les modifications continues concernent principalement le paramétrage des différents critères.
L'index est bien entendu encore petit par rapports aux moteurs "poids lourds" donc n'espérez pas avoir des réponses pertinentes à tout : un algo c'est bien mais sans un index bien gros ça ne sert pas à grand chose.
De plus il y a encore quelques erreurs d'indexation que l'on a fait au début et qui n'ont pas encore été nettoyées (pages ou domaines dupliqués par exemple) et nous orientons notre travail sur l'index et laissons quelques temps les algos de coté, voila où nous en sommes actuellement.
Bonne journée.
L'équipe DAZOO FR
 
WRInaute passionné
Sympa... Personnellement j'aime bien la simplicité dans les SERP's.
Votre index contient quel nombre de pages à ce jour ?
Niveau technique, ça tourne avec quoi ?

Bon courage pour cette aventure !
 
Nouveau WRInaute
Merci pour votre retour et vos encouragements.
Nous venons de passer la barre des 110 000 000 de pages dans l'index mais on a encore quelques doublons multi domaines qui trainent.
Niveau technique dev on utilise des outils et framework "maison" qui mélangent du Java, du PHP, du Python et des bons vieux scripts shell
 
WRInaute accro
Il y a une petite faille XSS sur l'input q.
-http://dazoo.fr/search.html?q=%22test semble faire planter le site.
 
Nouveau WRInaute
Effectivement ça a pris un peu de temps au backend de recherche et du coup la requête a été stoppée automatiquement pour dépassement de ressources (d'où le "pas de réponse" que vous avez perçu) :
22270ms for "test
22577ms for "test semble
:roll:
Merci pour les essais.
 
WRInaute impliqué
Pour l'algo, il y a quand même beaucoup de progrès à faire. J'ai testé
- Paris tourisme et il me sort en tête Touquet Paris plage. (*)
- musée le louvre et il me sort en tête le sous-domaine http://cartelfr.louvre.fr.
- voyage patagonie et il me sort des résultats pour la plupart tout à fait pertinents.

Bonne continuation.

(°) EDIT
mais tourisme à Paris donne des résultats pertinents.
 
Nouveau WRInaute
Merci pour le retour.
Après analyse rapide pour cartelfr.louvre.fr il semble que cela vienne de meilleurs BL donc du contenu de l'index. C'est le problème avec un petit index on se retrouve souvent avec des sites qui ne montent pas comme par exemple le domaine www.louvre.fr faute d'avoir découvert des sources de BL qui sont elles-mêmes avec de bons critères.
 
WRInaute accro
ça serait bien de laisser la barre de recherche fixe en haut pour affiner la recherche si on a scrollé (donc sans remonter) ça ne coûte rien et ça économise les molettes.
 
Nouveau WRInaute
zeb a dit:
Vous gérez très mal les 301 ... pourquoi afficher les domaines redirigés ?

Simplement elles n'étaient pas gérées du tout au début, et elles sont supprimées au fur et à mesure de la mise à jour de l'index, c'est à dire très lentement.
 
WRInaute accro
A propos d'algo, justement: comment déterminez-vous le positionnement d'une page sur une requête ?
J'ai fait quelques tests, et je trouve les résultats plutôt bateau (ou "so 2000"...). No offense hein, c'est juste que je m'interroge ;)

Sinon, je trouve un peu dommage de passer par AdSense pour la monétisation ;)
 
Nouveau WRInaute
Tout ce qu'il a de plus classique : présence des mots clés, positionnements des mots clés dans la page, mots clés depuis les BL, score de notoriété à partir des BL pour chaque URL et notoriété de l'ensemble des URL pour un domaine, notoriété qui se transmet par les liens et quelques autres critères secondaires.
Vous trouvez les résultats plutôt "bateau" et bien ma foi c'est plutôt mieux que "trop pourris" c'est déjà ça :)
 
WRInaute passionné
Fellicitation pour cette initiative , c'est courageux au moins d'essayer de faire !
Je nai pas trouvé mon site sur la requete "annuaire français" , donc je l'ai ajouté ^^

On aimerais bien un graphisme un peu plus moderne, vous allez trouver ça ! Pour la pertinence, je sais que ce n'est pas évident, du moment que ça progresse, c'est l'essentiel :D

Bon vent ! :wink:
 
WRInaute accro
dazoofr a dit:
Vous trouvez les résultats plutôt "bateau" et bien ma foi c'est plutôt mieux que "trop pourris" c'est déjà ça :)

J'apprécie votre optimisme et votre humilité.
Je suis optimiste également, même s'il ne faut pas se faire trop d'illusions. Je pense qu'avec quelques améliorations (sur la pertinence et la capacité à crawler et interpréter rapidement), un projet "humble" comme le vôtre a ses chances. Il ne fera probablement jamais d'ombre au grand G, mais avec un peu de travail sur la performance, on peut imaginer qu'il se fasse une petite place au dessus des alternatives "plutôt foireuses" qu'on trouve sur le web français aujourd'hui.

Un axe sur lequel il me semble important de travailler également est la "disruptivité". Je sais, ça fait très "agence de comm", mais proposer une expérience différente (et meilleure, évidemment) est à mon sens la seule véritable façon de sortir du lot.

Il y a encore du boulot, mais je pense que si on voit le projet comme une alpha, ça part pas trop mal ;)

Entre autres idées (mode "my2cents"), je pense qu'il serait intéressant de rester franco-français (le consommateur français aime bien ça), et de faire un travail d'identification des sources "majeures" pour différencier l'affichage des résultats.

Exemple: quand je vois du pagesjaunes.fr dans des résultats de recherche, je les zappe d'office. Je sais ce que je risque d'y trouver (à savoir... rien). Identifier ce genre de sources pour -par exemple- les renvoyer à droite (ou à gauche... osons prendre des risques...) dans un cluster de résultats spéciaux, ce serait peut-être pas inintéressant.

Bon et pour les pubs... au risque de me répéter... le skyscraper AdSense à gauche vous décrédibiliser plus qu'autrechose :roll:
 
WRInaute accro
J'ai testé sur une requête non concurrentielle

J'ai eu le plaisir de voir un de mes sites en première page... mais pas pour les bonnes pages !!
Et des sites manifestement disparus, puisque overblog me renvoie vers la page d'accueil :(

J'ai testé sur une localité marocaine, j'ai vu des sites qui n'avaient rien à voir, sauf une adresse "rue de..."

Un peu comme si, en France, vous sortiez un hôtel parisien pour la requête Verneusses, parce qu'il serait "rue de Verneusse"

Je sais que je prends des exemples un peu tirés par les cheveux, en même temps c'est grâce à cela qu'on juge la pertinence d'un moteur.

Je vous ai envoyé les requêtes par MP
 
WRInaute accro
Bel essai !

HawkEye a dit:
Bon et pour les pubs... au risque de me répéter... le skyscraper AdSense à gauche vous décrédibiliser plus qu'autrechose :roll:
+1.

Quand je fais une recherche sur mon nom de famille, les résultats commencent par des pages contenant des mots proches, mais différents (deux lettres différentes dans le mot). Pourquoi partir de l'idée qu'il faut corriger ce qu'a écrit l'utilisateur ?

Jean-Luc
 
WRInaute accro
dazoofr a dit:
zeb a dit:
Vous gérez très mal les 301 ... pourquoi afficher les domaines redirigés ?
Simplement elles n'étaient pas gérées du tout au début, et elles sont supprimées au fur et à mesure de la mise à jour de l'index, c'est à dire très lentement.
ça comprend les sites avec et sans "www" redirigés a l'origine ... ça va faire beaucoup à reprendre.

La pub en effet pas glop ... la touche entrée ne fonctionne pas forcement a la première saisie (chez moi) toujours cette barre de recherche a perpette dans la fenêtre quand on fait une seconde recherche :(
 
Nouveau WRInaute
@longo600 : merci !

@HawkEye : pour ce qui est de rester franco-français c'est le but du projet, donc ça ne changera pas. Et des idées "pour changer" on en a plein, mais depuis le mois d'octobre priorité a été donnée à l'amélioration de l'index.

@Marie-Aude : pour les URLs données en MP, elles ne sont pas dans l'index ceci explique pourquoi elles ne sont pas sorties.
Nous ne crawlons qu'un nombre limité de pages maximum pour chaque domaine à chaque passage pour ne pas passer trop de temps sur chaque domaine et aussi pour limiter les sites "spams". Les pages sont choisies aléatoirement à partir des liens internes à chaque passage donc le fait qu'elles soient par exemple en 1er ou 2eme niveau ne les avantages pas forcément.
Et non les exemples ne sont pas tirés par les cheveux, au contraire on a tendance pendant le dev à utiliser toujours le même ensemble de requêtes et des requêtes qui tournent autours de nos préférences personnelles. Enfin pour ce qui est des sites disparus et des redirections on reviens au problèmes des 301 non gérées pendant bien trop longtemps.

@jeanluc : Il n'y a aucun mécanisme de "correction" dans l'algo. Je n'ai pas la requête je ne peux pas me prononcer avec certitude pour ce cas particulier mais l'algo ne cherche pas seulement que les mots clés "exacts" mais aussi les dérivés suivant quelques règles de grammaires/orthographe donc si il ne sort que des dérivés c'est qu'il n'a pas trouvé les mots clés "exacts" dans l'index.

@zeb : oui c'est un gros problème et comme vous l'avez compris "ça fait beaucoup à reprendre". D'autant qu'on ne l'avait pas géré du tout c'est à dire on n'a même pas stocké l'information ni dans la BD ni dans l'index du coup il faut que les robots passent la totalité de l'index et essaient chaque url... et on n'a pas trop les moyens d'avoir des centaines de robots pour faire un nettoyage rapide (c'est à dire moins que "des mois")... Alors on prend notre patience à deux mains.
Pour la barre de recherche, on a bien noté vos remarques surtout de la faire fixe c'est une bonne idée. Pendant le dev on a pris l'habitude d'utiliser le champs de recherche de Firefox j'avoue qu'on n'utilise jamais la barre de recherche du site :roll:
 
WRInaute passionné
@dazoofr , je compatie ...

- Le crawl => les sites lents, 22sec la page, des fois plus ... , le spam liens on page => 10 Mo la page et donc parfois le crash
- les erreurs de crawl / traitement = > faut tout recommencer, sur toutes les pages ...

Pour ceux qui ne comprennent pas :
- 1 million de page = durée de crawl, traitement, indexation au mieux 1seconde par page (vraiment au mieux hein) = 277 heures
- 10 millions de pages = 115 jours ....
- 100 millions de pages = 3 ans ....

- La gestions des sites, sous domaines, les hébergeurs en sous domaine et ceux en répertoire....

- la pertinence = passer des moulinettes pour créer des tables intermédiaires d'index, synonymes, et tout le reste, sur la totalité des crawls ...
- comprendre la requête = bonne ou mauvaise orthographe? mot superflu du type "je cherche" ...

Ne vous découragez pas, dans 5 ans, vous aurez fait du chemin.

je vous réitères mes encouragements ^^ :!: :D
 
WRInaute occasionnel
100 millions de pages = 3 ans ....
Ouais mais le but c'est quand même d'avoir plusieurs crawlers non ? "spiders" comme dit google :)

J'ai également testé et oui, je constate surtout que les pages qui ressortent le plus sont celles dont le <title> correspond exactement à la requête. Avec les années j'ai affiné certaines metas pour correspondre à la finesse de la sélection de google, ce type de page ne ressort pas sur dazoo.

Question curieuse, quelle SGBD utilisez vous ? SQL ou NoSql ?

Pour l'orthographe, c'est toujours intéressant aussi.
J'ai déjà essayé de coder un bot censé sortir du sens d'une chaîne de caractère (oui bon, c'était ambitieux), donc j'étais passé par plein de méthodes différentes, et pour l'orthographe, j'utilisais au début la phonétique, puis la distance de Levenshtein couplé à des expressions régulières et une base de donnée de mots "inutiles".
 
WRInaute passionné
Doubrovski a dit:
Ouais mais le but c'est quand même d'avoir plusieurs crawlers non ? "spiders" comme dit google :)
Oui, mais fait le calcul, entres les sites bloqués, très lent, le traitement etc, au final, tu dépasse la seconde pour tout le traitement. Donc, même avec 10 machines, tu es quasiment dans les 6 mois de traitement... Plus la bande passante nécessaire etc. Il faut au moins 50 machines pour crawler le web Français correctement, c'est c'est déjà une grosse infra-structure (je laisse les spécialistes faire le calcul du cout mensuel en tenant compte de tout).
Doubrovski a dit:
J'ai déjà essayé de coder un bot censé sortir du sens d'une chaîne de caractère (oui bon, c'était ambitieux), donc j'étais passé par plein de méthodes différentes, et pour l'orthographe, j'utilisais au début la phonétique, puis la distance de Levenshtein couplé à des expressions régulières et une base de donnée de mots "inutiles".
C'est une expérience intéressante. Et tu comprends la difficulté de pondre un algo final "rapide" et performant, surtout quand tu as des centaines de millions de pages.

J'utilise "phonex" et aussi la distance de Levenshtein, mais c'est loin d'être suffisant. Il faut un paquet de tables intermédiaires de groupes de mots, avec des index qui vont vite. Vraiment, c'est un casse tête. Surtout que l'on fait la comparaison avec Google qui embauche 25 000 ingénieurs quasiment les meilleurs du monde...

Sur mes crawls, je ramasse un paquet de pages qui ont des titres du genre "Bienvenue" , souvent toutes les pages ont le même titre, sans compter l'absense de balise H1, pas de méta-description, etc. Si les sites étaient normalement formétés, ce serait simple. Mais a 50%, tes 100 millions de pages en on 50 millions avec pleins de cas particuliers et erreurs différentes.

Voilà pour les difficultés, entre autres.
 
WRInaute accro
Il faut faire du multithreading pour accélérer les crawls.
J'ai testé Scrapy (qui gère le multithreading, stop/resume sans devoir tout réindexer,...)
+ storage dans Elasticsearch (qui gère de base term boosting, faceted search, stopwords, asciifolding, elision, levenshtein,...).
Et ça m'a semblé une bonne base pour faire un moteur de recherche.
 
Nouveau WRInaute
Doubrovski a dit:
100 millions de pages = 3 ans ....
Ouais mais le but c'est quand même d'avoir plusieurs crawlers non ? "spiders" comme dit google :)

110 millions en 2 ans sans compter celles qui ont été supprimées entre temps (plusieurs 10 aines de millions) et celles qui ont été visitées plusieurs fois (idem) avec de 5 à 8 robots en parallèle avec chacun 10 threads

Avec les années j'ai affiné certaines metas pour correspondre à la finesse de la sélection de google, ce type de page ne ressort pas sur dazoo.

Oui nous n'avons aucunement l'intention d'avoir forcément les mêmes critères que Google. Le paramétrage actuel des valeurs de chaque critère dépend uniquement de nos préférences personnelles.

Question curieuse, quelle SGBD utilisez vous ? SQL ou NoSql ?

PostgreSQL
 
WRInaute occasionnel
c'est déjà une grosse infra-structure
Je suis bien d'accord, mais pourquoi faire un moteur de recherche si on a pas 100 machines ? Et encore, ça paraît un peu léger... :D

Elasticsearch
Justement je me disais que si je devais refaire ce bot, déjà je laisserais tomber PHP et j'utilisais elasticSearch, je suis en train de tester sur une autre application avec de l'"instant search". Ça m'a l'air assez puissant.
 
WRInaute impliqué
Comme le dit spout, il ne faut pas voir 1 machine = 1 process (crawler).
Sur une machine tu peux mettre plein de crawler. Même en monoprocesseur c'est plus rapide de lancer plusieurs crawler qu'un seul car pendant qu'une connexion attend la réponse du site distant, le processeur s'occupe d'autres tâches, il n'attend pas comme un con la réponse ^^
C'est comme si tu envoyais un courrier en recommandé et que tu attendais plusieurs jours à ta porte l'accusé de réception …
 
WRInaute occasionnel
Blount-> Oui bien sûr :) D'ailleurs Node doit être pas mal pour faire un crawler.
Mais au delà de ça, ce que je voulais dire c'est que je ne vois pas pourquoi faire un moteur de recherche aujourd'hui sans financements assez importants.
 
Nouveau WRInaute
De multiples raisons : parce que l'on en a envie, parce que la technologie permet aujourd'hui de le faire relativement facilement, pour le challenge, ...
Et entre nous les moyens financiers ne sont pas forcément gage de réussite quand on voit le nombre de "startup" qui disparaissent même après avoir "levé" des sommes importantes.
Aujourd'hui notre moteur fonctionne avec quasiment zéro financement, à ce compte on peut survivre longtemps, très longtemps. Je comprend que ça peut paraître un modèle de fonctionnement étrange de nous jours, mais c'est un choix longuement réfléchi.
 
WRInaute passionné
dazoofr a dit:
Aujourd'hui notre moteur fonctionne avec quasiment zéro financement, à ce compte on peut survivre longtemps, très longtemps. Je comprend que ça peut paraître un modèle de fonctionnement étrange de nous jours, mais c'est un choix longuement réfléchi.
Idem, sans frais de structure ou si peu, tu reste à l'abris tu peux durer indéfiniment.

Et si je n'ai jamais fait de référencement , c'est que je suis convaincu qu'un bon service utile se promeut tout seul sur la toile, ca ne sert a rien d'arriver avec un paquet de fric sur la table si ton service n'interesse personne . Cinq ans après, tu meurt , faute de renouvellement et d'avoir trouvé ton marché, en ayant usé tes investisseurs.

Dazoo.fr a tout le temps de trouver sa cible, essayer ce que bon lui semble et lui plait, il n'a de compte a rendre a personne, pas de pression, pas d'urgence, et c'est déjà énorme aujourd'hui ^^
 
WRInaute occasionnel
Ok c'est sûr. Mais l’intérêt d'un moteur de recherche est d'abord d'être pertinent. Donc actualisé le plus rapidement possible, si possible en "temps réel", du moins pour les gros sites. Je me dis juste que c'est dommage que les projets de moteurs de recherche ne soient pas en partie financés par l'Europe ou la France, et de permettre à ceux qui montent des projets sérieux de bénéficier d'une structure de base correcte pour crawler le web.
Sinon, je ne sais pas si ça fonctionnerait, et je pars dans mon délire, mais quitte à révolutionner le système, une autre piste serait d'imaginer utiliser comme appui des API de recherche publiques documentées, comme des portes d'entrée vers différents types de données fraîches. :) En gros, les pouvoirs publics mettraient de l'argent sur la table pour glaner des données en temps réel sur des serveurs accessibles via APIs. Ce qui implique de normaliser d'une certaine manière le crawl, le stockage et l'accès à l'information pour les données publiques, mais permettrait de faire naître une nouvelle génération de moteurs dont un probablement public.
 
WRInaute impliqué
L'Europe commence à investir dans le Search, il était temps! Maintenant, il faudrait peut-être rajouter quelques zéros de plus aux sommes investies. J'espère que la prochaine levée sera beaucoup plus conséquente.
Bravo également pour Dazoo, je trouve ça hyper ambitieux. Certains de nos sites sont déjà injectés dedans.
 
WRInaute accro
Qwant, ça n'est pas le gg européen, mais le bing européen, vu que ses réponses semblent toujours provenir de bing (pour la partie web) :roll:
 
WRInaute passionné
Gorapat a dit:
Maintenant, il faudrait peut-être rajouter quelques zéros de plus aux sommes investies. J'espère que la prochaine levée sera beaucoup plus conséquente.
Dejà 25 millions d'euros c'est vraiment bcp ... et largement suffisant pour montrer de quoi l'on est capable pour les 2 prochaines années... et c'est notre argent ... Je crois que qu'il aurait été plus naturel de réserver une part aux autres moteurs, ne serait qu'un ou deux millions pour les aider à leur tour... Au moins les convoquer et faire un point au moins avec dazoo.fr...
 
Nouveau WRInaute
Doubrovski a dit:
Je me dis juste que c'est dommage que les projets de moteurs de recherche ne soient pas en partie financés par l'Europe ou la France

"Vivre libre ou mourir"...
Subvention implique presque toujours interventionnisme.

, et de permettre à ceux qui montent des projets sérieux de bénéficier d'une structure de base correcte pour crawler le web.

Chez dazoo.fr le crawl intègre des filtres, une black list, une grey list, une liste quotidienne, une partie de la détection des contenus dupliqués, etc...
C'est un processus qui nous est spécifique et ne s'applique pas à d'autres moteurs.
 
WRInaute passionné
c'est clair, etre financé par l'état, ca veut peut etre dire que quelque part il y a un contrat pour avoir un accès partiel à la bdd.

Il y a combien environ de trafic ?
 
WRInaute passionné
des gens cherchent dazoo dans le moteur dazoo ?!

Sinon concernant google, je vois des gens taper le nom du site dans google pour cliquer sur le lien ensuite au lieu de taper l'adresse dans la barre :'(
 
WRInaute accro
+1 forummp3, ça m'est déjà arrivé de mettre un site en prod et le client qui dit: mon site va pas, parce qu'il cherchais dans Google :mrgreen:
Énormément de lambdas font ça.
 
WRInaute passionné
forummp3 a dit:
sinon, en parlant de resources et de crawl, ca peut pas exister un systeme de crawl en p2p avec des amis, collegues, volontaire?
Ca donne un petit air du projet SETI , dans un autre domaine ^^http://boinc.berkeley.edu/download.php
 
WRInaute impliqué
spout a dit:
+1 forummp3, ça m'est déjà arrivé de mettre un site en prod et le client qui dit: mon site va pas, parce qu'il cherchais dans Google :mrgreen:
Énormément de lambdas font ça.

Je ne comprend pas vos remarques. Perso, je fais ça tout le temps et je suis loin d'être un lambdas.
Si je te dis d'aller sur https://www.webrankinfo.com, tu tapes l'adresse ? Bah moi je tapes webrank (dans la barre d'adresse du navigateur) et ensuite sur le premier lien de duckduckgo.com (pour ma part).
C'est pratique parce que tu n'es pas obligé de connaître l'orthographe à 100%.

Après, évidemment, j'utilise à fond l'historique du navigateur. Le coté moteur de recherche, c'est surtout pour la première fois.
Le prochain webrank, le nav me proposera direct l'adresse.
 
WRInaute impliqué
Leonick a dit:
il y a les marques pages, qui permettent cette recherche accélérée en tapant une partie du mot
Même sans mettre le site en marque page, ça fonctionne.
Firefox va chercher dans l'historique des pages déjà visitées et utilise le titre de la page, l'adresse et le nombre de fois que tu es allé sur la page.
Ça m'arrive régulièrement de retrouver une page sans savoir sur quel site c'était exactement mais en tapant juste les mots clés.
Par exemple, si tu tapes "moteur de " dans ta barre d'adresse, tu vas voir ressortir ce sujet dans les propositions.

Bref, on s'éloigne du sujet là :)
 
WRInaute accro
l'historique je le supprime assez souvent, tout comme le cache du navigateur
ce qu'il faut voir c'est la fusion de plus en plus forte entre la barre d'adresse et la barre de recherches, surtout sur les versions mobiles de navigateur, ce qui arrange bien les moteurs essentiellement gg, car ainsi même si tu n'as pas chrome, que le site où tu vas directement n'a aucun outil gg (GA, adsense, G+,...) gg peut savoir où tu as été !
donc en tapant vite, on peut se retrouver, sans le vouloir, à faire un tour par le moteur de recherches alors qu'on a tapé l'adresse quasi en entier
 
WRInaute occasionnel
je vois des gens taper le nom du site dans google pour cliquer sur le lien ensuite au lieu de taper l'adresse dans la barre
Ouais, la base quoi ! Je crois qu'aujourd'hui c'est difficile d'expliquer la différence entre URL et recherche.
Généralement mes clients n'arrivent pas à accéder à leur site tant qu'il n'est pas référencé et se demandent pourquoi... je dois donc expliquer à chaque fois... et faire comprendre que c'est pas instantané.

etre financé par l'état, ca veut peut etre dire que quelque part il y a un contrat pour avoir un accès partiel à la bdd.
J’émettais deux hypothèses, soit l'état offre des subventions pour l'infrastructure des moteurs (dans ce cas les bdd des moteurs restent privées, donc souvent limitées), soit l'état offre carrément des données en open-source accessibles via API, comme il le fait déjà dans les grandes villes depuis un moment, car c'est bénéfique au niveau politique et financier. Mais le but ne serait pas cette fois de publier les données communales, mais un reflet du web, temps réel d'une part, mais passé aussi (des serveurs publics archivent déjà le web, comme celui de la BNF).

Des villes de second rang se lancent aussi dans l'open data pour plusieurs raisons, et en particulier car ça favorise l'emploi et le commerce au niveau local. D'où l'intérêt d'offrir gratuitement des données. Alors je me dis pourquoi ne pas carrément normaliser l'archivage du web, et créer une api publique de recherche, qui serait totalement transparente.
L'avantage serait de profiter grâce à l'api de sources de données publiques hétérogènes, dans l'europe entière, voire même dans le monde entier si les états sont partant pour avoir plus de contrôle sur la recherche, ils offriront l'infrastructure et le stockage.
Une api totalement gratuite, partiellement payante, accessible aux grandes entreprises... des questions difficiles à résoudre.
 
WRInaute accro
Doubrovski a dit:
L'avantage serait de profiter grâce à l'api de sources de données publiques hétérogènes, dans l'europe entière, voire même dans le monde entier si les états sont partant pour avoir plus de contrôle sur la recherche, ils offriront l'infrastructure et le stockage.
plus de contrôle sur la recherche : ça peut vouloir dire censure. Non ? :?
 
WRInaute accro
Doubrovski a dit:
Alors je me dis pourquoi ne pas carrément normaliser l'archivage du web, et créer une api publique de recherche, qui serait totalement transparente.
Hummm ... comme c'est une belle et bonne idée qui me ferait plaisir ...
 
WRInaute accro
à voir comment un certain nombre d'administrations freinent au maximum l'ouverture de leurs données et, en plus, ouverture ne veut pas dire obligatoirement gratuité, car ils ont la possibilité d'y inclure les frais relatifs à ces données. Formulation très vague permettant d'y inclure ce que l'on souhaite !
 
WRInaute occasionnel
plus de contrôle sur la recherche : ça peut vouloir dire censure. Non ?
Il pourrait y avoir de la censure, tout dépend de la gouvernance. Le fait que ce soit public devrait en principe limiter ça, donc on aurait besoin de lobbyistes programmeurs à Bruxelles si la gouvernance est Européenne. :)
Là où les pouvoirs publics auraient plus de contrôle sur les données, c'est qu'il pourraient définir les normes d'archivage du web. Mais le but est que ce soit transparent, open-source, gratuit, et qu'on archive l'ensemble du web. Définir les normes d'archivage n'est pas définir les résultats de recherche.
Dans tous les cas, rien n'empêcherait les entreprises de créer des systèmes hybrides et d'utiliser leurs propres crawlers ciblés.
BOn... mais on est loin de tout ça
 
WRInaute passionné
Pour avoir une amie qui justement est a un poste de direction sur la coordination informatique des services de l'état , je peux te dire qu'il y a une guerre entres les administrations au sujet des critères communs. Surtout que les directives de cet enorme chantier fixent une limite de 200 champs en BDD (je sais plus si c'est 200 ou un peu plus ou moins), mais cela semble mission impossible, chacun veut son champ ... Sans compter les données non nominatives, et non administrative( commercants, economie etc)

Dazoo.fr n'est pas dutout dans cette approche, c'est plutot Premsgo. Dazoo est plutôt dans le modele des moteur classique, comme altavista et bien d'autres.

Une idée Dazoo du volume de doc / pages sur le web Français?
 
Nouveau WRInaute
Non aucune idée on avait en projet de réfléchir à une méthode pour calculer cela mais ça n'a jamais démarré faute de temps. De plus on indexe tout ce qui est francophone, pas seulement français, ce qui est encore plus compliqué puisque l'on peut avoir pour un domaine des mélange de langues d'une page à l'autre comme par exemple français/arabe c'est courant pour les domaines .dz, .ma et .tn
 
WRInaute passionné
Ca avance? tu pourrais mettre une redirection stp sur le www? Ca serait plus pratique ^^ En l'état, ca ne trouve pas le serveur!
 
Nouveau WRInaute
Bonjour,
Oui ça avance petit à petit on travaille toujours sur l'amélioration de l'index (on passe plus de temps à faire de la BD que du code ces derniers mois :roll: ).
Je n'ai pas compris pour la redirection www ? Si tu parles de www.dazoo.fr -> dazoo.fr elle fonctionne.
 
WRInaute passionné
Oops, Désolé, autant pour moi, j'avais simplement oublié de mettre le .avant le fr ...
Bon courage pour la suite ^^
 
Nouveau WRInaute
Et bien oui on recommence tout et on change de formule :roll:
Non en fait on ne recommence pas vraiment tout car dans la prochaine formule le moteur de recherche aura une part importante, aussi bien dans le back end que dans le front end. Mais contrairement à la version précédente ce ne sera pas la seule et unique fonctionnalité.
Le changement s'explique par un constat simple : après 3 ans de travail sur le moteur de recherche dont 1 ans 1/2 à s'occuper principalement du contenu (de l'index) pour l'améliorer force est de constater que Internet étant constitué de 10% de sites "valables" et 90% de m***e. Notre travail sur l'index a donc consisté à 90% à gérer de la m***e. Cela ne nous intéresse tout simplement pas, on avait commencé ce projet pour la technique et on se retrouve a gérer la m***e des autres. Dans la nouvelle formule le contenu sera en partie sélectionné, et le tout plus agréablement gérable (pour nous !).

Le travail n'est pas perdu, la nouvelle formule reprend déjà près de 90% du code de la partie robots/scripts/indexation et surtout moteur de recherche. Le travail actuel porte sur les fonctionnalités nouvelles, tout est à faire.
Je ne me risquerais pas à donner une date pour la mise en prod, même pas au mois près...
 
WRInaute passionné
Ben moi j'ai découvert le NOUVEAU DAZOO.FR , en moteur de recherche Français d'actualité. C'est sympa, et graphiquement plus agréable ^^ j'ai vendu la mèche ^^lol
 
WRInaute accro
J'ai découvert dazoo aujourd'hui mais quelle déception....
Déjà il ne fonctionne pas sur mon navigateur alors que tous les autres moteurs de recherche fonctionnent très bien.
Et en utilisant un autre navigateur je vois que ce n'est qu'un moteur de recherche d'actualité, ce que je trouve parfaitement inutile puisque le principe de l'actualité c'est d'être fraiche. Utiliser un moteur de recherche pour ressortir des actualités d'il y a deux mois c'est plus de l'actualité.
En plus la plupart des actualités proviennent des grands journaux d'actualité (le parisien, l'express, etc...). Autant aller directement sur ces journaux qui possèdent presque tous un moteur de recherche interne capable de sortir plus de réponses que dazoo qui utilise pourtant toutes les sources.
Je préfère donc continuer à aller sur google news in english pour ne pas apprendre l'élection de Donald avec 10 jours de retard.
Je sais, c'est un peu méchant et c'est bien dommage que je n'ai pas connu l'ancien dazoo mais je le répète : le principe de l'actualité c'est d'être fraiche et non réchauffée.
 
WRInaute passionné
@indigene , je te trouve bien dur...

Déjà, personnellement, je féllicite ceux qui, sans prétention, font et crées des choses de A à Z.
Le modèle brouillon n'est pas fréquent sur la toile, on est plutôt habitué a voir des nouveaux sites bien modelés dont les concepteurs ont mis un certain budget sur la table, seul ou avec des investisseurs. C'est une mauvaise habitude, et il faut savoir déceler je pense le "socle" de la valeur ajouté, ou au moins, l'objectif visé à terme.

Dans le cas des outils de recherche, ont va se heurter TOUJOURS à la même difficulté : la technologie de la sémantique...
Grâce à des milliards de données et une puissance de feu en ressources machine / humaine / financière considérable, les grands moteurs de recherche sont de plus en plus difficile a rattraper pour obtenir une pertinence acceptable.

Après, ce n'est pas parce qu'un site est amateur, qu'il se mesure a des grands, que cela signifie qu'il est bien. Et puis, y a t-il un besoin , une demande ...? Dazoo n'a pas communiqué, c'est juste ma veille qui m'a fait retombé dessus "par hasard", c'est donc qu'il n'ont probablement pas encore fini.

Ils avaient annoncé vouloir abandonner le crawl global, car ils récupèrent énormément de déchets, et là je les comprends. Toutes les pages, les sites, tous ces abus rejetés et blacklistés par les grands moteurs, tu les prends dans le nez ... parfois 10 000 liens dans une page, parfois des pages de 20Mo, etc etc ... Null doute que c'est du suicide aujourd'hui que de faire un moteur de recherche.

Qwant, c'est le bon exemple, je ne vais pas aller pourrir leur post (ca les regardes hein ...! ) , mais après des analyses complètes que j'ai fait en utilisant l'API de Bing en test gratuit, personnellement, je considère que Qwant est du pur API de bing, irréfutablement, hormis la partie éducation dans Qwant junior, et l'on voit bien l'amateurisme (la difficulté en tout cas) de faire un moteur de recherche qui tienne la route lorsque l'on va dans cet onglet précisément de Qwant Junior.

Dazoo n'a peut-être pas l'ambition, comme c'était déjà dit par son concepteur, de faire un produit grand public et commercial.
Bref, j'ai probablement ouvert ma bouche alors qu'il ne fallait pas ... désolé si c'est le cas. Et je crois en conséquence qu'une critique n'est pas appropriée tant que le concepteur n'a pas communiqué sur sa réalisation.
 
WRInaute accro
Oui, c'est dur, et j'en ai bien conscience puisque je le signale dans mon intervention.

Ce n'est pas vraiment une critique à la base, je commence le post par "quelle déception", c'est donc plus un ressenti personnel, un feed-back.

Faire un moteur pour aller déterrer des actualités qui ne sont plus fraiches, j'ai du mal à voir l'utilité.

Un agrégateur d'actualité serait bien plus utile, avec des sources d'actualité plus variées que celles que ton trouve habituellement sur les grands moteurs. Il faudrait avoir bien plus de thèmes d'intérêt et un choix très large de sources en rapport avec ces centres d'intérêt. Mais que les actus soient fraiches.

Ok, c'est déjà ce que fait facebook. On peut s'abonner à des pages qui nous intéressent.

Et pourquoi ne pas faire un moteur qui fonctionnerait sur inscription ? Un peu comme les annuaires d'antan mais avec une liste de sites sélectionnés et validés par des humains qui seraient crawlés par le moteur (et pas uniquement les pages d'accueil)
La sélection pourrait même être automatisée en fonction de certains critères de qualités. Un site qui présente de nombreuses pages pourries seraient rejeté en automatique.
 
WRInaute passionné
ce sont les boutons qui manquent sur les pages de resltats.. sur la page de recherche, tu as les boutons les + populaires ou lesplus récents . si tu les utilisent , c'est qq mm pas mal...
 
WRInaute passionné
indigene a dit:
Et pourquoi ne pas faire un moteur qui fonctionnerait sur inscription ? Un peu comme les annuaires d'antan mais avec une liste de sites sélectionnés et validés par des humains qui seraient crawlés par le moteur (et pas uniquement les pages d'accueil)
Il y a deja ce moteur Français qui existe, si tu suit mes posts, il est en version alpha mais la bêta arrive. D'ailleurs , les nouveaux data moulinent (+30 millions de pages web crawlées) pendant que j'écrit sur WRI ...
 
Discussions similaires
Haut