Moteur de recherche Français

Consultez la formation sur les stratégies de liens de WebRankInfo / Ranking Metrics


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Moteur de recherche Français

Message le Ven Oct 30, 2015 9:33

Bonjour à tous,
Je vous invite à essayer notre moteur de recherche spécialisé dans les sites en français, dazoo.fr
Lancé début 2014 nous en sommes arrivés à des algos aujourd'hui stables dont les modifications continues concernent principalement le paramétrage des différents critères.
L'index est bien entendu encore petit par rapports aux moteurs "poids lourds" donc n'espérez pas avoir des réponses pertinentes à tout : un algo c'est bien mais sans un index bien gros ça ne sert pas à grand chose.
De plus il y a encore quelques erreurs d'indexation que l'on a fait au début et qui n'ont pas encore été nettoyées (pages ou domaines dupliqués par exemple) et nous orientons notre travail sur l'index et laissons quelques temps les algos de coté, voila où nous en sommes actuellement.
Bonne journée.
L'équipe DAZOO FR


M&B Multimédia
WRInaute passionné
WRInaute passionné
 
Messages: 1232
Enregistré le: 1 Oct 2009

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 10:34

Sympa... Personnellement j'aime bien la simplicité dans les SERP's.
Votre index contient quel nombre de pages à ce jour ?
Niveau technique, ça tourne avec quoi ?

Bon courage pour cette aventure !


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 12:28

Merci pour votre retour et vos encouragements.
Nous venons de passer la barre des 110 000 000 de pages dans l'index mais on a encore quelques doublons multi domaines qui trainent.
Niveau technique dev on utilise des outils et framework "maison" qui mélangent du Java, du PHP, du Python et des bons vieux scripts shell


spout
WRInaute accro
WRInaute accro
 
Messages: 8209
Enregistré le: 14 Mai 2003

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 12:33

Il y a une petite faille XSS sur l'input q.
-http://dazoo.fr/search.html?q=%22test semble faire planter le site.


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 12:44

Effectivement ça a pris un peu de temps au backend de recherche et du coup la requête a été stoppée automatiquement pour dépassement de ressources (d'où le "pas de réponse" que vous avez perçu) :
22270ms for "test
22577ms for "test semble
:roll:
Merci pour les essais.

kristel
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 497
Enregistré le: 24 Aoû 2005

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 14:54

Pour l'algo, il y a quand même beaucoup de progrès à faire. J'ai testé
- Paris tourisme et il me sort en tête Touquet Paris plage. (*)
- musée le louvre et il me sort en tête le sous-domaine http://cartelfr.louvre.fr.
- voyage patagonie et il me sort des résultats pour la plupart tout à fait pertinents.

Bonne continuation.

(°) EDIT
mais tourisme à Paris donne des résultats pertinents.


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 15:34

Merci pour le retour.
Après analyse rapide pour cartelfr.louvre.fr il semble que cela vienne de meilleurs BL donc du contenu de l'index. C'est le problème avec un petit index on se retrouve souvent avec des sites qui ne montent pas comme par exemple le domaine www.louvre.fr faute d'avoir découvert des sources de BL qui sont elles-mêmes avec de bons critères.


zeb
WRInaute accro
WRInaute accro
 
Messages: 13572
Enregistré le: 5 Déc 2004

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 17:06

Vous gérez très mal les 301 ... pourquoi afficher les domaines redirigés ?


zeb
WRInaute accro
WRInaute accro
 
Messages: 13572
Enregistré le: 5 Déc 2004

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 17:08

ça serait bien de laisser la barre de recherche fixe en haut pour affiner la recherche si on a scrollé (donc sans remonter) ça ne coûte rien et ça économise les molettes.


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Re: Moteur de recherche Français

Message le Ven Oct 30, 2015 17:28

zeb a écrit:Vous gérez très mal les 301 ... pourquoi afficher les domaines redirigés ?


Simplement elles n'étaient pas gérées du tout au début, et elles sont supprimées au fur et à mesure de la mise à jour de l'index, c'est à dire très lentement.


HawkEye
Modérateur
Modérateur
 
Messages: 18208
Enregistré le: 23 Fév 2004

Re: Moteur de recherche Français

Message le Lun Nov 02, 2015 21:55

A propos d'algo, justement: comment déterminez-vous le positionnement d'une page sur une requête ?
J'ai fait quelques tests, et je trouve les résultats plutôt bateau (ou "so 2000"...). No offense hein, c'est juste que je m'interroge ;)

Sinon, je trouve un peu dommage de passer par AdSense pour la monétisation ;)


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Re: Moteur de recherche Français

Message le Lun Nov 02, 2015 22:41

Tout ce qu'il a de plus classique : présence des mots clés, positionnements des mots clés dans la page, mots clés depuis les BL, score de notoriété à partir des BL pour chaque URL et notoriété de l'ensemble des URL pour un domaine, notoriété qui se transmet par les liens et quelques autres critères secondaires.
Vous trouvez les résultats plutôt "bateau" et bien ma foi c'est plutôt mieux que "trop pourris" c'est déjà ça :)

longo600
WRInaute passionné
WRInaute passionné
 
Messages: 2433
Enregistré le: 24 Fév 2005

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 0:40

Fellicitation pour cette initiative , c'est courageux au moins d'essayer de faire !
Je nai pas trouvé mon site sur la requete "annuaire français" , donc je l'ai ajouté ^^

On aimerais bien un graphisme un peu plus moderne, vous allez trouver ça ! Pour la pertinence, je sais que ce n'est pas évident, du moment que ça progresse, c'est l'essentiel :D

Bon vent ! :wink:


HawkEye
Modérateur
Modérateur
 
Messages: 18208
Enregistré le: 23 Fév 2004

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 0:46

dazoofr a écrit:Vous trouvez les résultats plutôt "bateau" et bien ma foi c'est plutôt mieux que "trop pourris" c'est déjà ça :)


J'apprécie votre optimisme et votre humilité.
Je suis optimiste également, même s'il ne faut pas se faire trop d'illusions. Je pense qu'avec quelques améliorations (sur la pertinence et la capacité à crawler et interpréter rapidement), un projet "humble" comme le vôtre a ses chances. Il ne fera probablement jamais d'ombre au grand G, mais avec un peu de travail sur la performance, on peut imaginer qu'il se fasse une petite place au dessus des alternatives "plutôt foireuses" qu'on trouve sur le web français aujourd'hui.

Un axe sur lequel il me semble important de travailler également est la "disruptivité". Je sais, ça fait très "agence de comm", mais proposer une expérience différente (et meilleure, évidemment) est à mon sens la seule véritable façon de sortir du lot.

Il y a encore du boulot, mais je pense que si on voit le projet comme une alpha, ça part pas trop mal ;)

Entre autres idées (mode "my2cents"), je pense qu'il serait intéressant de rester franco-français (le consommateur français aime bien ça), et de faire un travail d'identification des sources "majeures" pour différencier l'affichage des résultats.

Exemple: quand je vois du pagesjaunes.fr dans des résultats de recherche, je les zappe d'office. Je sais ce que je risque d'y trouver (à savoir... rien). Identifier ce genre de sources pour -par exemple- les renvoyer à droite (ou à gauche... osons prendre des risques...) dans un cluster de résultats spéciaux, ce serait peut-être pas inintéressant.

Bon et pour les pubs... au risque de me répéter... le skyscraper AdSense à gauche vous décrédibiliser plus qu'autrechose :roll:


Marie-Aude
Modérateur
Modérateur
 
Messages: 18372
Enregistré le: 5 Juin 2006

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 1:46

J'ai testé sur une requête non concurrentielle

J'ai eu le plaisir de voir un de mes sites en première page... mais pas pour les bonnes pages !!
Et des sites manifestement disparus, puisque overblog me renvoie vers la page d'accueil :(

J'ai testé sur une localité marocaine, j'ai vu des sites qui n'avaient rien à voir, sauf une adresse "rue de..."

Un peu comme si, en France, vous sortiez un hôtel parisien pour la requête Verneusses, parce qu'il serait "rue de Verneusse"

Je sais que je prends des exemples un peu tirés par les cheveux, en même temps c'est grâce à cela qu'on juge la pertinence d'un moteur.

Je vous ai envoyé les requêtes par MP


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 3264
Enregistré le: 3 Mai 2004

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 8:04

Bel essai !

HawkEye a écrit:Bon et pour les pubs... au risque de me répéter... le skyscraper AdSense à gauche vous décrédibiliser plus qu'autrechose :roll:
+1.

Quand je fais une recherche sur mon nom de famille, les résultats commencent par des pages contenant des mots proches, mais différents (deux lettres différentes dans le mot). Pourquoi partir de l'idée qu'il faut corriger ce qu'a écrit l'utilisateur ?

Jean-Luc


zeb
WRInaute accro
WRInaute accro
 
Messages: 13572
Enregistré le: 5 Déc 2004

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 8:17

dazoofr a écrit:
zeb a écrit:Vous gérez très mal les 301 ... pourquoi afficher les domaines redirigés ?

Simplement elles n'étaient pas gérées du tout au début, et elles sont supprimées au fur et à mesure de la mise à jour de l'index, c'est à dire très lentement.

ça comprend les sites avec et sans "www" redirigés a l'origine ... ça va faire beaucoup à reprendre.

La pub en effet pas glop ... la touche entrée ne fonctionne pas forcement a la première saisie (chez moi) toujours cette barre de recherche a perpette dans la fenêtre quand on fait une seconde recherche :(


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 9:26

@longo600 : merci !

@HawkEye : pour ce qui est de rester franco-français c'est le but du projet, donc ça ne changera pas. Et des idées "pour changer" on en a plein, mais depuis le mois d'octobre priorité a été donnée à l'amélioration de l'index.

@Marie-Aude : pour les URLs données en MP, elles ne sont pas dans l'index ceci explique pourquoi elles ne sont pas sorties.
Nous ne crawlons qu'un nombre limité de pages maximum pour chaque domaine à chaque passage pour ne pas passer trop de temps sur chaque domaine et aussi pour limiter les sites "spams". Les pages sont choisies aléatoirement à partir des liens internes à chaque passage donc le fait qu'elles soient par exemple en 1er ou 2eme niveau ne les avantages pas forcément.
Et non les exemples ne sont pas tirés par les cheveux, au contraire on a tendance pendant le dev à utiliser toujours le même ensemble de requêtes et des requêtes qui tournent autours de nos préférences personnelles. Enfin pour ce qui est des sites disparus et des redirections on reviens au problèmes des 301 non gérées pendant bien trop longtemps.

@jeanluc : Il n'y a aucun mécanisme de "correction" dans l'algo. Je n'ai pas la requête je ne peux pas me prononcer avec certitude pour ce cas particulier mais l'algo ne cherche pas seulement que les mots clés "exacts" mais aussi les dérivés suivant quelques règles de grammaires/orthographe donc si il ne sort que des dérivés c'est qu'il n'a pas trouvé les mots clés "exacts" dans l'index.

@zeb : oui c'est un gros problème et comme vous l'avez compris "ça fait beaucoup à reprendre". D'autant qu'on ne l'avait pas géré du tout c'est à dire on n'a même pas stocké l'information ni dans la BD ni dans l'index du coup il faut que les robots passent la totalité de l'index et essaient chaque url... et on n'a pas trop les moyens d'avoir des centaines de robots pour faire un nettoyage rapide (c'est à dire moins que "des mois")... Alors on prend notre patience à deux mains.
Pour la barre de recherche, on a bien noté vos remarques surtout de la faire fixe c'est une bonne idée. Pendant le dev on a pris l'habitude d'utiliser le champs de recherche de Firefox j'avoue qu'on n'utilise jamais la barre de recherche du site :roll:

longo600
WRInaute passionné
WRInaute passionné
 
Messages: 2433
Enregistré le: 24 Fév 2005

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 12:43

@dazoofr , je compatie ...

- Le crawl => les sites lents, 22sec la page, des fois plus ... , le spam liens on page => 10 Mo la page et donc parfois le crash
- les erreurs de crawl / traitement = > faut tout recommencer, sur toutes les pages ...

Pour ceux qui ne comprennent pas :
- 1 million de page = durée de crawl, traitement, indexation au mieux 1seconde par page (vraiment au mieux hein) = 277 heures
- 10 millions de pages = 115 jours ....
- 100 millions de pages = 3 ans ....

- La gestions des sites, sous domaines, les hébergeurs en sous domaine et ceux en répertoire....

- la pertinence = passer des moulinettes pour créer des tables intermédiaires d'index, synonymes, et tout le reste, sur la totalité des crawls ...
- comprendre la requête = bonne ou mauvaise orthographe? mot superflu du type "je cherche" ...

Ne vous découragez pas, dans 5 ans, vous aurez fait du chemin.

je vous réitères mes encouragements ^^ :!: :D


Doubrovski
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 482
Enregistré le: 9 Avr 2011

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 13:03

100 millions de pages = 3 ans ....

Ouais mais le but c'est quand même d'avoir plusieurs crawlers non ? "spiders" comme dit google :)

J'ai également testé et oui, je constate surtout que les pages qui ressortent le plus sont celles dont le <title> correspond exactement à la requête. Avec les années j'ai affiné certaines metas pour correspondre à la finesse de la sélection de google, ce type de page ne ressort pas sur dazoo.

Question curieuse, quelle SGBD utilisez vous ? SQL ou NoSql ?

Pour l'orthographe, c'est toujours intéressant aussi.
J'ai déjà essayé de coder un bot censé sortir du sens d'une chaîne de caractère (oui bon, c'était ambitieux), donc j'étais passé par plein de méthodes différentes, et pour l'orthographe, j'utilisais au début la phonétique, puis la distance de Levenshtein couplé à des expressions régulières et une base de donnée de mots "inutiles".

longo600
WRInaute passionné
WRInaute passionné
 
Messages: 2433
Enregistré le: 24 Fév 2005

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 13:35

Doubrovski a écrit:Ouais mais le but c'est quand même d'avoir plusieurs crawlers non ? "spiders" comme dit google :)

Oui, mais fait le calcul, entres les sites bloqués, très lent, le traitement etc, au final, tu dépasse la seconde pour tout le traitement. Donc, même avec 10 machines, tu es quasiment dans les 6 mois de traitement... Plus la bande passante nécessaire etc. Il faut au moins 50 machines pour crawler le web Français correctement, c'est c'est déjà une grosse infra-structure (je laisse les spécialistes faire le calcul du cout mensuel en tenant compte de tout).
Doubrovski a écrit: J'ai déjà essayé de coder un bot censé sortir du sens d'une chaîne de caractère (oui bon, c'était ambitieux), donc j'étais passé par plein de méthodes différentes, et pour l'orthographe, j'utilisais au début la phonétique, puis la distance de Levenshtein couplé à des expressions régulières et une base de donnée de mots "inutiles".

C'est une expérience intéressante. Et tu comprends la difficulté de pondre un algo final "rapide" et performant, surtout quand tu as des centaines de millions de pages.

J'utilise "phonex" et aussi la distance de Levenshtein, mais c'est loin d'être suffisant. Il faut un paquet de tables intermédiaires de groupes de mots, avec des index qui vont vite. Vraiment, c'est un casse tête. Surtout que l'on fait la comparaison avec Google qui embauche 25 000 ingénieurs quasiment les meilleurs du monde...

Sur mes crawls, je ramasse un paquet de pages qui ont des titres du genre "Bienvenue" , souvent toutes les pages ont le même titre, sans compter l'absense de balise H1, pas de méta-description, etc. Si les sites étaient normalement formétés, ce serait simple. Mais a 50%, tes 100 millions de pages en on 50 millions avec pleins de cas particuliers et erreurs différentes.

Voilà pour les difficultés, entre autres.


spout
WRInaute accro
WRInaute accro
 
Messages: 8209
Enregistré le: 14 Mai 2003

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 13:39

Il faut faire du multithreading pour accélérer les crawls.
J'ai testé Scrapy (qui gère le multithreading, stop/resume sans devoir tout réindexer,...)
+ storage dans Elasticsearch (qui gère de base term boosting, faceted search, stopwords, asciifolding, elision, levenshtein,...).
Et ça m'a semblé une bonne base pour faire un moteur de recherche.


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 13:44

Doubrovski a écrit:100 millions de pages = 3 ans ....
Ouais mais le but c'est quand même d'avoir plusieurs crawlers non ? "spiders" comme dit google :)


110 millions en 2 ans sans compter celles qui ont été supprimées entre temps (plusieurs 10 aines de millions) et celles qui ont été visitées plusieurs fois (idem) avec de 5 à 8 robots en parallèle avec chacun 10 threads

Avec les années j'ai affiné certaines metas pour correspondre à la finesse de la sélection de google, ce type de page ne ressort pas sur dazoo.


Oui nous n'avons aucunement l'intention d'avoir forcément les mêmes critères que Google. Le paramétrage actuel des valeurs de chaque critère dépend uniquement de nos préférences personnelles.

Question curieuse, quelle SGBD utilisez vous ? SQL ou NoSql ?


PostgreSQL


spout
WRInaute accro
WRInaute accro
 
Messages: 8209
Enregistré le: 14 Mai 2003

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 14:16

dazoofr a écrit:PostgreSQL

Très bon choix, le meilleur des 2 mondes :)


Doubrovski
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 482
Enregistré le: 9 Avr 2011

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 14:32

c'est déjà une grosse infra-structure

Je suis bien d'accord, mais pourquoi faire un moteur de recherche si on a pas 100 machines ? Et encore, ça paraît un peu léger... :D

Elasticsearch

Justement je me disais que si je devais refaire ce bot, déjà je laisserais tomber PHP et j'utilisais elasticSearch, je suis en train de tester sur une autre application avec de l'"instant search". Ça m'a l'air assez puissant.


Blount
WRInaute impliqué
WRInaute impliqué
 
Messages: 727
Enregistré le: 18 Nov 2010

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 14:38

Comme le dit spout, il ne faut pas voir 1 machine = 1 process (crawler).
Sur une machine tu peux mettre plein de crawler. Même en monoprocesseur c'est plus rapide de lancer plusieurs crawler qu'un seul car pendant qu'une connexion attend la réponse du site distant, le processeur s'occupe d'autres tâches, il n'attend pas comme un con la réponse ^^
C'est comme si tu envoyais un courrier en recommandé et que tu attendais plusieurs jours à ta porte l'accusé de réception …


HawkEye
Modérateur
Modérateur
 
Messages: 18208
Enregistré le: 23 Fév 2004

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 14:39

Blount a écrit:C'est comme si tu envoyais un courrier en recommandé et que tu attendais plusieurs jours à ta porte l'accusé de réception …

:lol: :lol: :lol:


spout
WRInaute accro
WRInaute accro
 
Messages: 8209
Enregistré le: 14 Mai 2003

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 14:42

@Blount: épique :lol:


Doubrovski
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 482
Enregistré le: 9 Avr 2011

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 14:53

Blount-> Oui bien sûr :) D'ailleurs Node doit être pas mal pour faire un crawler.
Mais au delà de ça, ce que je voulais dire c'est que je ne vois pas pourquoi faire un moteur de recherche aujourd'hui sans financements assez importants.


dazoofr
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 16
Enregistré le: 11 Sep 2014

Re: Moteur de recherche Français

Message le Mar Nov 03, 2015 15:10

De multiples raisons : parce que l'on en a envie, parce que la technologie permet aujourd'hui de le faire relativement facilement, pour le challenge, ...
Et entre nous les moyens financiers ne sont pas forcément gage de réussite quand on voit le nombre de "startup" qui disparaissent même après avoir "levé" des sommes importantes.
Aujourd'hui notre moteur fonctionne avec quasiment zéro financement, à ce compte on peut survivre longtemps, très longtemps. Je comprend que ça peut paraître un modèle de fonctionnement étrange de nous jours, mais c'est un choix longuement réfléchi.


Formation recommandée sur ce thème :

Formation Netlinking (liens et référencement) : apprenez ce qu'est réellement un bon lien pour le référencement et comment éviter ou sortir d'une pénalité manuelle ou algorithmique due aux liens. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :