Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mar Jan 26, 2016 14:48

+1 sypsyp,

d'autant que la grosse majorité des pages ne changent pas.

Et Qwant, sa vocation est Européenne, je crois pour le moment, donc ca limite encore. Et puis, 25 millions d'Euros, il y a surement un plan derrière...
Haut
Messages: 320

Enregistré le: 10 Juil 2009

Message le Mar Jan 26, 2016 15:04

longo600 a écrit:Et puis, 25 millions d'Euros, il y a surement un plan derrière...


Je confirme.
Haut
Messages: 320

Enregistré le: 10 Juil 2009

Message le Lun Mar 21, 2016 15:55

Pour ceux qui s'intéressent au moteur, interview du patron de Qwant par Laurent Bourrelly :

https://www.youtube.com/watch?v=2__Ov5RV8iY
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mar Mar 22, 2016 11:29

Vidéeo de Qwant intéressante , 200 millions de pages web crawlées, analysées, indexées par jour? Ben chapeau...
Haut
Messages: 320

Enregistré le: 10 Juil 2009

Message le Mar Mar 22, 2016 17:29

Je mets ici une réponse par rapport à une question qui est sur youtube : "Vu le chargement hyper lent de nombreux sites, surtout les gros (20 secondes la page), ils ont combien de serveurs chez Qwant (des dizaines de milliers chez Yandex)?".

Avec du multithreading et une bonne bande passante on crawle très vite. Mais même à 20 s par page, au bout de 21s on a 1 page, 22s on a 2 pages, etc. Il y a juste une latence au début du crawl. Si on rajoute en plus une parallélisation en profitant des processeurs modernes (multicoeurs, vectorisés, etc.), on est rapidement en millions de pages par jour sur une machine.
Pour vous donner un exemple, ma machine de bureau (qui est très puissante soyons honnête) crawle 400k pages en 24 heures avec screaming frog ! Alors que je travaille dessus en même temps (mais j'alloue 30 Go de RAM au crawler).
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mar Mar 22, 2016 23:19

sypsyp a écrit:Pour vous donner un exemple, ma machine de bureau (qui est très puissante soyons honnête) crawle 400k pages en 24 heures avec screaming frog ! Alors que je travaille dessus en même temps (mais j'alloue 30 Go de RAM au crawler).


Bonne perf oui, a mon niveau, chaque process va jusqu'àu parsing, l'analyse et l'indexation, je suis donc a 100 000pages/jour par machine (je n'ai pas tester le crawl seul). Exalead est environ a 100 pages/sec sur le crawl seulement, avec une quarantaine de machines. Reste après le parsing, analyse et idexation, je ne connais pas leur chiffres.
Haut
Messages: 320

Enregistré le: 10 Juil 2009

Message le Mar Mar 22, 2016 23:26

longo600 a écrit:
sypsyp a écrit:Pour vous donner un exemple, ma machine de bureau (qui est très puissante soyons honnête) crawle 400k pages en 24 heures avec screaming frog ! Alors que je travaille dessus en même temps (mais j'alloue 30 Go de RAM au crawler).


Bonne perf oui, a mon niveau, chaque process va jusqu'àu parsing, l'analyse et l'indexation, je suis donc a 100 000pages/jour par machine (je n'ai pas tester le crawl seul). Exalead est environ a 100 pages/sec sur le crawl seulement, avec une quarantaine de machines. Reste après le parsing, analyse et idexation, je ne connais pas leur chiffres.


A 400k/jour sur cette machine, je crawl et fait quelques extractions de base, mais je ne fais pas l'analyse complète ni d'indexation.
Haut
Messages: 482

Enregistré le: 9 Avr 2011

Message le Mer Mar 23, 2016 1:34

Donc Qwant a 500 à 1000 serveurs ? :)
Sympa l'interview mais bon...
Commencer par le sujet des listes noires qui font leur fierté... ça me dérange un peu. Un des principes fondateur du moteur est de cacher des informations. Qwant se positionne sur ce marché... Ok. En admettant qu'une machine puisse trouver une frontière entre ce qui est porno et ce qui ne l'est pas (ce qui est loin d'être évident), c'est bien moins évident pour la violence.

Prôner le "respect de la vie privé", la sécurité, le contre-pied de google... ok, mais l'originalité du moteur n'est pas beaucoup mise en avant dans l'interview, elle peu paraître gadget. Si ça fonctionne, ces intentions fragiles (présentées comme un truc marrant trouvé à la pause café avec son pote) auront vite fait de disparaître !

Par exemple la récompense de la première place du classement naturel sera d'être encore plus mis en avant. Rien de nouveau quoi. L'originalité ici aurait pu être de valoriser un peu le dernier mais sinon je ne vois pas.
Ou encore les publicités qui seront affichées selon leur pertinence plutôt que selon le chèque de l'annonceur... Ça ne veut pas dire grand chose à part qu'il y aura de la pub ciblée.
Rien qui annonce un modèle économique révolutionnaire, si ce n'est le marché de l'information cachée pour les enfants aux USA :)
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mer Mar 23, 2016 2:42

En tout cas, Qwant semble crawler tout le web depuis pas mal de temps déjà, a voir les logs de différents sites ...
Haut
Messages: 320

Enregistré le: 10 Juil 2009

Message le Mer Mar 23, 2016 9:53

Doubrovski a écrit:Donc Qwant a 500 à 1000 serveurs ? :)


Ma machine de bureau est loin d'être un serveur de crawl. Pas besoin d'un infra si grosse pour obtenir les chiffres annoncés.

Doubrovski a écrit: En admettant qu'une machine puisse trouver une frontière entre ce qui est porno et ce qui ne l'est pas (ce qui est loin d'être évident), c'est bien moins évident pour la violence.


L'article de recherche présentant le schéma algo pour le porno :
http://arxiv.org/abs/1512.00198
Section 4.4, le taux de réussite de la détection par le mini proto est de 97,22%. C'est un excellent score.
Pour la violence c'est effectivement plus complexe et il faut croiser blacklist/information humaine et algos pour réussir à faire des choses sur ce sujet plus touchy.

Doubrovski a écrit: Ou encore les publicités qui seront affichées selon leur pertinence plutôt que selon le chèque de l'annonceur... Ça ne veut pas dire grand chose à part qu'il y aura de la pub ciblée.
Rien qui annonce un modèle économique révolutionnaire, si ce n'est le marché de l'information cachée pour les enfants aux USA :)


Je n'ai pas l'impression que ce soit ce qui est dit dans l'interview concernant la pub. Les pubs seraient affichées seulement pour ceux déjà positionnées, et seraient optimisées, mais sans prendre aucune information personnelle des visiteurs, voilà ce que moi j'ai compris ;)
Haut
Messages: 200

Enregistré le: 10 Mai 2005

Message le Mer Mar 23, 2016 10:31

@sypsyp
sypsyp a écrit:... mais j'alloue 30 Go de RAM au crawler....

belle machine de bureau :)

Le crawl est une étape importante, pas sûr qu'elle nécessite le plus de ressource.

Je viens de faire quelques requêtes sur le moteur:
"taxon"=>"taxons": la phonétique prime sur la lemmatisation,
"Cerise est à l'est de Paris": Cerise est bien traité comme l’hyponyme de prénom

Est-ce le moteur Quant communique sur les algo utilisés pour l'extraction et le traitement du contenu ?
Haut
Messages: 320

Enregistré le: 10 Juil 2009

Message le Mer Mar 23, 2016 10:43

Est-ce le moteur Quant communique sur les algo utilisés pour l'extraction et le traitement du contenu ?


Pas vraiment. En cherchant les articles scientifiques par moi ou un autre des auteurs associés tu pourras avoir des indices, mais pour l'instant il n'y a pas "d'évangéliste" Qwant qui s'occupe de la communication technique.
Haut
Messages: 200

Enregistré le: 10 Mai 2005

Message le Mer Mar 23, 2016 10:51

longo600 en parlait récemment, lorsque l'on s’intéresse au TALN, on trouve assez peu d'information.
Tu fais parti de ceux qui communique le résultat de leurs recherches, merci !
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mer Mar 23, 2016 12:03

fobec a écrit:longo600 en parlait récemment, lorsque l'on s’intéresse au TALN, on trouve assez peu d'information.
Tu fais parti de ceux qui communique le résultat de leurs recherches, merci !

J'ai passé ces derniers mois a 80% sur le sujet, en auto-apprentissage, et c'est pas une réussite ... Il n'y a pas que le TALN (apprentissage automatique), il lui faut une base minimum, et c'est là qu'on se perd vite, car c'est très ardu (lemmatisation, thésaurus, synsets , hyperonymes ... et une bonne dizaine d'autres termes encore...).

Je vais lâcher prise pour le moment, c'est vraiment complexe pour moi, et il faut se concentrer dessus a plein temps, des mois, méticuleusement pour que ce soit intéressant et exploitable pour un moteur de recherche.

J'ai voulu faire une automation de la construction d'une base de mots en regroupant les sens, mais il faudrait se baser sur les requetes des internautes qui sont courtes (donc bien adapté), mais je n'ai pas assez de volume (je n'ai pas conservé tous les logs des années ou GG était en http).

C'est a suivre, de tt manière, je mettrais la liste que j'ai déjà constituée de 3 millions de mots en téléchargement libre (verbe, adj etc + nom_ville | metier | géo | etc ...
Pour le reste, je suis sur un concept qui ne semble pas avoir été développé, je m'y remettrais...
Modifié en dernier par longo600 le Mer Mar 23, 2016 12:37, modifié 2 fois.
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mer Mar 23, 2016 12:11

Ce que je n'ai pas compris, c'est pourquoi il y a une grosse différence sur les même résultats dans Qwant junior entres les deux onglets :
https://www.qwantjunior.com/education
et
https://www.qwantjunior.com/web

Les mêmes pages trouvées dans éducation sont completement présentées différemment que celles du web , Il y a deux algorithmes d'analyse et d'extraction/index différent? Je n'ai pas trouvé de connection orthographique sur les requêtes dans l'onglet éducation, un oubli? https://www.qwantjunior.com/?q=anuaire&t=education
Haut
Messages: 482

Enregistré le: 9 Avr 2011

Message le Mer Mar 23, 2016 13:02

Je n'ai pas l'impression que ce soit ce qui est dit dans l'interview concernant la pub. Les pubs seraient affichées seulement pour ceux déjà positionnées, et seraient optimisées

Tu dois avoir mieux compris... mais je ne vois toujours pas exactement où ça mène à part favoriser les sites bien positionnés au classement naturel, ayant des moyens.

J'ai passé ces derniers mois a 80% sur le sujet

Je suis aussi sur le sujet depuis quelques mois pour un petit projet ! Effectivement c'est assez difficile... Moi je vois deux pistes principales, soit jongler avec des analyses lexicales, syntaxiques, sémantiques... Et ça fait toujours appel à un grosses bdd de mots, lemmes, phonologies, catégorie grammaticales, genre, nombre... couplées à des réseaux sémantiques ou autres. Soit se diriger vers des systèmes qui n'utilisent pas de dictionnaires. Et là ça se complique.

Les réseaux neuronaux commencent à être documentés et peuvent aider à déterminer l'étiquetage des mots dans une phrase. on pourrait par exemple déterminer si un mot est un sujet dans une phrase avec une fonction .predict(mot, phrase). Le réseau déduirait à partir d'exemples qu'il s'agit bien d'un sujet, car des humains auraient entraîné le réseau sur des milliers d'exemples. Le réseau pourrait à la fois lever d'ambiguïté de la catégorie grammaticale sur certains mots (nom ou verbe...) et aussi déterminer le rôle du mot dans la phrase (sujet ou COD).
Mais ce n'est pas vraiment accessible pour un développeur autonome. Il y a malgré tout très peu de doc sur les réseaux neuronaux appliqués au langage.
Si on a l’ambition de faire une "IA" qui n'utilise pas de dictionnaires, c'est la manière dont on utilise les mots ou même les lettres dans leur contexte qui est concernée. il faut donc entraîner le réseau de neurones à reconnaître des groupes de lettres, des mots... (ça c'est pour la partie 'input" mais après il faut aussi savoir quoi renvoyer !).
Si tu as des topics en cours sur le sujet ça m'intéresse !
Modifié en dernier par Doubrovski le Mer Mar 23, 2016 13:21, modifié 1 fois.
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mer Mar 23, 2016 13:18

Il y a quelques données de libre, et des listes en téléchargement notamment sur http://www.dicollecte.org, sur les thesaurus et synsets notamment, http://www.dicollecte.org/thread.php?prj=fr&t=229, mais c'est en travaux.
(qand j'aurais un peu de temps, je mettrais une liste de liens, mais dans un fil approprié, on s'eloigne un peu de qwant là).
Haut
Messages: 320

Enregistré le: 10 Juil 2009

Message le Mer Mar 23, 2016 13:24

longo600 a écrit:Ce que je n'ai pas compris, c'est pourquoi il y a une grosse différence sur les même résultats dans Qwant junior entres les deux onglets :
https://www.qwantjunior.com/education
et
https://www.qwantjunior.com/web

Les mêmes pages trouvées dans éducation sont completement présentées différemment que celles du web , Il y a deux algorithmes d'analyse et d'extraction/index différent? Je n'ai pas trouvé de connection orthographique sur les requêtes dans l'onglet éducation, un oubli? https://www.qwantjunior.com/?q=anuaire&t=education


Oui, c'est différent entre les deux moteurs. Les algos pour la version education prennent en compte des critères différents. Pour la correction je n'en sais pas plus que toi ;)
Haut
Messages: 200

Enregistré le: 10 Mai 2005

Message le Mer Mar 23, 2016 13:40

longo600 a écrit:Je vais lâcher prise pour le moment, c'est vraiment complexe pour moi, et il faut se concentrer dessus a plein temps, des mois, méticuleusement pour que ce soit intéressant et exploitable pour un moteur de recherche.


Ton approche du TAL est intéressante notamment la recherche du sens des phrases à partir des requêtes des internautes.

A peu de chose près, j'ai suivi le même cheminement: essayer un peu toutes les techniques (lemmatisation, WordNet, ...) en espérant trouver la manière de construire l'algo de TALN.
Résultat: les principes sont trop complexes ou alors je m'y prend pas bien car les taux d'erreur sont trop élevés pour mon projet.

La lemmatisation est assez simple à mettre en place et c'est vrai qu'elle permet de réduire considérablement le nombre de mots en détectant les formes canoniques. Par contre reste l'essentiel, comprendre le sens des 100 000 mots restants et cela sans prendre en compte les associations de mots :wink:

Pour y arriver, j’aborde de la manière suivante: commencer par une base de donnée avec le sens des mots.
Pour ce faire, j'ai construit un arbre d'hyperonyme/hyponyme et chaque mot est étiqueté dans une ou plusieurs unité lexicale. Le travail terminé, j'espère que la base permettra:
-> d'avoir un sens pour chaque lem,
-> de connaitre le degré de précision d'un mot (est-ce une notion gal ou un element très précis),
-> de détecter la relation entre 2 mots.

longo600 a écrit:J'ai voulu faire une automation de la construction d'une base de mots en regroupant les sens, mais il faudrait se baser sur les requetes des internautes qui sont courtes (donc bien adapté), mais je n'ai pas assez de volume (je n'ai pas conservé tous les logs des années ou GG était en http).

Quelle est la structure de ta base de donnée, comment est fait le lien entre la requete et le sens du mot ?
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mer Mar 23, 2016 13:55

fobec a écrit:Quelle est la structure de ta base de donnée, comment est fait le lien entre la requete et le sens du mot ?

Je fini ma base de pub premsgowords (idem au bien connu :wink: ), et je te réponds sous peu, dans un fil dédié :) (tu peu ouvrir un fil aussi :idea: ^^)
Haut
Messages: 400

Enregistré le: 15 Juin 2010

Message le Mer Mar 23, 2016 17:28

Très intéressant à vous lire, mais, pensez aux novices qui ne comprennent pas vos mots techniques comme "lemmatisation" ou "TAL" ??

Voici ce que j'ai compris de ce long post.

Il existerait un autre moteur de recherche que Google. Il s'appellerait Qwant.

Toute la discussion est de savoir si il pourrait rivaliser avec Google. Pour cela, les concepteurs sont obligés de se creuser la tête pour faire mieux que Google.

C'est vrai qu'il y a encore de la place puisque les résultats de Google font parfois sourire. A moins que ce soit fait exprès dans un but commerciale.

On pourrait faire mieux que Google (pas moi :D ) mais pour cela, les concepteurs/spécialistes doivent pouvoir mettre en ordre, en équation, en algorithme, leurs idées.

Ils ne savent pas encore vraiment faire comprendre à un moteur de recherche parfait, le réel sens des requêtes des internautes (c'est toujours pas moi qui vais trouver la solution), mais j'explique à la sauce débutant.

En effet, il faudrait prendre des exemples de requêtes valables pourtant, et pourtant sans résultats. Il est dommage que je n'ai pas pensé à ce post avant, j'aurais pu enregistrer des termes et des suites de mots n'ayant donné aucun résultats avec Google. C'est un peu comme les correcteurs orthographiques qui ne soulignent pas les fautes de pluriels, ou de genres et de participe passé.
Moi, j'appellerais ça un mauvais correcteur web.

On voit qu'il y a encore de la place pour les têtes pensantes et les rois des algorithmes.

Bon courage
Haut
Messages: 4568

Enregistré le: 16 Nov 2004

Message le Lun Juin 27, 2016 4:38

a lire :

http://www.lemonde.fr/pixels/article/2016/06/22/qwant-le-petit-moteur- ... 08996.html

c'est qwant meme pas terrible ce qu'on peut trouver comme résultat
pris sur seul page de ce moteur:
-http://www.coolsocial.net/sites/www/
-http://www.siteshowinfo.org/sites/
-http://webzz.fr/
-http://who.pho.to/
-http://website.informer.com/
-http://www.mysitesview.org/
-http://reviewourwebsites.org.websiteoutlook.com/
-http://reviewourwebsites.com.w3snoop.com/
-http://www.znwhs.net/
-http://www.sitewhpr.com/
Modifié en dernier par Marie-Aude le Lun Juin 27, 2016 6:20, modifié 1 fois.
Raison: Désactivation des liens "pas terrible"
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Lun Juin 27, 2016 7:42

@KOogar , je ne comprends pas cette liste d'url et Qwant ?

Si je tape ces urls dans le moteur Qwant, j'obtiens bien des résutats pertinents de mon côté ! ??
Haut
Messages: 4568

Enregistré le: 16 Nov 2004

Message le Lun Juin 27, 2016 7:52

ca dépend des requetes, essaye par ex avec "référencement" + 1 petite villes de ton choix
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Lun Juin 27, 2016 8:41

KOogar a écrit:ca dépend des requetes, essaye par ex avec "référencement" + 1 petite villes de ton choix


J'ai essayé "référencement nevers" et j'ai de la pertinence sur le web. C'est vrai que les images et le shopping est assez out, mais le web est correct de mon coté.
Haut
Messages: 4568

Enregistré le: 16 Nov 2004

Message le Lun Juin 27, 2016 9:32

j'ai fait ca ya 3 jours, donc j'ai plus l'historique des Req
de mémoire :
referencement noumea
referencement tahiti
referencement villers
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Lun Juin 27, 2016 9:43

Chez moi, idem, tous les résultats WEB sont assez correct je trouve. Ya que le reste (actu, shopping ou twitter) qui pèche un peu.
Haut
Messages: 1966

Enregistré le: 15 Jan 2012

Message le Lun Juin 27, 2016 14:27

21 janvier 2016...
longo600 a écrit:Qwant achète ses résultats chez bing.

Affirmation fausse.

24 janvier
longo600 a écrit:je n'ai pas testé Qwant junior pour le moment.

Bah t'a pas du tester qwant non plus.

23 mars 2016
longo600 a écrit:Qwant semble crawler tout le web depuis pas mal de temps déjà, a voir les logs de différents sites ...

:mrgreen:
Y en a, ils parlent, ils parlent...
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Lun Juin 27, 2016 16:32

Koxin-L.fr a écrit: :mrgreen:
Y en a, ils parlent, ils parlent...


Comme tu le constate, je n'en parles plus. Je n'ai rien a dire sur ces sujets, Qwant est assez grand pour gérer sa communication.

Pour ma part, j'ai 20 ans de métier dans le web, et quand je me penche en détail sur un sujet, j'en connait aussi bien l'endroit, que l'envers, que les cotés! Si Qwant obtient ses data gratuitement, tant mieux, j'en suis heureux pour lui.

Ce qui est le plus important :
- il faut une concurrence à Google, en France, c'est une évidence, loyale, saine, honnête, sur laquelle la profession puisse s'appuyer, construire, de manière pérenne.
- Qwant semble séduire son public, avec un taux de consultation croissant. Si ce n'est pas artificiel, cela démontre que le public adhère, et quoi que l'on fasse, ce sera toujours l'internaute qui aura le dernier mot sur le succès d'un site, API ou pas.
Haut
Messages: 4568

Enregistré le: 16 Nov 2004

Message le Mar Juil 05, 2016 2:22

Qwant a signé un accord hier (4 juillet 2016) avec FireFox qui va construire un navigateur autour du moteur avec pour but de prendre 10% de la recherche en Europe dans les prochaines années.
Haut