Lancement de Premsgo, moteur de recherche français

Nouveau WRInaute
Bonjour,

La sortie de ce moteur de recherche est franchement prématurée.
Lorsque l'on voit les résultats sortis par le moteur, c'est d'une tristesse absolue.

Je tape: fourniture de bureau Nice
http://www.premsgo.fr/4Daction/recherche?q=fournitures+de+bureau+nice

Le premier résultat retourné est un distributeur de matériel d'hygiène pour professionnel.
On est pas loin du hors thème.
Les résultats suivants ne sont pas mieux.

Le descriptif des liens est toujours le même:
"commerce de gros de fournitures et équipements divers pour le commerce et les services Nice"
Pratique pour faire son choix...


Le moteur de recherche renvoi (pour le moment je suppose) uniquement sur l'annuairefrancais, sur lequel une fois qu'on a noté l'adresse et le numéro de téléphone de la société il n'y a plus rien à y faire.


Je suis conscient qu'il y a sans doute du travail derrière, mais pour le moment cela ressemble plus au moteur de recherche interne de l'annuairefrancais qu'à un concurrent sérieux pour n'importe quel moteur de recherche lambda.


ps: une recherche vide provoque un message d'erreur:
Dépassement de capacité d'un tableau
Method Name: recherche
Line Number: 1242
Description: [2015-09-21T16:14:33+02:00]
 
Membre Honoré
Bonjour,

Félicitations Marc pour le lancement.
Si besoin d'avis concernant le site, ne pas hésiter à demander.

Cordialement.
 
WRInaute accro
J'aime bien le fait qu'on puisse customiser: -http://www.premsgo.fr/4Daction/recherche?q=%3Cstyle%3Ebody{background:pink}%3C/style%3E
 
WRInaute passionné
guinness85 a dit:
Bonjour, La sortie de ce moteur de recherche est franchement prématurée.
http://www.premsgo.fr/4Daction/recherche?q=fournitures+de+bureau+nice
Le premier résultat retourné est un distributeur de matériel d'hygiène pour professionnel.
On est pas loin du hors thème.
Les résultats suivants ne sont pas mieux. etc... etc...

Bonjour, Je suis d'accord avec toi. 5 millions de pages crawlées, c'est pas beaucoup. 120 000 sites, beaucoup qu'au 2ème niveau encore, effectivement, c'est loin de couvrir tous les sites Français. Il y a deux façons de voir les choses, comme toujours;
- il n'y a encore aucun concurrent sur mon activité à Nice, chouette, j'en profite ... ou non, j'attend que tous mes concurrents prennes la place, après, je verrais...

A quel seuil faut-il décider de lancer un projet d'une telle envergure (crawler tout le web Français) en version bêta ?
On peut aussi passer son chemin pour aller sur d'autres moteur et tenter de gagner les premières places.

L'entrepreneur, le commerçant, il n'a qu'une seule préoccupation : l'état de sa trésorerie, où peut-il gagner des clients, comment peut-il se lancer sur le web alors qu'il est près de la faillite, bref. Ses soucis, c'est de trouver de nouvelles solutions. Vers quel moteur?
Je remballes tout et je reviens dans 2 ans (le temps qu'il faudra au moteur pour crawler la France)?

Certes, je comprends, c'est vrai qu'il y a beaucoup à faire encore, mais la vitrine du potentiel est là.

Ce que je constate, c'est que pas mal d'agences s'inscrivent depuis ce matin. Car c'est vers cette communauté que je vais partager cet élan, leur apporter des prospects, des contacts, peut-être gratuit au debut, mais ils feront leur business avec les nombreux outils possible qu'offre Premsgo ( de la rédaction, créer une vitrine, une petit vidéo etc...).

Pleins de petits détails que l'on a pas vu vont se régler de jour en jour. J'ai 19 ans de pratique de l'internet, je sais ou je vais, malgré la taille de la concurrence. J'ai connu comme certain ici les début d'un géant en 1998 auquel personne ne croyais...

Soyez critique techniquement c'est constructif, même si ca met un peut d'ombre. Il va se remplir avec le temps, rassurez-vous, et netement s'améliorer, sans compter les surprises. Les commerçants n'en seront que satisfait, croyez-moi.
 
WRInaute passionné
spout a dit:
J'aime bien le fait qu'on puisse customiser: -http://www.premsgo.fr/4Daction/recherche?q=%3Cstyle%3Ebody{background:pink}%3C/style%3E
C'est tellement mignon que je n'ai pas envie de le corriger ^^

L'explication est très simple : en entrée des programmes, il y a l'analyseur des mots qui les sépares (espace, tiret) mais pas tous (conserve les points, et quelques caractères spéciaux comme les accolades pour un usage futur de calculs mathématique).

Donc, "%3Cstyle%3Ebody{background:pink}%3C/style%3E" est un seul mot, et ressort tel quel .

la recherche se limite a 200 caractères, et les 10 premiers mots sont pris en compte.

Vos "trouvailles" ont été réparées. ^^
 
WRInaute occasionnel
Bravo à Marc pour s'être lancé.
C'est perfectible, et il y aura beaucoup de critiques, j'espère que beaucoup de ces critiques seront constructives pour aider à faire avancer ce projet.
Longue vie à Premsgo :wink:
 
WRInaute accro
Attention avec les encodages :

Lusodev - Création de sites Internet à Gap, boutiques e-Commerce contenus mult

(recherche "SSII gap")
 
WRInaute passionné
indigene a dit:
Attention avec les encodages :

Lusodev - Création de sites Internet à Gap, boutiques e-Commerce contenus mult

(recherche "SSII gap")
oui, merci! on est justement dessus a essayer de décortiquer ce soucis. on va passer la moulinette sur ces mauvais encodages cette nuit. Le problème viens de chez nous en partie;
- la page indique un encodage par exemple ISO-8859-1, et le serveur lui envoie en utf-8 (transforme), alors que l'on décode selon la page (ISO-8859-1,).

Par contre, il y a des pages en utf-8 ou ISO-8859-1, avec des parties encodées en CJC (encodage chinois), c'est un peu plus difficile a traiter car on a dépassé le milliard de mots (a traiter un par un si l'on veut être sûr). On est dessus, ca va s'arranger :)
 
WRInaute accro
longo600 a dit:
- la page indique un encodage par exemple ISO-8859-1, et le serveur lui envoie en utf-8 (transforme), alors que l'on décode selon la page (ISO-8859-1,).

Peut-être utiliser cette routine :
Code:
function seems_utf8($str) {
	        $length = strlen($str);
	        for ($i=0; $i < $length; $i++) {
	                $c = ord($str[$i]);
	                if ($c < 0x80) $n = 0; # 0bbbbbbb
	                elseif (($c & 0xE0) == 0xC0) $n=1; # 110bbbbb
	                elseif (($c & 0xF0) == 0xE0) $n=2; # 1110bbbb
	                elseif (($c & 0xF8) == 0xF0) $n=3; # 11110bbb
	                elseif (($c & 0xFC) == 0xF8) $n=4; # 111110bb
	                elseif (($c & 0xFE) == 0xFC) $n=5; # 1111110b
	                else return false; # Does not match any model
	                for ($j=0; $j<$n; $j++) { # n bytes matching 10bbbbbb follow ?
	                        if ((++$i == $length) || ((ord($str[$i]) & 0xC0) != 0x80))
	                                return false;
	                }
	        }
	        return true;
	}
 
WRInaute passionné
indigene a dit:
Peut-être utiliser cette routine :
Code:
function seems_utf8($str) {
	        $length = strlen($str);
	        for ($i=0; $i < $length; $i++) {
	                $c = ord($str[$i]);
	                if ($c < 0x80) $n = 0; # 0bbbbbbb...
[/quote]

C'est a peu près ca dans 4D (programmé en Français ; si - boucle - fin de si - fin de boucle etc...), bien que 4D embarque un moteur php désormais et aussi SQL, je n'ai pas l'habitude encore, plus a l'aise dans les commandes native de 4D (mais c'est pareil a part la langue en français )

il faut boucler sur chaque caractère , d'ou le temps très long sur des dizaines de milions de pages a repasser (en fait moins, on cherche dans celles qui on un soucis de caractère seulement). Le filtre est en place sur les nouvelles pages crawlé, le reste, on va essayer de le traiter cette nuit ^^
 
WRInaute accro
Salut Marc,

je vois que tu fais exactement ce que fais Google, mettre en avant tes propres résultats dans les premières lignes de la recherche ^^ Et "pire" amha tu le fais sans le mentionner.

Exemple, la requête http://www.premsgo.fr/4Daction/recherche?q=agence+de+voyage

La première fiche commence par ça : {{appDescription()}}
Elle est affichée comme un résultat provenant du web, mais il y a une "fiche" qui est celle-ci :
http://pro.annuairefrancais.fr/27/27200/1353586_voyage-voyage-vernon-2 ... -eure.html

et dont on peut dire qu'elle est peu remplie :)

Tu reprends non pas les descriptions des sites, mais les descriptions dans ton annuaire.
Pire dans des cas comme celui de

http://pro.annuairefrancais.fr/13/13016/3290602_agence-de-voyages-imag ... rhone.html

il n'y a même pas le site web sur ta fiche, le mail n'est pas cliquable, et il m'a fallu faire une recherche dans google pour trouver le site

http://www.voyagesimaginaires.fr/ et découvrir qu'il s'agissait bien de ce que la description laissait penser : une compagnie théâtrale

Je suis comme guinness et hawkeye, je trouve que cette sortie du moteur de recherche sur le site de l'annuaire français est prématurée.

Ici, tu bénéficies de la sympathie des gens qui te connaissent, mais en dehors de ce site ou de quelques autres, si tu vas ailleurs, je doute que tu trouves la même indulgence. Souviens toi de la volée de bois vert qui avait accueilli Qwant à sa sortie, alors qu'il était nettement plus abouti.

Par ailleurs, ton site est "collé" à gauche, sans marge. Ce n'est pas très agréable à voir, et en plus, sur grand écran comme le mien, cela met la pub critéo en plein milieu avec un grand espace gris vide à droite !

Enfin, j'ai un problème conceptuel avec cette phrase :
Pour s'inscrire dans le moteur Premsgo, vous devez passer par votre agence web ou une agence web locale

Pour moi, on ne s'inscrit pas dans un moteur, il fait son boulot tout seul. On s'inscrit sur un annuaire, une plateforme publicitaire, tout ce que tu veux, mais pas un moteur. Elle décrit sans doute la réalité de premsgo, mais dans ce cas, je crois qu'il faudrait le préciser :)

J'espère que tu vas pouvoir corriger tout ça très vite, pour donner une véritable chance à ton moteur !
 
WRInaute passionné
Bonjour Marie-Aude,

C'est difficile de répondre quand on tombe sur une coquille comme ça , elle fait partie du traitement d'encodage loupé sur très précisément 3643 fiches sur les 5 millions. Alors ce premier résultat s''en trouve privé de son lien de titre de l'onglet WEB qui aurait du conduire directement SUR LE SITE . Pas de titre = pas de lien (lien invisible). Si tu regarde dans le source, il y en a d'autres comme ca, il y a bien un lien <a href=lelien></a> mais rien entre les balise (manque le titre). On va compléter ces champs vides cette nuit ou demain matin. Merci de l'avoir signalé.
L'onglet FICHE, c'est normal, c'est celui de l'annuaire, donc on tombe sur la fiche annuaire, SAUF sur les menus direct (si ils sont renseignés) car ce sont des liens direct vers les menus du site. Regarde Vertbaudet et les liens vers les menus. C'est pareil dans l'Annuaire.

Donc vraiment, je ne fais pas comme de gros moteurs, tout chez moi, bien au contraire, et c'est justement ce qui en fait un point fort.
Premsgo ne sera pas un moteur de réponse, non. C'est pas le but.

J'ai regardé un peu les requetes d'aujourd'hui et le contenu, je n'ai pas trouvé d'autres exemple identique. Tu as le chic pour tomber sur le mauvais, mais il ne faut pas le généraliser. En cherchant dans la base les champs de titre vide, j'en ai trouvé 2149...sur 5,2 millions. Donc, je vais me mettre dessus.

Pour les autres remarques:
Marie-Aude a dit:
3290602_agence-de-voyages-imaginaires-marseille-13016-bouches-du-rhone.html il n'y a même pas le site web sur ta fiche, le mail n'est pas cliquable, et il m'a fallu faire une recherche dans google pour trouver le site ... découvrir qu'il s'agissait bien de ce que la description laissait penser : une compagnie théâtrale
Oui, la description indique une troupe de théâtre... Pourquoi penser que c'est autre chose?... Elle a un nom qui tombe sur la requete... C'est vrai, il n'y a pas encore de filtre sur la globalité, sauf sur le cumul des pages web, mais comme il n'y a pas de site d'indiqué...Et le filtre n'est pas encore assez efficace, on bosse dessus.
Non, il n'y a pas de site, ce sont des données officieles qui viennent de la préfecture sur les enregistrements d'associations loi 1901., sans site web, sans téléphone, juste le nom et descriptif de l'activité pour cette fiche.
Sur les 1 million qui m'on été fourni, 80% sont comme ça, je n'y peut rien. Les demandes de modifs sont de plus en plus nombreuses, cela s'arrangera.
Le mail, heureusement pas cliquable car sinon, les incrits dans l'annuaire seraient tous spammé et je me ferais appeler Arthur . Il n'y a que le téléphone qui est cliquable sur la map, et le sera aussi dans les résultats.
Premsgo a le mérite de les faires connaitre et découvrir, alors celles qui n'ont pas de site web, tu ne les trouves sur aucun moteur ni sur les pages jaunes. Tu ne sais même pas qu'elles existent si personne ne parles d'elles sur la toile. Sauf sur Premsgo... ou l'Annuaire, et 1 million, c'est pas rien...

Marie-Aude a dit:
Pour moi, on ne s'inscrit pas dans un moteur, il fait son boulot tout seul. On s'inscrit sur un annuaire, une plateforme publicitaire, tout ce que tu veux, mais pas un moteur.
Et bien ca change, voilà tout. Premsgo ne va pas crawler tout et n'importe quoi. Les MFA, les millions de sites satellite, il n'y a que ça. Parcoures les forums SEO (...), et tu ne lis dans les messages que "moi sur mes 100 sites"... Combien d'agences font des dizaines de sites pour un client pour essayer de mieux placer le principal sur les moteurs? TOUS Marie Aude... tu le sait comme moi que ce jeu de cache cache avec les moteurs fini par rendre 80% du web répétitif et obsolète. Depuis 19 ans dans le web, je vois bien comment les choses tournent.

Donc stop à la course folle, a crawler tout et surtout de l'inutile. On part sur du connu, du propre autant que possible, bien qu'a l'échelle nationale, c'est de toute manière difficile d'être parfait sur 7 millions d'établissements. Et tout le monde est a égalité, le petit comme le gros. Un seul site, point.

Tu connais le travail de validation d'annuaire, donc je te fait pas un dessin sur ce qui est parfois posté, genre "c'est moi Roger le réparateur de machine a laver, je suis le meilleur de la région, et je répare aussi ton frigo ou tout ce qui est electrique, appelles-moi" ...
Donc j'ai décidé d'orienter tout le monde vers des agences locales qui prendrons en main ces inscriptions, gratuitement si elle sont bien remplie, avec un petit prix annuel si il y a des retouches, et des éléments de vitrines ou graphique , pour les commerçants. Ces agences ou indépendants pourront faire du bon travail, avoir des prospects, proposer des services complémentaires, etc. Les administrations et associations ont des comptes option gratuit, mais doivent faire tout le travail elles-même. Si l'agence interviens (texte, graphisme, insertion...) elle facture comme elle l'entend sont travail. Et elles ont une petite commission sur le forfait d'entrée payant.

Donc oui, Premsgo est un moteur qui filtre, choisi, vérifie avant. Il reste les données actuelles a nettoyer avec le temps.
Si tout n'est pas parfait en l'état, ce qui va prochainement rentrer le sera, quasiment, par le filtre des agences partenaires.

Quel moteur permet a une petite association de mettre gratuitement en vente dans les résultats les maillots du club? Facebook? Interdit. Les gros moteurs? interdit ou tu passe à la caisse. Mettre la vidéo de l'association dans les résultats? aucun, ou un seul... Le commerçant qui a un budget de 100 euros annuel, il fait quoi avec les autres moteurs? rien ... Pas desite web a moins de 1000 euros , et il est pas loin du dépôt de bilan. C'est un exclu. Pas chez Premsgo, il a une chance d'aborder le web marchand, tester...puis de faire faire son site... La moitié des petits commerçants et artisans sont dans cette situation en France...

Tu as le chic pour tomber sur les mauvais exemples, mais c'est vrai qu'il y a de l'épuration encore a faire. J'ai tapé "agence de voyage Paris", "agence de voyage Maroc" , j'ai trouvé des réponse assez correctes. Et puis, il y a 30 résultats par page, soit l'équivalent de la 3eme page des autres moteurs. Ils n'y en a pas beaucoups qui sont encore pertinents en 3ème page...

Marie-Aude a dit:
Souviens toi de la volée de bois vert qui avait accueilli Qwant à sa sortie, alors qu'il était nettement plus abouti.
Je ne commente pas les évènements de leur sortie, mais cela n'a rien avoir. de mémoire, la critique était qu'en réalité ce n'etais pas un moteur mais un assemblage de script chez bing,twitter et Facebook . Donc aucune comparaison, leur propre contenu était de zéro, comme les méta-moteurs, pas de crawl, pas de base, rien qui leur appartiens, contrairement a l'annuaire francais avec sa base de 4 millions d'établissements plus le crawl par nos robots. Et sur leur graphisme, a leur sortie, les remarques étaient que "ça fait mal aux yeux" pour reprendre celles-ci sur la plupart des sites qui en ont parlé.

J'ai passé la journée avec le graphiste pour affiner la présentation, c'est déjà en ligne, c'est mieux. Je trouve que ca répond a la justesse de tes remarques sur l'amélioration du graphisme, notamment la marge de gauche qu'il manquait, les onglets sont plus fin, la fiche annuaire plus en harmonie, cela sur les remarques que j'ai reçu.

Demain, c'est le communiqué à la grande presse, donc on verra bien.

Dejà, 150 agences se sont inscrites, c'est beaucoup en 2 jours. Ca plait, tant mieux.
Pour répondre a @Madri et aux autres sur ce principe d'agences Agréées, c'est comme je le disait le "filtre de qualité".
L'établissement qui veut s'inscrire choisira dans son departement (ou la ou il veut) un agence qui deviendra son contact.
La liste par département sera classé au début par ordre Alpha, puis par inscription decroissante réalisée, pour motiver les premiers (ou les derniers a faire plus pour remonter). C'est ce que j'ai trouvé de plus "juste". Rien n'empêche une agence étrangère de s'inscrire si elle travaille pour des clients Français.
L'ojectif est de 1000 agences, et il semble que l'on sera plus vers les 10 000 dans l'année qui suit que 1000. Plus il y aura d'intervenants, plus vite la qualité du contenu s'enrichira pour la satisfaction de l'internaute. 7 millions d'établissements a passer au crible, il y a du travail pour beaucoup de monde et pour longtemps... Si quelques investisseurs participent, les améliorations iront beaucoup plus vite, pour le moment, c'est en mini structure .

Voilà, j'espere avoir donné toutes les explications pratiques, le reste, ce sera sur le site, ou quelques questions encore ici, je répondrais toujours. Merci des remarques, beaucoup ont été utiles ;-)

Bon allez, ca vous plait quand même un peu? :D
 
Membre Honoré
Bonjour,

Merci pour le complément, en espérant que le service va s'améliorer.
C'est déjà un début, il faut toujours du temps pour que ce soit bien.

Cordialement.
 
WRInaute passionné
Voilà quleques modifs
- graphisme amélioré
- titres vide sur les page d'accueil complété => le lien est donc fonctionnel
- suppression de quelques codes java et style dans des pages (il en reste encore, certaines balises de pages sont mal formatés)

quelques conseils :
balisez vos pages dans les entêtes par les 2 premières standard ;
- balise title
- balise meta description
- remplissez le mieux possible votre balise H1
Surtout si vous avez du flash, donnez ces infos en html aussi.

C'est tout pour être bien placé sur votre contenu.

On améliore le parsing des pages, en attendant de finir le module de parse du flash (...).
 
WRInaute passionné
Bonjour @Niap

Oui, c'est toujours d'actualité. C'est juste que la sauvegarde nocturne n'a pas pu se lancer et elle est en train de se finir ce matin, ce qui bloque les recherches, sauf celles de test en cache.

La correction orthographique et d'autres fonctions pour la recherche ne sont pas encore implémentés, il faudra attendre début décembre. Pour le moment, on se concentre sur le projet Ecommerce premsgoshop gratuit.

Marc
 
WRInaute passionné
C'est un beau projet, je n'ai aucune idée de comment il faut faire pour avoir de la pertinence mais au niveau des requêtes que j'ai essayé c'est tout complètement hors sujet...

Bonne chance quand même
 
Membre Honoré
Bonjour,
longo600 a dit:
il faudra attendre début décembre.
Une bonne nouvelle de savoir qu'il y aura des améliorations.
Ne pas hésiter à présenter celles-ci à la suite du sujet.

D'autres avis :
- Le moteur devrait prendre en compte la balise rel canonical
- Le menu en haut ne change pas le contenu de la page (à tester)
- Ne pas indexer la page index d'un site en double

Cordialement.
 
WRInaute passionné
Merci pour ces avis.

Pour le moment, presque tout est en chantier. Le crawl, l'extraction des données, l'algo pour interpréter la requete (thesaurus , correction ortho, distance de levenshtein, phonétique et toute la panoplie ...), le back office webagancy, le graphisme...

Pour le moment, je n'ai pas a maintenir de secret, la pertinence est classée selon un ordre de préférence de ce qui semble le plus important, par ordre ;
1)la ville
2)le nom de la catégorie (source annuaire)
3)le nom de la société ou établissement

en valeur de poids -5 , dans l'ordre (uniquement pour les pages d'accueil web)
le titre de la page d'accueil
l'url
la balise H1
le contenu de la balise méta description
les 1000 premiers mots de la page (pose des problèmes sur les menus en premier dans le code)

en valeur de poids -15 , dans l'ordre (uniquement pour les pages web suivantes)
le titre de la page
l'url
la balise H1
le contenu de la balise méta description
les 1000 premiers mots de la page (pose des problèmes sur les menus en premier dans le code)

Les mots usuel ont une pondération négative de -100 (de la du des)

C'est assez simpliste, mais assez pertinent si l'on recherche un medecin a paris 12, ou un dentiste toulouse , carrelage gers ...

Pour tout autre type de requête, sans thesaurus , ce n'est pas possible d'etre très pertinent, il n'y a pas de crawl suffisant, donc pas beaucoup de choix. Vu que pour le moment , TOUS les mots d'une requêtes DOIVENT faire partie d'un document, cela peu grandement fausser la pertinence.

Sur le nouvel algo en préparation, le classement et recherche est completement différent. Contrairement a ce qui est en place actuellement, les mots ne sont plus "notés" un par un, c'est la page qui est noté, thématisé d'abord, par une succession de tables de mots/themes liées. Des mots peuvent êtres "oubliés" dans la requete si l'on peu obtenir de meilleur score en métant de coté ce mot "de trop". Pour les connaisseurs, nous ne sommes plus en recherche "ful texte" dans les documennts avec un score de mot.

Le trafic monte régulièrement, bien qu'extra mini, puisqu'il n'y a que WRI et abondance qui ont fait un article. Pour une version alpha, c'est préférable de commencer discret finalement, le serveur n'est pas trop sollicité : 3 000 visiteurs/jour, +200 par semaine environ.

Le look va changer, pour se rapprocher au maximum des standard existant des moteurs... car ca déppayse trop.

Vu la charge de travail, il y a le montage d'un dossier pour trouver un peu de financement.
Voilà, ca avance.

Mercid e votre patience, encouragements, et indulgence.
 
Nouveau WRInaute
Bon courage.
Levenshtein c'est pratique aussi pour détecter les contenus dupliqués dans l'index y compris avec légères modifications (genre dépanneur paris, dépanneur ile de france, dépanneur paris 13eme, ...).
 
Nouveau WRInaute
Et qu'en est-il un mois plus tard de ce futur (excellent) moteur de recherche ? Quelles sont les pistes suivis pour concurrencer les principaux concurrents ? Je ne dois pas être le seul à piaffer d'impatience...
A+
 
WRInaute impliqué
Du gros taf ça fait plaisir.
Nous avons de beaux projets et beaucoup de ressources en France.
Il va falloir s'attaquer au plan médias (online & offline) maintenant.
 
WRInaute passionné
marcelweb a dit:
Et qu'en est-il un mois plus tard de ce futur (excellent) moteur de recherche ? Quelles sont les pistes suivis pour concurrencer les principaux concurrents ? Je ne dois pas être le seul à piaffer d'impatience...
A+
Bonjour @Marcel et les autres.

On touche au but, côté recherche et interprétation de la requête , avec une correction orthographique. Pour le moment, c'est du "brut de coffrage", et la recherche s'effectue sur "tous les mots" et d'orthographe "exacte" (singulier / pluriel sont distingués ).
C'est donc très loin d'etre pratique.

Il y a donc un ensemble d'outils qui sont presque terminés, pour interpréter les requêtes comme il se doit, avec une correction orthographique, et l'association des homonymes. Par exemple "docteur toulouse" ou "docteur machin" trouvera bien aussi les médecins a toulouse ou le medecin machin (ce n'est pas le cas pour le moment ; "médecin machin" oui , "docteur machin" non ... ).

Pour clarifier la requete et bien la diriger, il faut de multiples thesaurus (villes, métier, verbes, conjugaisons, nom commun, nom propre usuel, prénoms, nom d'entreprises etc ...), c'est un peu plus long a réaliser que je ne pensait. Du coup, je suis partis sur un programme d'auto apprentissage qui crée des "corpus". Je ne sais pas ou ca va mener pour le moment...

Il y a une relance du crawl cette semaine pour résoudre tous les problemes d'encodage et d'erreur d'extraction (concaténation erronée de mots), pour ensuite refaire une table plus rationnelle de tous les mots unique connus (3 millions pour le moment, c'est beaucoup trop, même en tenant compte des fautes d'orthographe), et rationaliser / regrouper les mêmes mots sur une deuxième table ou les mots sont typés et classés (verbe, nom, phonétiques multiples), puis reliés a des corpus. Cela devrait permettre, en théorie, que l'algorithme comprenne que ;
- macon macon => est un maçon dans la ville de mâcon
- loi macon => est la loi de Macron Emmanuel
- truelle mâcon = est la truelle de maçon
- election macon => les elections à Mâcon la ville
l'idée est de proposer différents corpus quand il y a proximité, sans surcharger la page de résultats...

Je pense qu'une première mouture sera bientôt prête , avec un peu de marge, au plus tard le 1er Janvier 2016 (au lieu du 1er Décembre 2015). L'envie de la baptiser "flipper" l'ensemble de ces algorithmes devant "bien comprendre" les requêtes me tente bien ^^

Le look va aussi beaucoup changer, pour se rapprocher au mieux de celui des moteurs traditionnels, en tout cas bien plus qu'actuellement.

Tout sera regroupé dans le lancement de la version BETA du 1er Janvier, espérant que ca commence a ressembler a un outil fiable et pratique. Cette version ALPHA actuelle du moteur Premsgo est assez brouillon, mais c'etais le but d'etre déjà dans les starting-block.

POUR LES AUTRES SERVICES ;
- Premsgowords avance très vite (réalisé en externe), il sera possible de créer et diffuser des annonces textuelles sur tous les supports (moteur, annuaire, site marchand), aux enchères, classiquement.
- PremsgoShop est finalisé, mais non ouvert. Il y a encore pas mal de tests a faire. Probablement, il sera possible d'intégrer des produits ou annonces avant le 1er janvier, pour ceux qui sont déjà inscrit dans l'annuaire (rappel 100% gratuit).

Le réseau d'agences agréées locales s'étoffe et sera publié au 1er Janvier aussi. Il en manque encore dans certaines régions, c'est gratuit, ca peu rapporter gros et en tout cas bien consolider son activité, alors j'invite a s'inscrire au plus vite celles qui ne l'on pas encore fait. Il y a environ 300 agences pour le moment, il en faudrait 1000 pour bien commencer.

Il est possible que toutes les options payantes dans l'annuaire (et répercutés sur le moteur) deviennent gratuite , a l'exception de l'onglet publicité, je ne sais pas encore, mais les 89€ pour l'année me semble un frein... Si les agences jouent le jeu avec les annonces publicitaires premsgowords, il est préférable de libérer l'inscription enrichie pour créer un intéret majeur et un attrait plus conséquent. Ce sera décidé avec les agences.

Merci de votre patience et de vos encouragements, ca fait plaisir, sincèrement.
Marc
 
WRInaute passionné
Bonjour a tous,

Mise à jour / déploiement de la version Bêta en remplacement de la version Alpha

une petite info sur de recents changements dans le moteur http://www.Premsgo.fr
- le graphisme a été modifié pour que la présentation se rapproche un peu plus au "style général" des moteurs de recherche, afin que l'internaute soit moins "déstabilisé". Il y aura encore des modifications à venir, le résultat ne me satisfait pas encore assez.
- La sémantique fait sa timide apparition, sont déploiement sera progressif, en plusieurs étapes. La première actuelle, est un simple semmatisation des mots (tous les verbes a l'infinitif, les articles très minimisés dans l'algo, tous les mots au masculin pluriel); quelques exemples ; boulanger boulanger boulangère, boulangères, boulangerie, boulangeries ... Une disction est faite entre les noms propres et le noms commun (nom de société, nom de ville etc).
Un gros travail est en cours sur certains mots (medecin et docteur sont le même mot par exemple), le deploiement sera progressif.
Le développement le plus important est un concept sémantique de rapprochement de "corpus", je ne peus pas en dire trop sur le sujet, il faudra attendre quelques mois pour en avoir le détail, et la mise en service.
En attendant, la sémantique est un domaine complexe, mais incontournable, qui va peu a peu s'implanter dans le moteur.

Voici les deux nouvelles sur la partie moteur.

La Partie shopping est tout proche de débuter, il y a un peu de retard dûe a développement sémantique .
Vous pouvez voir un apperçu en image de la future boutique ouverte uniquement aux commerçants Français et 100% gratuite,dans laquelle vous pourrez intégrer 100% de votre catalogue produits, mais aussi les annonces de toutes sortes, et de tous secteur d'activité, produit ou service (offres d'emploi, immobilier, bon plans, promos, soldes ...) à l'adresse suivante ; http://www.premsgo.fr/premsgoshop.jpg
Évidement, si vous avez déjà une boutique ou vos produits sur une place de marché, vous pourrez mettre le lien gratuitement.
Pas de panier prévu pour le moment, de façon à ne pas venir débouler "comme une boule dans un jeu de quille" sur le marché du E-commerce.

A bientôt pour d'autres infos ^^
Marc
 
WRInaute passionné
Bonjour la communauté WRI,

Voici quelques infos sur le moteur ( ce jour inaccessible pour une reconstruction de tous les index).

Nous avons beaucoup travaillé sur les crawlers, toujours développés sous 4D V15(R5), avec de considérables améliorations.
Cette nouvelle version de 4D apporte le multithreading (pour simplifier, l'utilisation de plusieurs processeur simultanément), et la refonte de nombreuses parties de programme pour en bénéficier pleinement.

La refonte a portée sur les spiders au nombre de 3 qui passent de 20 pages/sec a 144 pages/sec par machine crawler, ce qui devrait porter a 432 pages/sec pour 3 machines (on fait avec ce que l'on a, pour le moment ...).
Cela porte a 37 millions pages / jours crawlé, ce qui est assez performant. En comparaison, chez dassault Systeme avec le moteur Exalead, les spider sont a 90 Pages / sec.

Ces nouveautés reportent encore une fois le lancement de la version bêta finale prévue cet été, peut être pour début novembre.

... A suivre donc ...
 
WRInaute accro
C'est dommage d'utiliser une technologie propriétaire pour faire ce moteur, il y a d'autres technos surement mieux adaptées.
 
WRInaute accro
Ton travail n’impressionne. 37 millions pages / jours crawlé et des résultats pertinents. Je me demande si tu n'aurais pas interet a ouvrir avec une page d’accueil un peu comme ont msn ou yahoo
Pour participer je ne peux pas payer ta facture d'électricité :D :D :D mais je peux a tout moment mettre tes visuels sur mes sites de ressources si tu le souhaite (MP ou Skype)
 
Nouveau WRInaute
longo600 a dit:
Ces nouveautés reportent encore une fois le lancement de la version bêta finale prévue cet été, peut être pour début novembre.

... A suivre donc ...

Ha les choses sérieuses vont donc commencer bientôt :wink:
Bonne chance pour la version finale !
 
WRInaute passionné
spout a dit:
Premsgo: mythe ou réalité ?
Ou il aurait plutôt fallu l’appeler "Latego" ? :D
Sourire ... Effectivement, le retard de lancement de la version beta est très retardé.
La raison? ... l'ajout de deux projets associés;
- site marchand (vitrine) gratuit (100%), pour tous les commerçants Français, avec ou sans site marchand,
- regie publicitaire interne par mot clé (façon Adwords aux enchères), création de campagne, annonces, sur l'ensemble des sites (annuairefrancais, premsgo et premsgoshop), avec 50% de commission pour les agences...

Vu la compléxité de l'ensemble, vu l'évolution des bases de données depuis 2013 (date de début des travaux), il a fallu refaire plusieurs fois la structure d'ensemble de programmation .

Un partenariat fin 2016 avec la société Ikod (SSII spécialisée dans la la conception d'application web sous 4D (V16)) a permi de me soulager en programmation et reprend pas a pas l'ensemble structurel pour assurer une fiabilité et vitesse maximum, cela sur l'ensemble des sites (annuairefrancais, regie pub, premsgo et premsgoshop). Le backOffice qui permet aux agences ou aux professionnel d'acceder en une fois sur l'ensemble de ces projets est en finalisation.

Il ne devrait plus y avoir de nouveau projet ou importante modification/réfection qui devrait retarder le lancement.
Courant Avril pour la version bêta (actuellement encore Alpha test), avec des crawls recents des sites déjà inscrits.

Nous avons un partenariat avec les pages jaunes (Solocal) pour l'annuaire Francais depuis 2016 qui devrait s'installer aussi dans le moteur Premsgo.fr pour les visites classiques, et une fonction anonyme sera prochainement possible sans aucune publicité hormi la régie interne (textuelle par mot clé).

Merci de votre suivi, j'espère que ca vous plaira. ^^
 
Discussions similaires
Haut