Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mer Avr 24, 2013 17:34

Il semble que certains sites ont mis en place des commandes pour bloquer les bot inconnus.
Pour info, merci de libérer l'accès au bot "bot-premsgo.fr" pour vos sites ou ceux de vos clients inscrits dans l'Annuaire Français.
Le robot suit les instructions du fichier robots.txt si il existe.
Premsgo est un moteur... shopping en partie ... mais je ne peux pas en dire plus pour le moment. Les infos à la rentrée, Septembre / Octobre.
Haut
11 Réponses
Messages: 37923

Enregistré le: 7 Juil 2004

Message le Jeu Avr 25, 2013 1:26

Merci pour l'information concernant le bot de cet annuaire. :)
Haut
Messages: 1058

Enregistré le: 31 Oct 2012

Message le Jeu Avr 25, 2013 7:31

Information sympas, avec une pointe de mystère !
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Ven Oct 31, 2014 13:59

Bonjour,

Petites infos sur l'avancement du moteur.
Premsgo est toujours en développement , le projet progresse, en grande partie abouti.
Pour info voici les infos dans le "USER-AGENT" du crawler ;
"BOT ANNUAIREFRANCAIS.FR PREMSGO.FR"

A ce jour, on passe en revue une par une les procédures afin de les optimiser, les premiers tests en réel du moteur sont assez sympathiques (ben oui, un peu de suspens quoi ^^). Rassurez-vous, WRI m'a assez apporté pour que l'info de lancement et le détail du fonctionnement sera exclusive au site, pour les premiers tests en réel.

Ce moteur est limité au web Français et aux entités déclarées, je sais, c'est très limitatif, mais c'est la seule option de démarrer.

En attendant, merci de faire vos suggestions sur les services nouveaux qu'un moteur peut apporter aux utilisateurs que l'on ne trouve pas ailleurs.
Haut
Messages: 8509

Enregistré le: 14 Mai 2003

Message le Ven Oct 31, 2014 14:07

Technos utilisées ? Tjs en 4D ?
Haut
Messages: 300

Enregistré le: 2 Juil 2009

Message le Ven Oct 31, 2014 14:23

longo600 a écrit:Il semble que certains sites ont mis en place des commandes pour bloquer les bot inconnus.


c'est le robot.txt exemple

Code: Tout sélectionner
User-agent: ia_archiver
Allow: /about/privacy
Allow: /full_data_use_policy
Allow: /legal/terms
Allow: /policy.php
Disallow: /

User-agent: *
Disallow: /


de cette manière tu sélectionne tes bots
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Ven Oct 31, 2014 22:19

spout a écrit:Technos utilisées ? Tjs en 4D ?


Pour les débuts et la version bêta oui, c'est un environnement que je maîtrise assez bien. Il sera necessaire de redevelopper sous un autre environnement j'en suis conscient, mais ca n'empeche pas de débuter tranquillement pour le moment sous 4D.
Un peu comme l'annuaire, il y a une majorité de requêtes (les plus courantes et gourmandes en calcul) qui son préconstruites (pages de résultats pré-stockées).
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Ven Oct 31, 2014 22:20

spout a écrit:Technos utilisées ? Tjs en 4D ?

Pour les débuts et la version bêta oui, c'est un environnement que je maîtrise assez bien. Il sera necessaire de redevelopper sous un autre environnement j'en suis conscient, mais ca n'empeche pas de débuter tranquillement pour le moment sous 4D.

Pour palier au ressource limité au début, un peu comme l'annuaire, il y a une majorité de requêtes (les plus courantes et gourmandes en calcul) qui son préconstruites (pages de résultats pré-stockées).

Le crawl pour le moment est en profondeur 1 en dessous de la page d'accueil.
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Jeu Nov 06, 2014 11:08

Juste une recommandation pour les developpeurs et les graphistes, évitez de construire des pages web avec des centaines de milliers d'espaces, fabulations, totalements inutiles et très lourde. L'analyseur de contenu a parfois un peu de mal, pour rien, et sur le réseau, c'est aussi de la ressource inutile.

Il y a des pages parfois de 2Mo avec a peine 3 ou 5000 mots ...

Supprimez les espaces et tabulations en double et succéssifs, vous gagnerez aussi en vitesse d'accès à vos pages ! :D
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mar Nov 18, 2014 14:08

Bonjour,

Le projet avance et quasi prêt à sortir, pour les lecteurs de WRI, voici la page d'accueil du moteur de recherche que vous serez les premiers a découvrir.

Ce modeste moteur est un expérimentation qui passera au stade d'exploitation au 1er Janvier 2015.

On en parles aussi sur abondance.
Haut
Messages: 13572

Enregistré le: 5 Déc 2004

Message le Mar Nov 18, 2014 14:36

exclusivement sur le territoire Français

Tu te base sur quoi pour déterminer si c'est français, francophone ou autre ?
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mar Nov 18, 2014 15:03

@Zeb , Il faut être inscrit sur l'Annuaire Français et pour cela avoir un numéro de siren, que l'on soit une administration, une association, un artiste, un indépendant, une entreprise etc … Le "filtre anti-spam" vient de là, la qualité du classement, la pertinence et la localisation.

Une fois que tout est cadré a l'inscription, le robot visite LE ou LES sites de l'établissement (5 maxi).
Toutes ces limitations garantissent de résultats relativement de "confiance" et pertinents, et aussi une certaine équité puisque les liens externes qui pointent sont très peu pris en compte, le contenu prime plus que sur d'autres moteurs.

J'espère que cette mouture a une apparence sympathique et conviviale?
Haut