Mon moteur de home pages

yule · 31 Juillet 2014

Hello,
Me voilà de retour avec un nouveau moteur.. Cette fois, je l’ai appelé « Moteur de Home Pages »

Le timide se trouve ici : http://www.0kil.com Un doux mélange entre un moteur de recherche et un annuaire

Ca fait donc depuis 2000 que je m’essaye dans ce domaine avec d’abord des annuaires et depuis 2003-2004, avec des moteurs (moteur de sites , enfin j’appelais ça ainsi). Un de rare hobby qui me tient la jambe depuis bientôt 15 ans.. ;-)

Préserver votre vie privée
Donc 0kil.com a pour principe de ne récolter aucune info vous concernant. Sauf (et oui, il y a toujours un oui mais..) pour les visiteurs qui soumettent des urls, pour cette partie, je suis obligé de garder l’adresse ip et c’est l’unique information que je conserve, si vous effectuez des recherches et autres, aucune info vous concernant est enregistré. Je garde uniquement l’adresse ip pour les soumitionneurs (pas français ça..) et ce, pour gérer tous conflit qui pourrait en découdre (abus par exemple). Donc pas de stats google, pas de facebook, pas de j’aime, pas de tweet, pas de google plus, pas de addthis, pas de géolocalisation etc..

L’ajout d’un site (ou plusieurs..)

- Gratuit
- Pas de lien retour demandé
- Pas d’inscription
- Validation instantanée (5 à 10 secondes..)
- 1 seule page par tld sera acceptée

Le Moteur

Est pris en compte dans la recherche, le titre, la description, les mots clés et le texte html de la page (plaitext)
- Utilise le Full text
- Efficace pour des termes courts (enfin ça devrait)
- Ré-indexation tous les ~5 à 10 jours
- Filtre automatique des erreurs http (code 200,300,400 etc..) après chaque indexation
- Liens en dur
- Sorti en _blank
- Algorithme « maison »
- Si pas de résultat en fulltext, une alternative en like est proposée
- Lien direct pour un rapport de bug sur un formulaire

L’annuaire

- Pas vraiment un annuaire mais des recherches formatés selon des termes courant

Ce qui ne vas pas encore (vous allez certainement m’en ajouter dans vos commentaires..)

- Comme j’essaye d’automatiser passablement de choses, je n’ai pas réussi à identifier si un site soumis est en langue de Molière ou de Shakespeare ou encore de Goth (il y aurait pour autant que çela soit idem sur tous les sites, le meta language ou le html lang="fr", donc si vous avez une soluce pour récupérer ces balises, je prends..)
- Pour que les résultats soient pertinents, il faut plus de sites dans ma bd, si vous avez un moment pour en suggérer, je prends aussi
- Il y a parfois des sites que j’arrive pas indexer et qui font planter ma page.. visible uniquement lors d’une soumission
- J’ai beau essayer de prendre en compte les différents charset, j’ai des urls qui ne s’affichent pas dans le bon charset..

Je reste un passionné bidouilleur autodidacte (hobby), je n’ai aucune prétention si ce n’est que tout roule, pour l’avenir de ce site. N’y voyez donc pas une révolution dans mon site (ça reste un hybride entre le moteur de pages et un annuaire), mais une alternative pour des utilisateurs incognitos (enfin c'es l'idée..)

Bonne visite et vos commentaires sont les bienvenues (tout ce qui est constructif est bon à prendre )
Cordialement
Yule

Return · 1 Août 2014

Bonjour

Il est pas mal votre moteur, pour le juger il faut qu'il soit bien remplis pour évaluer la pertinence et la précision des résultats.

Il faut aussi créer quelque chose qui le différencie des autres, par exemple au lieu qu'il soit généraliste il peut être spécialisé dans un domaine bien précis.

Cordialement

geekyy · 1 Août 2014

Au contraire, je pense que le fait qu'il soit généraliste est une bonne chose pour des recherches anonymes. L'idée est bien, maintenant il faut persévérer pour augmenter la visibilité.

generalhammond · 12 Août 2014

Bonjour,

en tant que "concepteur" de moteur de recherche (www.prefrance.fr , voir le fil un peu plus bas dans la mêm section du forum) je trouve cela intéressant de suivre le lancement du moteur d'un confrère

L'idée de garder que les home page est intéressante, mais comment justifier ce choix ? (évidemment je me doute qu'avec des moyens limités c'est impossible de crawler beaucoup de pages d'un grand nombre de sites, j'en sais quelque chose)
Le côté un peu "extrêmiste" sans tracking intéressera aussi sûrement un certain public.

A propos de la détection de la langue, je ne comprends pas bien, est-ce qu'il n'est pas simplement possible d'utiliser des expressions régulières ? D'ailleurs je n'ai pas encore trié totalement ça moi-même il faut que je m'y penche

Sinon pour les charset, c'est un problème récurrent que j'ai eu et pas facile à gérer. Pour le cas des url, je ne sais pas exactement, qu'est ce qui bug ? ça ne marche pas en remplaçant les caractères spéciaux par leurs équivalets (par exemple é par #E9) mais sans passer par des fonctions toutes faites ?

Triixx · 16 Août 2014

Salut,

Je trouve le principe sympa, j'y ai ajouté deux de mes sites cependant les résultats des recherches sont pas très très fiable. Je tape "musculation", je tombe sur "Annuaire des meilleurs sites web : top annuaire".

Quand on ajoute un site ce serait bien de pouvoir mettre une petite description car les descriptions des sites sont loin d'être de qualité.

Sinon ce serait bien d'avoir la vignette des sites je trouve (enfin ce serait sympa)

jeanluc · 16 Août 2014

Idée sympathique, mais pourquoi le formulaire me répond-il ceci à tous les coups ?

Zut !, nous ne pouvons pas lire cette URL (http://www.***.com/), l'adresse est peut être erronée, la page est peut-être bloquée par le fichier robots.txt, il peut s'agir également d'une erreur de connexion temporaire etc... Essayez plus tard ou avec une autre page de cette URL.

Jean-Luc

P.S. et il y a beaucoup trop de sites "adultes" quand on demande le "top des recherches pour annuaire"

LeZla · 16 Août 2014

Hello,
je suis curieux, arrivez vous a générer du trafic sur le site? avez vous un tracker qui indiquer combien de visites vous générez sur les sites enregistrés ?

Un site soumis a t-il un réel intérêt à être présent ?

Sinon comme dis précédemment le plus gros soucis semble être au niveau de la pertinence des résultats de recherche.
Comme on me le conseillait encore il y a peu, il faut peut-être regarder du côté des moteurs de recherche existants pour vos données, type : elasticsearch

zeb · 16 Août 2014

0kil est un moteur de recherche sur les homepages (ou moteur de sites), il se situe entre un moteur de recherche et un annuaire, la spécificité d'un moteur de home pages est d'indexer uniquement la page principale d'un site...

Ce que je trouve dommage dans ce genre de projet qui est fondamentalement bon a mon avis c'est justement d'être limité a une page. L'accueil est rarement représentatif du contenu quand tu as un poil de segmentation sur ton thème, et pourvoir proposer une petite dizaine d'url serait un réel plus qui surchargerait pas le code sans pour autant ajouter une charge de mégalo au système.

Pour te donner un exemple si le site traite des moyens de transports, tu ne trouvera rien de pertinent sur les bateaux, les voitures, les trains et les avions (etc ...) rien qu'a l'accueil (qui peut être sera en plus très dynamique et traitera d'actualité dérivée) mais si le site a une architecture segmentée cela peut devenir pertinent avec qques sous pages bien pensées et crawlées par ton système ...

pprem · 17 Août 2014

hello

j'ai soumis tous mes sites il y a quelques jours, comme prévu j'ai plusieurs sites qui ont été rejetés pour cause de langue inadéquate (dont certains étaient bien en anglais)

en plus du <html lang="fr"> as-tu pensé à tester ces deux META ?
<meta name="LANGUAGE" content="FR">
<meta http-equiv="CONTENT-LANGUAGE" content="FR">

yule · 19 Août 2014

HEllo,

MErci pour vos messages

generalhammond : le choix de la home page est effectivement la praticité et la simplicité de la gestion (ca reste un plaisir et pas une industrie ;-) )

Triixx ; Il y a que trop peu de sites pour pour une bonne pertinence dans ce domaine (musculation) mais comme c'est le seul site qui en parle franchement, l'ordre d'affichage est juste

jeanluc : Depuis peu et après le changement de serveur, j'ai pas mal de site ou ça bug et je ne trouve pas de solution, pour le site en question et pour d'autres, le véritable message d'erreur est le suivant Curl (28): connect() timed out! j'entends de tout avec cette erreur mais pas de solution pour le moment (bug que j'avais pas avant le changement de serveur..) donc je m'arrache les cheveux que je n'ai pas.. Si vous avez une idée... JE PRENDS !!!! SNIFFFFFFFFF

LeZla : Non pas d'info dans ce sens et pas de trackers sur le site, vierge de toute mafia..

zeb : oui et non... je peux chercher le terme "harley Davidson" et je pourrais tomber sur une page d'un site, qui parle de vélo principalement... mais on pourrait lire sur le forum de ce site par exemple.. " pendant ma balade dominicale en vélo, j'ai vu un défilé d'harley Davidson ...." Donc en cherchant le terme Harley Davidson tu pourrais tomber sur un site de vélo... le risque est moindre avec la home page, d'un coté, moins de pertinence avec une seule page je te l'accorde (et pour le reste, je suis trop limité en prog)

pprem : Oui c'est juste et il y a passablement de sites sans ces métas.. donc c'est mort comme pratique ! J'ai opté selon un conseil dans ce forum, sur un filtre simpliste et efficace

Code:

if (preg_match("/é||à|è|/i", "$texte"))

En espérant avoir répondu au mieux :wink:

Sinon pour le pb avec curl , si vous avez une idée, c'est volontiers

Rien qu'en testant un exemple (bout de script fonctionnel si vous voulez tester..)

Code:

$url = "http://www.annuaire-info.com/";
	$ch = curl_init();
	curl_setopt($ch, CURLOPT_URL, $url);
	
	// Si l'URL est en HTTPS 
	

	if (preg_match('`^https://`i', $url)) 
	{ 
	// Ne pas vérifier la validité du certificat SSL 
	curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); 
	curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0); 
	}
	
	curl_setopt($ch, CURLOPT_VERBOSE, true);
	curl_setopt($ch, CURLOPT_HEADER, 0);
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
	curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
	curl_setopt($ch, CURLOPT_USERAGENT, 'One Shot - 0kil.com');
	curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
	curl_setopt($ch, CURLOPT_MAXREDIRS, 5);
	curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5);
	
	curl_exec($ch);
	
	$lastUrl = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL); 
	if ($lastUrl != ""){
	
	
	$url = "$lastUrl";
	}
	else{ 
	$url ="$url";
	}

  $curl_errno = curl_errno($ch);
        $curl_error = curl_error($ch);
        if ($curl_errno > 0) {
		    echo "Error trouvé => ($curl_errno): $curl_error\n";
        } else { }

ben j'ai (28): connect() timed out!

:evil:

A+
Yule

jeanluc · 19 Août 2014

Pour le Curl (28): connect() timed out!, faut peut-être essayer en ajoutant:

Code:

curl_setopt ($ch, CURLOPT_TIMEOUT, 5) ;

P.S. je ne sais pas pourquoi mes underscores n'apparaissent pas... :?

yule · 19 Août 2014

jeanluc a dit:
Pour le Curl (28): connect() timed out!, faut peut-être essayer en ajoutant:

Code:

curl_setopt ($ch, CURLOPT_TIMEOUT, 5) ;

P.S. je ne sais pas pourquoi mes underscores n'apparaissent pas... :?

même erreur : (28): connect() timed out!
Un casse tête... :?

Schwarzer Stern · 19 Août 2014

Qu'est censé faire ce code ?

yule · 19 Août 2014

Schwarzer Stern a dit:
Qu'est censé faire ce code ?

Récupérer l'url effective (si redirection 301 par exemple)

aproximité · 19 Août 2014

Bonsoir,
J'aime beaucoup le concept et je l'encourage vivement, par contre je ne comprends pas le fonctionnement et surtout les résultats des requêtes.

Par exemple, requête : trouver de amis à Montpellier.
Résultats : (10 résultats sur 13 en première page n'ont rien à y faire ) :
- Costumes et déguisements
- Comparateur de vol et billet d'avion pas cher - liligo.com
- Gite pour groupes le relais Étoilé
- Index of mp3 | trouver et télécharger des mp3 ou pourquoi pas simplement découvrir et écouter..
- Rencontre milf << trouver des milf salopes pour les baiser chez elle en toute..
- Voyant pour connaitre son horoscope | trouver un voyant ou un medium pour découvir son avenir..
- Dominatrice transexuelle : 0899 781 140 - trouver une trans dominatrice [public averti]
- Comment trouver des solutions à tous vos problèmes
- Comment faire pour me trouver encore plus belle ?
- Beyrouth - ma découverte de beyrouth,

Peut être que, stupide, je n'ai pas bien compris l'objectif de ce moteur ?
Mais si je suis un internaute "lambda", je me sauve...

Désolé...
Cordialement

yule · 19 Août 2014

aproximite a dit:
Bonsoir,
J'aime beaucoup le concept et je l'encourage vivement, par contre je ne comprends pas le fonctionnement et surtout les résultats des requêtes.

Par exemple, requête : trouver de amis à Montpellier.
Résultats : (10 résultats sur 13 en première page n'ont rien à y faire ) :

Désolé...
Cordialement

Hello,

C'est l'habitude de google....

- Il est pris en compte dans la recherche, le titre, la description, les mots clefs et le texte html de la page.
- La recherche doit se faire sur 1-2 mots clefs, exemple : amis à Montpellier
- Avec plus de sites, il y aura plus de pertinence...

La pertinence des résultats sera à son apogée avec un à deux termes dans votre requête, celle-ci est axée sur le thème principal d'un site. La recherche s'effectue uniquement sur la home page d'un site, ces mêmes home pages sont ré-indexées en moyenne tous les 5 jours. Sur notre moteur de homepages, nous indexons qu'une page par url, principalement la homepage et pas toutes les pages qui peuvent composer un site. A ne pas confondre ou comparer avec un moteur de pages comme Google ou Bing.

A+
YUle

aproximité · 19 Août 2014

Merci beaucoup pour la sincérité de cette réponse, et je comprends beaucoup mieux maintenant.
Dès que le risque d'être amalgamé à ces résultats "nocifs" aura disparu, je reviendrais volontiers vers vous pour vous soumettre nos propres sites.
Bon courage pour cette belle aventure,
Cordialement

LeZla · 20 Août 2014

Pour ton soucis avec Curl, j'ai également un site qui parse d'autre site pour en extraire du contenu, et je n'arrive pas non plus à 100% de connexion réussie.

J'ai amélioré pas mal mes résultats et la rapidité de conexion via un fallback qui passe par la commande wget du serveur avec un paramêtre pour ignorer les certificats.

yule · 20 Août 2014

LeZla a dit:
Pour ton soucis avec Curl, j'ai également un site qui parse d'autre site pour en extraire du contenu, et je n'arrive pas non plus à 100% de connexion réussie.

J'ai amélioré pas mal mes résultats et la rapidité de conexion via un fallback qui passe par la commande wget du serveur avec un paramêtre pour ignorer les certificats.

Je vais amélioré ça ce soir, j'ai trouvé une partie du pb, ovh place un fichier .ovhconfig à la racine avec environment=production par défaut , faut le changer à environment=development et une bonne partie des soucis sont résolus.. mais après et comme tu le dis .. pas tout passe

Je ne connais pas cette "combine" de Fallback, tu peux m'en dire plus sur cette procédure ?

Sinon, je remarque pas mal de "Access denied. your ip address [xxx.xxx.xxx.xx] is blacklisted. if you feel this is in error.." et je passe que tous les 5 jours... et ça c'est pas bon et je pense qu'à la longue je devrait supprimer ces sites.. c'est dommage

A+
Yule

LeZla · 20 Août 2014

En gros si tu détectes que tu ne peux pas lire le site, tu passes par un exec(wget ...) ca te fera un fichier html qu'il te reste à lire en local.
J'ai observé que wget était particulièrement rapide, donc ca tient la route.

Par contre si ton Ip est blacklistée là c'est chaud. Il te faudra passer par des proxys à terme pour que ce ne soit pas ton serveur qui morfle...

yule · 20 Août 2014

LeZla a dit:
Par contre si ton Ip est blacklistée là c'est chaud. Il te faudra passer par des proxys à terme pour que ce ne soit pas ton serveur qui morfle...

Re,

Pour ta première réponse, j'ai compris merci, pour la deuxième aussi mais comment procéder pour passer par d'autres proxys, j'avoue ne pas connaître un copec dans ce domaine... Donc si je scrape avec curl, c'est depuis curl que ça doit se faire

A+
Yule

jeanluc · 20 Août 2014

Dans ton cas, il ne faut pas t'embêter à passer par des proxies.

Si certains serveurs te bloquent, tant pis pour eux. Tant que ce n'est pas un gros pourcentage, il ne faut pas s'inquiéter. Si la proportion est élevée, il faudrait se demander pourquoi ils bloquent ton IP. Si c'est une IP partagée avec d'autres (mutualisé), le problème peut venir d'activités d'autres utilisateurs.

Jean-Luc

noren · 20 Août 2014

salut

J'ai peut être pas bien compris, je n'arrive pas à voir la différence avec un annuaire, hormis le moteur de recherche basé sur des critères de "pertinence".

Qu'apporte de plus ce site par rapport aux annuaires? Il me fait également penser à des sites comme les "similarsites, reftruc, seomachin ou encore les aguea etc.", qui enfin de compte listent des sites en récupérant nos meta description (voir plus). A la différence, certes, que tous ces sites récupèrent nos url sans notre autorisation :mrgreen:

Ce qui me dérange également c’est qu'en fin de compte tes pages de résultats sont référencés sur google créant ainsi du DC avec les copies de meta des sites référencés.

Et pour les annuaires, ces derniers proposent au moins un contenu (description) unique pour chaque site présenté.

ahma, un moteur de recherche n'a lieu d'exister uniquement si il crawl lui même les url, propose des résultats suffisamment pertinents et ne référence aucune page des résultats pour éviter les DC interne mais également vis a vis de nos sites.

A côté de ça le site est très agréable visuellement.

yule · 27 Août 2014

Hello,

Ton point de vue se discute mais n'est pas tout faux non plus, avec le temps je vais amélioré mon système en fonction des remarques

Pour commencer, j'ai mis un filtre pour les sites adultes, donc les résultats peuvent être affichés avec ou sans les sites adultes

Pour la différence avec un annuaire, il y a aussi le fait que la description d'un annuaire est statique puisque unique selon ton explication, par conséquent si sur une home page , un nouvelle rubrique, thème ou autre est ajouté, l'annuaire ne le verra pas, à moins d'apporter dans chaque annuaires la modification nécessaire... et pour la pertinence c'est extrêmement important à mon sens.

pour les DC, initialement le titre, la description et les mots clefs sont présent pour accentuer la pertinence, certes le titre est affiché, mais pour la description elle ne devrait pas... mais pour le moment oui (à court terme ça ne sera plus le cas pour la description) , j'utiliserai le texte html pour en extraire x caratères selont le mot clef recherché... mais j'avoue que pour le moment, j'y suis pas encore arrivée... sacré php

(j'ai posté un message sur ce forum pour demander de l'aide dans ce sens..)

A+
Yule

yule · 31 Août 2014

Hello,

Je reviens avec des modifications selon vos commentaires

=> Filtre avec les sites adultes, dorénavant vous pouvez effectuer vos recherches avec ou sans les sites adultes (par défaut, c'est sans les sites adultes)

=> L'affichage des résultats ne sait fait plus avec la méta [description], la description utilisée sera celle du texte html de la page ou le terme recherché est présent (entre 170 et 250 caractères) . Je suis contre les descriptions uniques car elles sont statiques. donc je propose à mon sens un bon compromis

=> Les sites présents seront crawlés tous les 5 jours, donc si votre home page "bouge passablement", ça sera intéressant pour vous...

=> Je maintiens, il ne s'agit pas d'un annuaire

, c'est un moteur de home pages ! Un hybride entre un annuaire et un moteur de pages.

=> Le ssl est en place https://www.0kil.com et toutes les pages sont enfin avec le cadenas vert..

=> Mon projet reste sur l'indexation d'une seule page par site pour le moment, en avoir au moins 10 comme cela a été suggéré oui.. Mais pour le moment 1 page me va très bien, par la suite et en fonction de son évolution et des ressources, ça sera certainement un point envisageable.

Bon dimanche !
YUle

yule · 1 Septembre 2014

generalhammond a dit:
Bonjour,

en tant que "concepteur" de moteur de recherche (http://www.prefrance.fr , voir le fil un peu plus bas dans la mêm section du forum) je trouve cela intéressant de suivre le lancement du moteur d'un confrère

L'idée de garder que les home page est intéressante, mais comment justifier ce choix ? (évidemment je me doute qu'avec des moyens limités c'est impossible de crawler beaucoup de pages d'un grand nombre de sites, j'en sais quelque chose)
Le côté un peu "extrêmiste" sans tracking intéressera aussi sûrement un certain public.

Hello, merci pour ton message, il me semblait avoir répondu à celui.ci, mais en fait pas..

Donc oui , il y a plusieurs raisons sur le choix d'indexer une ou plusieurs pages. On m'a suggéré sur ce forum dans indexer au moins 10.

Mes deux raisons ; il y a évidement l'aspect ressource... mon moteur n'est pas une pompe a fric car tout y est gratuit, de plus, il n'y a pas de pub pour le moment (pas certain non plus qu'il y en aura..)

L'autre raison: Je suis parti du principe que la première page d'un site est en quelques sortes la carte de visite de l'ensemble du site et que théoriquement, ça devrait être la page avec le plus de modifications ou de MAJ... Pis L'idée de Twitter avec des messages de 140 caractères démontre que le monde d'internet doit aller vite , court, rapide etc... ça peux pas dire que ça doit être dénudé de tout intérêt, mais 1 page par url devrait suffire pour l'instant

Voili voilà
A+
Yule

generalhammond · 2 Octobre 2014

Salut,

Ok merci pour tes précisions !
Effectivement ça a du sens et ça peut donner quelque chose de très intéressant

Je ne sais pas si tu l'as dit, mais est-ce que tu comptes crawler les urls d'autres sites que tu trouves sur les homepages, où est-ce que tu veux te limiter uniquement à l'ajout de site via suggestion ?

Tu as réssolu ton problème de CURL ? J'essaierai de regarder ce que j'ai de mon côté si ça t'intéresse.

Pour répondre à ceux qui critiquent la pertinence, c'est bien évidemment en raisson d'un nombre de sites insuffisant, mais ce qui est bien c'est que c'est un problème qui se résoud avec le temps

ça me fait penser à ceux qui me disent que lorsqu'on cherche "téléphone portable" sur mon moteur de recherche du made in France, et qui s'étonne qu'on tombe sur des housses... Ben oui c'est normal, c'est tout ce qu'il y a de plus pertinent étant donné la thématique !

Bon courage pour le développement de ton projet et ne manque pas de nous tenir au courant !

bossboss · 3 Octobre 2014

generalhammond a dit:
Bonjour,

en tant que "concepteur" de moteur de recherche (http://www.prefrance.fr , voir le fil un peu plus bas dans la mêm section du forum) je trouve cela intéressant de suivre le lancement du moteur d'un confrère

Hello,
je profite de ce fil pour te poser une question. J'avais développé un petit moteur en php/mysql juste par amusement et voir comment ça réagissait qui faisait tout à partir d'un petit vps. je l'ai stoppé actuellement http://www.robot14.com. Comment fais-tu avec 200000 pages à avoir des temps de réponses si rapide( si ce n'est pas indiscret? ^^) quel language utilises tu? Car avec 200000 "pages" moi ça "rame" méchamment

Merci

spout · 3 Octobre 2014

@bossboss: je n'ai pas (encore) fait de moteur de recherche de pages, mais si je devais le faire, sans hésiter:
- Scrapy (Python) pour parser les pages
- Elasticsearch (Java) pour le moteur de recherche

generalhammond · 4 Octobre 2014

@bossboss
Salut !

C'est sympa ce moteur

, marrant de voir certaines initiatives qu'on ne soupçonnait pas !

Alors déjà d'après mon expérience, passer en SSD fait gagner facilement x10 en vitesse + serveur dédié qui aide bien aussi.
Rien que ça on arrive à quelque chose qui est bien plus proche... (je dirais que chez toi c'est peut être 20x plus lent)
Ensuite peut être que le fait de pré-trier tous les résultats autant que possible

Puis je m'arrête à un nombre de résultat assez limité (je ne sais pas ce que tu fais dans ton cas ?).
Sinon pour passer de la page 1 à la page 2 c'est dommage de tout rechercher à nouveau alors que je pense que tu as déjà trouvé tous les résultats à l'affichage de la page 1

@spout
Il parait effectivement qu'ElasticSearch est très bien, mais dans mon cas il me fallait quelque chose de très spécique donc j'ai laissé tomber...

bossboss · 4 Octobre 2014

generalhammond a dit:
@bossboss
Salut !

C'est sympa ce moteur , marrant de voir certaines initiatives qu'on ne soupçonnait pas !

Alors déjà d'après mon expérience, passer en SSD fait gagner facilement x10 en vitesse + serveur dédié qui aide bien aussi.
Rien que ça on arrive à quelque chose qui est bien plus proche... (je dirais que chez toi c'est peut être 20x plus lent)
Ensuite peut être que le fait de pré-trier tous les résultats autant que possible

Puis je m'arrête à un nombre de résultat assez limité (je ne sais pas ce que tu fais dans ton cas ?).
Sinon pour passer de la page 1 à la page 2 c'est dommage de tout rechercher à nouveau alors que je pense que tu as déjà trouvé tous les résultats à l'affichage de la page 1

@spout
Il parait effectivement qu'ElasticSearch est très bien, mais dans mon cas il me fallait quelque chose de très spécique donc j'ai laissé tomber...

@generalhammond
Oui côté serveur, je suis sur le mini vps d'ovh ( je fais pas de pub!) (c'est pour m'amuser après tout ce moteur!), donc c'est pas une bête de guerre.
Oui l'idée de minimiser le retour de résultats, je retiens.
J'avais lu aussi mais jamais tenté à travailler avec des tables temporaires.
Et il y a aussi le contenu, philosophie en soit du moteur à savoir ne retenir que l'essentiel de l'information d'une page et ne pas garder "inconsistant" du contenu, pas trop le choix quand tu veux limiter la BD ou alors faut être financé par Google lol.

@spout
J'avais entendu parlé de ça, j'avais trouver des infos mais bon mon petit niveau de programmation ne me permets pas de me lancer dans ces langages. Je reste dans ce que je connais, php et sql de MySQL.