Discussion, création d'un moteur de recherche

Consultez la formation sur les stratégies de liens de WebRankInfo / Ranking Metrics


petit lu
Nouveau WRInaute
 
Messages: 31
Inscription: Jeu Fév 09, 2006 12:05

Discussion, création d'un moteur de recherche

Message le Mar Fév 14, 2006 18:24

Yop, alors voila
l'idée, c'est que j'ai décidé de creer un moteur de recherche sur un de mes serveurs. l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau...

je vais donc attaquer ca ce soir, et si je fais ce post, c'est pour écouter vos propositions et idées, qu'est ce que vous pensez qu'un bon annuaire devrait faire au niveau des calculs pour ressortir les sites les plus précis au niveaux des mots clés.

je n'ai pas la prétention de refaire google (ni les moyens d'ailleurs), mais je pense que ca peut être interessant....

voila, maintenant, je vous écoute...


blman
WRInaute accro
WRInaute accro
 
Messages: 2915
Inscription: Ven Sep 05, 2003 10:46

Message le Mar Fév 14, 2006 18:34

Un petit lien qui pourra t'aider :
http://www.webrankinfo.com/forums/viewtopic_41650.htm

( j'ai toujours pas fini le développement, faute de temps, mais je m'y remettrais bientôt )

nonel
WRInaute impliqué
WRInaute impliqué
 
Messages: 349
Inscription: Jeu Mai 05, 2005 8:35

Message le Mer Fév 15, 2006 9:08

Ben prépare toi à investir dans un gros serveur dédié alors !
Parceque question ressource ... vlà ce que ca bouffe... c'est énorme. Discute bien de tes projets avec ton hébergeur.

Bonne chance.

Tcho.


petit lu
Nouveau WRInaute
 
Messages: 31
Inscription: Jeu Fév 09, 2006 12:05

Message le Mer Fév 15, 2006 12:13

alors, pour l'instant, j'ai 3 dédiés, et j'ai lancé ca sur un vieux p4 1.7ghz chez moi,
j'ai juste codé la partie crawler, qui ne fait que récupérer des urls de pages, avec un minimum de traitement. je l'ai lancé ce matin (avant de partir bosser, et la, j'ai 40827 pages indexées. ca fait dans les 10 000pages / heures (dont 5000 pages les 10 premieres minutes).


blman
WRInaute accro
WRInaute accro
 
Messages: 2915
Inscription: Ven Sep 05, 2003 10:46

Message le Mer Fév 15, 2006 12:28

Sinon, plutôt que de tout coder toi même, il y a phpdig qui est bien fait et bien optimisé au niveau des ressources.


petit lu
Nouveau WRInaute
 
Messages: 31
Inscription: Jeu Fév 09, 2006 12:05

Message le Mer Fév 15, 2006 12:38

blman a écrit:Sinon, plutôt que de tout coder toi même, il y a phpdig qui est bien fait et bien optimisé au niveau des ressources.
non, justement, l'idée etait de tout faire a 100%, c'est pour ca que je le fait... un moteur de recherche comme ca est pas viable fasse a google, yahoo, askj ou autres....


Bouledogue
WRInaute accro
WRInaute accro
 
Messages: 3077
Inscription: Ven Juil 15, 2005 14:09

Message le Mer Fév 15, 2006 13:02

Bonjour et bon courage

tu demandes des idées donc :

-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
- Nom de domaine peut important sur mot clefs
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-affichage d'un icon du site (exalead) sur les réponses données
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-navigation simplifié et intuitive
-possibilité de le customiser (préférences)
-affinage des réponse (exalead et UJIKO)
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort


voila c'est les 1er trucs qui me vienne..


petit lu
Nouveau WRInaute
 
Messages: 31
Inscription: Jeu Fév 09, 2006 12:05

Message le Mer Fév 15, 2006 13:11

itraque a écrit:-affinage des réponse (exalead et UJIKO)
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort
-affichage d'un icon du site (exalead) sur les réponses données
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-navigation simplifié et intuitive

tout ca je veux bien, et c'etait prévu pour la plupart.



itraque a écrit:- Nom de domaine peut important sur mot clefs
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-possibilité de le customiser (préférences)


voila c'est les 1er trucs qui me vienne..

euj ... je pensais avoir dit que j'avais pas les moyens techniques de google .... 8O :D
mais pourquoi pas..... :wink:
Dernière édition par petit lu le Mer Fév 15, 2006 13:37, édité 1 fois.


Bouledogue
WRInaute accro
WRInaute accro
 
Messages: 3077
Inscription: Ven Juil 15, 2005 14:09

Message le Mer Fév 15, 2006 13:13

petit lu a écrit:
euj ... je pensais avoir dit que j'avais pas les moyens techniques de google .... 8O :D
mais pourquoi pas..... :wink:


Tu demandes j'éxauce...!! :wink: :lol: :lol: :lol:


blman
WRInaute accro
WRInaute accro
 
Messages: 2915
Inscription: Ven Sep 05, 2003 10:46

Message le Mer Fév 15, 2006 13:48

Une bonne base serait d'indexer les pages en retirant les balises HTML et d'utiliser des index FULLTEXT (comme ça tu utilise la fonction de recherche dee MySQL (MATCH)

spidetra
WRInaute accro
WRInaute accro
 
Messages: 1500
Inscription: Lun Juil 07, 2003 13:06

Message le Mer Fév 15, 2006 13:56

Heu, et les projets Open Source existant ?
http://dmoz.org/Computers/Open_Source/Search_Engines/
Dernière édition par spidetra le Mer Fév 15, 2006 13:57, édité 1 fois.


e-kiwi
Modérateur
Modérateur
 
Messages: 13864
Inscription: Mar Déc 23, 2003 9:04

Message le Mer Fév 15, 2006 13:56

tiens, ca me donne faim tout ca

t'as regardé http://www.phpdig.net/ (en dehors de tes heures de boulot)


petit lu
Nouveau WRInaute
 
Messages: 31
Inscription: Jeu Fév 09, 2006 12:05

Message le Mer Fév 15, 2006 16:30

blman a écrit:Une bonne base serait d'indexer les pages en retirant les balises HTML et d'utiliser des index FULLTEXT (comme ça tu utilise la fonction de recherche dee MySQL (MATCH)
j'yavais pensé, mais :
- tu tiens pas compte du poids des mots (h1, h2, title....)
- sur une base de 100 000 site, j'ose même pas imaginer le temps de traitement d'une recherche
- la base de données va peser des gigas pour rien, vu que je serais quand même obliger d'avoir la version avec balises pour le cache

spidetra a écrit:Heu, et les projets Open Source existant ?
http://dmoz.org/Computers/Open_Source/Search_Engines/

ben non, l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau. si je reutilise un truc, autant laisser tomber....
e-kiwi a écrit:tiens, ca me donne faim tout ca
t'as regardé http://www.phpdig.net/ (en dehors de tes heures de boulot)
pareil (et non, j'ai le pc pris par un script photoshop)


blman
WRInaute accro
WRInaute accro
 
Messages: 2915
Inscription: Ven Sep 05, 2003 10:46

Message le Mer Fév 15, 2006 16:39

Ok, petit lu, as-tu lu le lien que je t'avais filer au début du post ? Si oui, qu'est-ce que tu pense de tout ce qu'on a pu dire ?


petit lu
Nouveau WRInaute
 
Messages: 31
Inscription: Jeu Fév 09, 2006 12:05

Message le Mer Fév 15, 2006 16:50

ouaip je l'ai lu, j'avais d'ailleurs pas pensé a la fct soundex pour l'ortographe (le coup du essayez avec cette orthographe ...)

nickel aussi pour les stopwords, ca fait des plombes que je cherchais un fichier complet...

en fait j'ai deja fait un moteur de recherche dans une base de données (70 000 entrées a scanner 8O ), mais pas aussi complexe....

Discussion, création d'un moteur de recherche

Formation recommandée sur ce thème :

Formation Netlinking (liens et référencement) : apprenez ce qu'est réellement un bon lien pour le référencement et surtout comment en obtenir. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Présentations, Google SearchMash, Marques de Google

  • Logiciel d'analyse du positionnement
    AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
  • Transformer des textes non cliquables en liens
    Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).


Qui est en ligne

Utilisateurs parcourant ce forum: 1-sponsor et 0 invités