Discussion, création d'un moteur de recherche
18 messages • Page 1 sur 2 • 1, 2
Consultez la formation sur les stratégies de liens de WebRankInfo / Ranking Metrics
Discussion, création d'un moteur de recherche
Yop, alors voila
l'idée, c'est que j'ai décidé de creer un moteur de recherche sur un de mes serveurs. l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau...
je vais donc attaquer ca ce soir, et si je fais ce post, c'est pour écouter vos propositions et idées, qu'est ce que vous pensez qu'un bon annuaire devrait faire au niveau des calculs pour ressortir les sites les plus précis au niveaux des mots clés.
je n'ai pas la prétention de refaire google (ni les moyens d'ailleurs), mais je pense que ca peut être interessant....
voila, maintenant, je vous écoute...
l'idée, c'est que j'ai décidé de creer un moteur de recherche sur un de mes serveurs. l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau...
je vais donc attaquer ca ce soir, et si je fais ce post, c'est pour écouter vos propositions et idées, qu'est ce que vous pensez qu'un bon annuaire devrait faire au niveau des calculs pour ressortir les sites les plus précis au niveaux des mots clés.
je n'ai pas la prétention de refaire google (ni les moyens d'ailleurs), mais je pense que ca peut être interessant....
voila, maintenant, je vous écoute...
Un petit lien qui pourra t'aider :
http://www.webrankinfo.com/forums/viewtopic_41650.htm
( j'ai toujours pas fini le développement, faute de temps, mais je m'y remettrais bientôt )
http://www.webrankinfo.com/forums/viewtopic_41650.htm
( j'ai toujours pas fini le développement, faute de temps, mais je m'y remettrais bientôt )
alors, pour l'instant, j'ai 3 dédiés, et j'ai lancé ca sur un vieux p4 1.7ghz chez moi,
j'ai juste codé la partie crawler, qui ne fait que récupérer des urls de pages, avec un minimum de traitement. je l'ai lancé ce matin (avant de partir bosser, et la, j'ai 40827 pages indexées. ca fait dans les 10 000pages / heures (dont 5000 pages les 10 premieres minutes).
j'ai juste codé la partie crawler, qui ne fait que récupérer des urls de pages, avec un minimum de traitement. je l'ai lancé ce matin (avant de partir bosser, et la, j'ai 40827 pages indexées. ca fait dans les 10 000pages / heures (dont 5000 pages les 10 premieres minutes).
non, justement, l'idée etait de tout faire a 100%, c'est pour ca que je le fait... un moteur de recherche comme ca est pas viable fasse a google, yahoo, askj ou autres....blman a écrit:Sinon, plutôt que de tout coder toi même, il y a phpdig qui est bien fait et bien optimisé au niveau des ressources.
-

Bouledogue - WRInaute accro

- Messages: 3077
- Inscription: Ven Juil 15, 2005 14:09
Bonjour et bon courage
tu demandes des idées donc :
-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
- Nom de domaine peut important sur mot clefs
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-affichage d'un icon du site (exalead) sur les réponses données
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-navigation simplifié et intuitive
-possibilité de le customiser (préférences)
-affinage des réponse (exalead et UJIKO)
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort
voila c'est les 1er trucs qui me vienne..
tu demandes des idées donc :
-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
- Nom de domaine peut important sur mot clefs
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-affichage d'un icon du site (exalead) sur les réponses données
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-navigation simplifié et intuitive
-possibilité de le customiser (préférences)
-affinage des réponse (exalead et UJIKO)
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort
voila c'est les 1er trucs qui me vienne..
itraque a écrit:-affinage des réponse (exalead et UJIKO)
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort
-affichage d'un icon du site (exalead) sur les réponses données
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-navigation simplifié et intuitive
tout ca je veux bien, et c'etait prévu pour la plupart.
itraque a écrit:- Nom de domaine peut important sur mot clefs
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-possibilité de le customiser (préférences)
voila c'est les 1er trucs qui me vienne..
euj ... je pensais avoir dit que j'avais pas les moyens techniques de google ....
mais pourquoi pas.....
Dernière édition par petit lu le Mer Fév 15, 2006 13:37, édité 1 fois.
-

Bouledogue - WRInaute accro

- Messages: 3077
- Inscription: Ven Juil 15, 2005 14:09
petit lu a écrit:
euj ... je pensais avoir dit que j'avais pas les moyens techniques de google ....![]()
![]()
mais pourquoi pas.....
Tu demandes j'éxauce...!!
Heu, et les projets Open Source existant ?
http://dmoz.org/Computers/Open_Source/Search_Engines/
http://dmoz.org/Computers/Open_Source/Search_Engines/
Dernière édition par spidetra le Mer Fév 15, 2006 13:57, édité 1 fois.
tiens, ca me donne faim tout ca
t'as regardé http://www.phpdig.net/ (en dehors de tes heures de boulot)
t'as regardé http://www.phpdig.net/ (en dehors de tes heures de boulot)
j'yavais pensé, mais :blman a écrit:Une bonne base serait d'indexer les pages en retirant les balises HTML et d'utiliser des index FULLTEXT (comme ça tu utilise la fonction de recherche dee MySQL (MATCH)
- tu tiens pas compte du poids des mots (h1, h2, title....)
- sur une base de 100 000 site, j'ose même pas imaginer le temps de traitement d'une recherche
- la base de données va peser des gigas pour rien, vu que je serais quand même obliger d'avoir la version avec balises pour le cache
spidetra a écrit:Heu, et les projets Open Source existant ?
http://dmoz.org/Computers/Open_Source/Search_Engines/
ben non, l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau. si je reutilise un truc, autant laisser tomber....
pareil (et non, j'ai le pc pris par un script photoshop)e-kiwi a écrit:tiens, ca me donne faim tout ca
t'as regardé http://www.phpdig.net/ (en dehors de tes heures de boulot)
ouaip je l'ai lu, j'avais d'ailleurs pas pensé a la fct soundex pour l'ortographe (le coup du essayez avec cette orthographe ...)
nickel aussi pour les stopwords, ca fait des plombes que je cherchais un fichier complet...
en fait j'ai deja fait un moteur de recherche dans une base de données (70 000 entrées a scanner
), mais pas aussi complexe....
nickel aussi pour les stopwords, ca fait des plombes que je cherchais un fichier complet...
en fait j'ai deja fait un moteur de recherche dans une base de données (70 000 entrées a scanner
18 messages • Page 1 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation Netlinking (liens et référencement) : apprenez ce qu'est réellement un bon lien pour le référencement et surtout comment en obtenir. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Nouvel outil dans le forum WebRankInfo
- WebRankInfo sélectionné aux Abondance d'or
- Le PHP et le référencement
- Comment Google indexe et classe les documents
- Concours de création de Gadgets pour Live.com
- Google acquiert YouTube pour 1,65 Md$
- Sortie des Google Groups 2
- Alexa lance un moteur de recherche d'images
- Exalead dialogue sur le nouveau forum Exalead de WebRankInfo
- Google Présentations, une sorte de Powerpoint en ligne et gratuit
- Création d'un petit moteur de recherche...
- Creation d'un groupe de discussion sur la RP.
- Groupe de discussion: Technologies de recherche sur Internet
- Recherche une discussion sur des ressources images
- [Moteur] RefSeek : moteur de recherche académique
- Projet de création d'un moteur OPEN-SOURCE
- Recherche base de données spécifique [Moteur de recherche]
- recherche script pour un moteur de recherche
- Recherche moteur de recherche interne
- Annuaire de recherche... moteur de recherche ???
- Creation de boite de recherche multisites
- Création de pages pour recherche interne
- Toujours création simple boite de recherche
- Adsense Recherche Améliorée Nouvelle Création en Panne ?
- Moteur de recherche...
Consultez la description détaillée des produits ou services de Google suivants : Google Présentations, Google SearchMash, Marques de Google
- Logiciel d'analyse du positionnement
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés. - Transformer des textes non cliquables en liens
Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).
Qui est en ligne
Utilisateurs parcourant ce forum: 1-sponsor et 0 invités



le forum