Annuaire hybride
4 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
- ouechouech
- Nouveau WRInaute

- Messages: 2
- Inscription: 16 Juil 2004
Annuaire hybride
Bonjour,
j'aurais besoin d'un avis sur le développement de mon annuaire d'un genre un peu particulier.
En effet, outre ses fonctions d'annuaire classique (c'est netref 5 pour ceux qui connaissent), je lui ai adjoint un crawler afin d'augmenter largement la pertinence du moteur de recherche et de chercher en profondeur sur les sites référencés.
Ainsi lors de l'ajout d'un site, on peut ainsi spacifier la profondeur de crawl, des url pages spécifiques à indexer. Le crawl est effectué par un batch linux.
Le but n'est pas de concurencer Google
mais plutôt d'indexer quelques pages stratégiques de sites (toutes les pages d'information) avec une limite de 1Mo à 10 Mo par site.
Le tout étant de conserver une relation de confiance avec les sites indexés et miser davantages sur de la recherche macro et non exhaustive comme un vrai moteur.
Cette version est en développement mais j'aurais souhaité avoir votre avis sur le principe.
URL de test : -http://www.netref.fr/~netrefdev/Netref5/
N'hésitez pas à ajouter site, ils seront crawlés dès la prochaine séance de barbotage.
j'aurais besoin d'un avis sur le développement de mon annuaire d'un genre un peu particulier.
En effet, outre ses fonctions d'annuaire classique (c'est netref 5 pour ceux qui connaissent), je lui ai adjoint un crawler afin d'augmenter largement la pertinence du moteur de recherche et de chercher en profondeur sur les sites référencés.
Ainsi lors de l'ajout d'un site, on peut ainsi spacifier la profondeur de crawl, des url pages spécifiques à indexer. Le crawl est effectué par un batch linux.
Le but n'est pas de concurencer Google
Le tout étant de conserver une relation de confiance avec les sites indexés et miser davantages sur de la recherche macro et non exhaustive comme un vrai moteur.
Cette version est en développement mais j'aurais souhaité avoir votre avis sur le principe.
URL de test : -http://www.netref.fr/~netrefdev/Netref5/
N'hésitez pas à ajouter site, ils seront crawlés dès la prochaine séance de barbotage.
- ouechouech
- Nouveau WRInaute

- Messages: 2
- Inscription: 16 Juil 2004
tu as tout compris, l'objectif est de saturer la bande passante d'un maximum de site... je suis déja demasqué.
non, le but est de recuperer quelques données fortement descriptives du site avec idéalement quelques informations sur la localisation, les contacts, les news (rss), etc. et ce d'une taille max de quelques mo par site.
La période de crawl est paramétrable par site et si un site n'est pas d'accord pour sefaire crawler, il ne s'inscrit pas ou met un fichier classique robots.txt.
il sera ainsi possible de créer un annuaire pertinent sur une thématique grâce à un vrai moteur de recherche.
non, le but est de recuperer quelques données fortement descriptives du site avec idéalement quelques informations sur la localisation, les contacts, les news (rss), etc. et ce d'une taille max de quelques mo par site.
La période de crawl est paramétrable par site et si un site n'est pas d'accord pour sefaire crawler, il ne s'inscrit pas ou met un fichier classique robots.txt.
il sera ainsi possible de créer un annuaire pertinent sur une thématique grâce à un vrai moteur de recherche.
- spidetra
- WRInaute passionné

- Messages: 1500
- Inscription: 7 Juil 2003
sgaze a écrit:Tes intentions sont de bouffer notre bande passante pour alimenter un "scraper site" ?
Je rêve. Ouvrez les honey pots !
Le couplage d'un annuaire et d'un crawler est une technique classique pour crawler en profondeur un périmètre donné.
L'objectif est souvent la mise en place d'un moteur thématique.
Et comme le dit ouechouech, un simple robots.txt permet d'interdire le crawl d'un site.
A lui maintenant de
- respecter le "Robots Standard Exclusion"
- crawler en "mode poli" pour ne pas surcharger un serveur
- Indiquer sur une page le nom de son Bot et les règles pour l'interdire
- mettre une signature lors du crawl : UserAgent : LeBotQuiVaBien/1.0 (+http://www.example.com/bot.html)
4 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Yahoo Maps API - 20-04-2006
- Google reçoit 1 million de candidatures par an ! - 25-01-2007
- Annuaire de sites sur Google - 22-04-2003
- Modification de vos sites dans l'annuaire - 16-01-2005
- Google rachète eBook Technologies Inc. (ETI) - 13-01-2011
- Annuaire WRI : intégration des flux XML des inscrits - 04-04-2005
- Une tablette Google rivale de l'iPad d'Apple - 12-05-2010
- Liste de bons annuaires - 06-01-2005
Consultez la description détaillée des produits ou services de Google suivants : Google Directory
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité

