Annuaire hybride

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

ouechouech
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 2
Inscription: 16 Juil 2004

Annuaire hybride

Message le Lun Déc 19, 2005 13:46

Bonjour,
j'aurais besoin d'un avis sur le développement de mon annuaire d'un genre un peu particulier.

En effet, outre ses fonctions d'annuaire classique (c'est netref 5 pour ceux qui connaissent), je lui ai adjoint un crawler afin d'augmenter largement la pertinence du moteur de recherche et de chercher en profondeur sur les sites référencés.

Ainsi lors de l'ajout d'un site, on peut ainsi spacifier la profondeur de crawl, des url pages spécifiques à indexer. Le crawl est effectué par un batch linux.

Le but n'est pas de concurencer Google :lol: mais plutôt d'indexer quelques pages stratégiques de sites (toutes les pages d'information) avec une limite de 1Mo à 10 Mo par site.

Le tout étant de conserver une relation de confiance avec les sites indexés et miser davantages sur de la recherche macro et non exhaustive comme un vrai moteur.

Cette version est en développement mais j'aurais souhaité avoir votre avis sur le principe.

URL de test : -http://www.netref.fr/~netrefdev/Netref5/
N'hésitez pas à ajouter site, ils seront crawlés dès la prochaine séance de barbotage.

sgaze
WRInaute impliqué
WRInaute impliqué
 
Messages: 538
Inscription: 2 Fév 2004

Message le Lun Déc 19, 2005 15:18

Tes intentions sont de bouffer notre bande passante pour alimenter un "scraper site" ?

Je rêve. Ouvrez les honey pots !

ouechouech
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 2
Inscription: 16 Juil 2004

Message le Lun Déc 19, 2005 16:42

tu as tout compris, l'objectif est de saturer la bande passante d'un maximum de site... je suis déja demasqué.

non, le but est de recuperer quelques données fortement descriptives du site avec idéalement quelques informations sur la localisation, les contacts, les news (rss), etc. et ce d'une taille max de quelques mo par site.

La période de crawl est paramétrable par site et si un site n'est pas d'accord pour sefaire crawler, il ne s'inscrit pas ou met un fichier classique robots.txt.

il sera ainsi possible de créer un annuaire pertinent sur une thématique grâce à un vrai moteur de recherche.

spidetra
WRInaute passionné
WRInaute passionné
 
Messages: 1500
Inscription: 7 Juil 2003

Message le Lun Déc 19, 2005 18:11

sgaze a écrit:Tes intentions sont de bouffer notre bande passante pour alimenter un "scraper site" ?

Je rêve. Ouvrez les honey pots !


Le couplage d'un annuaire et d'un crawler est une technique classique pour crawler en profondeur un périmètre donné.
L'objectif est souvent la mise en place d'un moteur thématique.

Et comme le dit ouechouech, un simple robots.txt permet d'interdire le crawl d'un site.

A lui maintenant de
- respecter le "Robots Standard Exclusion"
- crawler en "mode poli" pour ne pas surcharger un serveur
- Indiquer sur une page le nom de son Bot et les règles pour l'interdire
- mettre une signature lors du crawl : UserAgent : LeBotQuiVaBien/1.0 (+http://www.example.com/bot.html)


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité