Recherche de script de crawler en php

marciv
WRInaute discret
WRInaute discret
 
Messages: 100
Inscription: 21 Sep 2005

Recherche de script de crawler en php

Message le Mar Nov 14, 2006 1:39

Bonjour tout le monde je sui sesepérement à la recherche d'un script ou d'une librairie phpsous licence GNU qui me permettrait de faire la chose suivant=>


1) Crawl d'un site internet integral ou partiel.
2) Extraction nom de pages, des liens y conduisant et du titre du lien.
3) Generation de l'arborescence en flux XML ou dans une base SQL.
4)Refonte des crawl partiels avec les résultats précédents.

(Ou cas ou je devrait faire tout moi même En dehors de la norme sitemap de chez google existe t'il un autre moyen de représenter l'arborescence d'un site en concervant la page de provenance ?).

Bon j suis dans le truc à Eplucher un peux tout c possible que je sois pas très clair mais si quelqu'un avait des pistes ou des script même différents de crawl (sans indexation des fichiers) je suis préneur.

++
Dernière édition par marciv le Mar Nov 14, 2006 21:01, édité 1 fois.

foodstyling
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 305
Inscription: 1 Nov 2002

Message le Mar Nov 14, 2006 10:11

sphider est un script de moteur de recherche php

marciv
WRInaute discret
WRInaute discret
 
Messages: 100
Inscription: 21 Sep 2005

script

Message le Mar Nov 14, 2006 21:00

MErci pour ta réponse mais je voulais me reserver l'indexation :-)

(sans indexation des fichiers

oxman
WRInaute discret
WRInaute discret
 
Messages: 118
Inscription: 21 Juin 2004

Message le Mar Nov 14, 2006 21:18

Ca va te servir à quoi ?

marciv
WRInaute discret
WRInaute discret
 
Messages: 100
Inscription: 21 Sep 2005

a quoi ça sert

Message le Mar Nov 14, 2006 22:28

Et bien entre autre à developper un moteur thématique avec une indexation de mon cru :wink: . pour cela il me faut un bon crawler rapide et efficace qui puisse comprendre les liens java et touner sur un PC classique.

Pour l'instant je me suis fait un script tournant avec des regex mais cela le ralentit considérablement.

Voici les regex :

Code: Tout sélectionner
echo "<strong>Extraction des liens</strong>:<br> ";
         $links1=run_preg($buffer,
         "/(?:(?:src|href|url)\s*[=\(]\s*[\"'`])".
            "([\+\w:?=@&\/#._;-]+)(?:[\s\"'`])/i",$domaine);
           //$links2=run_preg($buffer,
            //"/(?:window.open\s*\(\s*[\w-]*\s*[,]\s*[\"`'])".
            //"([\+\w:?=@&\/#._;-]*)(?:[\"'`]\s*)/i",$domaine);
         //$links=array_unique(array_merge($links1,$links2)); // fusion de tous les liens


donc je me penche sur strpos et stripos pour essayer de faire la même chose plus rapidement.

J'ai l'impression de réinventer la roue ! C'est pourqoi j'épérait que d'autre que moi avait déjà développé des classes php pour crawler des sites dont j'aurait pu m'inspirer.

Car de toute façon cela ne résout pas le problème pour les liens JAVA plus compliqués......

La solution peut surement venir d'un applet pour interpréter les liens mais là je cale....

marion17
WRInaute impliqué
WRInaute impliqué
 
Messages: 518
Inscription: 11 Nov 2006

Message le Mer Nov 15, 2006 6:10

phpdig fera ça a merveille

par contre il te faut un serveru dédié, sur un mutualisé c de la folie douce un crawler

marciv
WRInaute discret
WRInaute discret
 
Messages: 100
Inscription: 21 Sep 2005

crawler

Message le Mer Nov 15, 2006 11:54

Effectivement un mualisé pour un dédié c'est de la folie je pense que je vais en profiter pour monter mon propre serveur WEB le problème viendra surtout d'une limitation de la bande passante...

pour phpdig il me semble que le développement est au ralentit depuis longtemps

sphider est un script de moteur de recherche php


sphider me semble plus sympatique avec en bonus une présentation à la google suggest. :wink:

Néanmoins je ne pense pas que la pertinence du titre du lien soit pris par l'un ou l'autre ce que je trouve ennuyeux et de plus ils utilisent tout les deux des regex ce qui les ralentit énormément enfin je préfére développer ma propre indexation quitte à m'inspirer en fonction de la thématique du moteur je pense que c'est plus éfficace.


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités