Recherche de script de crawler en php
7 messages
• Page 1 sur 1
- marciv
- WRInaute discret

- Messages: 100
- Inscription: 21 Sep 2005
Recherche de script de crawler en php
Bonjour tout le monde je sui sesepérement à la recherche d'un script ou d'une librairie phpsous licence GNU qui me permettrait de faire la chose suivant=>
1) Crawl d'un site internet integral ou partiel.
2) Extraction nom de pages, des liens y conduisant et du titre du lien.
3) Generation de l'arborescence en flux XML ou dans une base SQL.
4)Refonte des crawl partiels avec les résultats précédents.
(Ou cas ou je devrait faire tout moi même En dehors de la norme sitemap de chez google existe t'il un autre moyen de représenter l'arborescence d'un site en concervant la page de provenance ?).
Bon j suis dans le truc à Eplucher un peux tout c possible que je sois pas très clair mais si quelqu'un avait des pistes ou des script même différents de crawl (sans indexation des fichiers) je suis préneur.
++
1) Crawl d'un site internet integral ou partiel.
2) Extraction nom de pages, des liens y conduisant et du titre du lien.
3) Generation de l'arborescence en flux XML ou dans une base SQL.
4)Refonte des crawl partiels avec les résultats précédents.
(Ou cas ou je devrait faire tout moi même En dehors de la norme sitemap de chez google existe t'il un autre moyen de représenter l'arborescence d'un site en concervant la page de provenance ?).
Bon j suis dans le truc à Eplucher un peux tout c possible que je sois pas très clair mais si quelqu'un avait des pistes ou des script même différents de crawl (sans indexation des fichiers) je suis préneur.
++
Dernière édition par marciv le Mar Nov 14, 2006 21:01, édité 1 fois.
- foodstyling
- WRInaute occasionnel

- Messages: 305
- Inscription: 1 Nov 2002
sphider est un script de moteur de recherche php
- marciv
- WRInaute discret

- Messages: 100
- Inscription: 21 Sep 2005
a quoi ça sert
Et bien entre autre à developper un moteur thématique avec une indexation de mon cru
. pour cela il me faut un bon crawler rapide et efficace qui puisse comprendre les liens java et touner sur un PC classique.
Pour l'instant je me suis fait un script tournant avec des regex mais cela le ralentit considérablement.
Voici les regex :
donc je me penche sur strpos et stripos pour essayer de faire la même chose plus rapidement.
J'ai l'impression de réinventer la roue ! C'est pourqoi j'épérait que d'autre que moi avait déjà développé des classes php pour crawler des sites dont j'aurait pu m'inspirer.
Car de toute façon cela ne résout pas le problème pour les liens JAVA plus compliqués......
La solution peut surement venir d'un applet pour interpréter les liens mais là je cale....
Pour l'instant je me suis fait un script tournant avec des regex mais cela le ralentit considérablement.
Voici les regex :
- Code: Tout sélectionner
echo "<strong>Extraction des liens</strong>:<br> ";
$links1=run_preg($buffer,
"/(?:(?:src|href|url)\s*[=\(]\s*[\"'`])".
"([\+\w:?=@&\/#._;-]+)(?:[\s\"'`])/i",$domaine);
//$links2=run_preg($buffer,
//"/(?:window.open\s*\(\s*[\w-]*\s*[,]\s*[\"`'])".
//"([\+\w:?=@&\/#._;-]*)(?:[\"'`]\s*)/i",$domaine);
//$links=array_unique(array_merge($links1,$links2)); // fusion de tous les liens
donc je me penche sur strpos et stripos pour essayer de faire la même chose plus rapidement.
J'ai l'impression de réinventer la roue ! C'est pourqoi j'épérait que d'autre que moi avait déjà développé des classes php pour crawler des sites dont j'aurait pu m'inspirer.
Car de toute façon cela ne résout pas le problème pour les liens JAVA plus compliqués......
La solution peut surement venir d'un applet pour interpréter les liens mais là je cale....
- marciv
- WRInaute discret

- Messages: 100
- Inscription: 21 Sep 2005
crawler
Effectivement un mualisé pour un dédié c'est de la folie je pense que je vais en profiter pour monter mon propre serveur WEB le problème viendra surtout d'une limitation de la bande passante...
pour phpdig il me semble que le développement est au ralentit depuis longtemps
sphider me semble plus sympatique avec en bonus une présentation à la google suggest.
Néanmoins je ne pense pas que la pertinence du titre du lien soit pris par l'un ou l'autre ce que je trouve ennuyeux et de plus ils utilisent tout les deux des regex ce qui les ralentit énormément enfin je préfére développer ma propre indexation quitte à m'inspirer en fonction de la thématique du moteur je pense que c'est plus éfficace.
pour phpdig il me semble que le développement est au ralentit depuis longtemps
sphider est un script de moteur de recherche php
sphider me semble plus sympatique avec en bonus une présentation à la google suggest.
Néanmoins je ne pense pas que la pertinence du titre du lien soit pris par l'un ou l'autre ce que je trouve ennuyeux et de plus ils utilisent tout les deux des regex ce qui les ralentit énormément enfin je préfére développer ma propre indexation quitte à m'inspirer en fonction de la thématique du moteur je pense que c'est plus éfficace.
7 messages
• Page 1 sur 1
Lectures recommandées sur ce thème :
- recherche un script php
- Recherche script php
- recherche script php / librairie
- Recherche un script de gestion de fichiers en PHP
- Script de recherche interne PHP poussé
- Recherche d'un script en PHP AIDE!
- [résolu] recherche script webmail en php
- Recherche script php - recommandation de site
- recherche script en php des stats
- Script de recherche php interne, sans bdd
- Logiciel de référencement AgentWebRanking
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés. - Transformer des citations en liens
Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

