Script de crawl de pages web


dadovb
WRInaute passionné
WRInaute passionné
 
Messages: 2050
Inscription: 22 Nov 2005

Script de crawl de pages web

Message le Jeu Aoû 17, 2006 15:38

Bonjour à tous,

Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ?

Merci d'avance


obi
WRInaute discret
WRInaute discret
 
Messages: 238
Inscription: 26 Juil 2006

Message le Jeu Aoû 17, 2006 15:52

Ca s'écrit assez facilement en php ça:
fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties

et si tu connais pas, c'est un bon exercice pour apprendre :wink:


dadovb
WRInaute passionné
WRInaute passionné
 
Messages: 2050
Inscription: 22 Nov 2005

Message le Jeu Aoû 17, 2006 16:07

Merci maitre, la force soit avec vous ! :)


obi
WRInaute discret
WRInaute discret
 
Messages: 238
Inscription: 26 Juil 2006

Message le Jeu Aoû 17, 2006 16:11

Voilà, visible ici pour qques temps:
http://www.esterel-technologies.com/flat.php
C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ...

Code: Tout sélectionner
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
<title>flattened page: http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
</head>
<body>
<?php
$h = fopen('http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303', 'r');
$contents = '';
while (!feof($h)) {
  $contents .= fread($h, 8192);
}

fclose($h);
echo strip_tags($contents);
?>
</body>
</html>


obi
WRInaute discret
WRInaute discret
 
Messages: 238
Inscription: 26 Juil 2006

Message le Jeu Aoû 17, 2006 16:16

Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là.


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités