Script de crawl de pages web

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


dadovb
WRInaute accro
WRInaute accro
 
Messages: 2038
Inscription: Mar Nov 22, 2005 9:50

Script de crawl de pages web

Message le Jeu Aoû 17, 2006 15:38

Bonjour à tous,

Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ?

Merci d'avance


obi
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 238
Inscription: Mer Juil 26, 2006 10:53

Message le Jeu Aoû 17, 2006 15:52

Ca s'écrit assez facilement en php ça:
fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties

et si tu connais pas, c'est un bon exercice pour apprendre :wink:


dadovb
WRInaute accro
WRInaute accro
 
Messages: 2038
Inscription: Mar Nov 22, 2005 9:50

Message le Jeu Aoû 17, 2006 16:07

Merci maitre, la force soit avec vous ! :)


obi
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 238
Inscription: Mer Juil 26, 2006 10:53

Message le Jeu Aoû 17, 2006 16:11

Voilà, visible ici pour qques temps:
http://www.esterel-technologies.com/flat.php
C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ...

Code: Tout sélectionner
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
<title>flattened page: http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
</head>
<body>
<?php
$h = fopen('http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303', 'r');
$contents = '';
while (!feof($h)) {
  $contents .= fread($h, 8192);
}

fclose($h);
echo strip_tags($contents);
?>
</body>
</html>


obi
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 238
Inscription: Mer Juil 26, 2006 10:53

Message le Jeu Aoû 17, 2006 16:16

Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là.


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Google Sitemaps



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités