Creation d'un bot analyseur

Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics


scores
WRInaute impliqué
WRInaute impliqué
 
Messages: 467
Inscription: Dim Nov 24, 2002 19:12

Creation d'un bot analyseur

Message le Mer Juil 06, 2005 10:21

Salut,
pour être clair,
je cherche à créer un bot, qui a partir d'une liste de liens externes dans ma table, va analyser le contenu de chaque lien (sites externe au mien).

Le bot aurait la fonction de detecter un type de phrase du genre "ce produit n'existe plus".

si le bot detecte cette phrase, alors il effecerait la ligne correspondante dans ma table.

Je suis completement ignard dans le domaine des bots. Si quelqu'un a une piste de départ à me fournir, un script approchant (php si possible), ca serait coool !

merci


loletech
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 123
Inscription: Dim Avr 03, 2005 9:35

Message le Mer Juil 06, 2005 10:40

Un très bon livre sur le sujet chez O'Reilly : "Spidering Hacks".


mowmow
WRInaute passionné
WRInaute passionné
 
Messages: 975
Inscription: Mer Nov 03, 2004 9:40

Message le Mer Juil 06, 2005 13:10

Tu analyses d'abord le code html des pages à analyser, t'essaies de trouver un truc qu'il n'y a que sur les pages où le produit n'existe plus.
Après tu fais un file_get_contents et avec des regexp tu analyses le code. Si ca renvoie true > tu garde, si ca renvoie false > tu jette ;)


scores
WRInaute impliqué
WRInaute impliqué
 
Messages: 467
Inscription: Dim Nov 24, 2002 19:12

Message le Mer Juil 06, 2005 13:24

salut merci loletech pour ta référence.

merci mowmow, ouais la démarche je l'ai bien identifié c'est bien cela, mais ce n'est pas la démarche le problème, c'est le moyen de le faire.

Surtout "Tu analyses d'abord le code html des pages à analyser",
c'est surtout cela, je ne sais pas comment faire


mowmow
WRInaute passionné
WRInaute passionné
 
Messages: 975
Inscription: Mer Nov 03, 2004 9:40

Message le Mer Juil 06, 2005 14:24

Affichage > Source :mrgreen:

Tu dois répérer un certains enchaînement de code html, pour répérer l'endroit précis. Mais bon c'est pas obligé, après tu peux juste vérifier l'existance de la chîne "ce produit n'existe plus" pour être fixé.


scores
WRInaute impliqué
WRInaute impliqué
 
Messages: 467
Inscription: Dim Nov 24, 2002 19:12

Message le Mer Juil 06, 2005 16:34

Excellent merci mowmow
j'ai pu trouver des pistes qui m'a amener à ce script

<?

$selection="requete pour lister les produits'";
$resultdeux = mysql_db_query($free_login,$selection);
WHILE ($post2=mysql_fetch_array($resultdeux))
{
$fp = fopen("". $post2["url"] ."", "r"); // page html sur internet
$chaine = 'phrase à detecter'; // chaine à rechercher (@, \.fr, \.com, ...)
$ligne=0;
while (!feof($fp))
{ $page = fgets($fp, 4096);
$ligne = $ligne+1;
if ($news = eregi($chaine, $page, $regs)) {
echo "PRODUIT n° ". $post2["clef"] ."<br>";
}
}

}

?>


scores
WRInaute impliqué
WRInaute impliqué
 
Messages: 467
Inscription: Dim Nov 24, 2002 19:12

Message le Mer Juil 06, 2005 16:51

Malheuresement c'est un peu lourdo comme méthode,
ya pas moyen d'alleger le chargement de la page cible (genre ne telecharger que le numero de la ligne identifiée contenant la phrase cherchée ?)


ecocentric
WRInaute accro
WRInaute accro
 
Messages: 3577
Inscription: Mar Fév 10, 2004 16:40

Message le Mer Juil 06, 2005 19:13

scores a écrit:Malheuresement c'est un peu lourdo comme méthode,
ya pas moyen d'alleger le chargement de la page cible (genre ne telecharger que le numero de la ligne identifiée contenant la phrase cherchée ?)


Non, il faut charder par file_get_contents puis analyser.


scores
WRInaute impliqué
WRInaute impliqué
 
Messages: 467
Inscription: Dim Nov 24, 2002 19:12

Message le Jeu Juil 07, 2005 8:13

j'ai remplacé

$fp = fopen("". $post2["url"] ."", "r");
$chaine = 'phrase à detecter';
if ($news = eregi($chaine, $page, $regs)) {


par

$fp = file_get_contents("". $post2["url"] .""); // page html sur internet
$chaine = 'phrase à detecter';
if ($news = eregi($chaine,$fp))

ca marche, mais ca ne change strcitement rien à la lourdeur du truc. J'ai cherché voir si y'avait pas des délimiteurs pour file_get_contents, mais j'arrive pas à m'en servir


mowmow
WRInaute passionné
WRInaute passionné
 
Messages: 975
Inscription: Mer Nov 03, 2004 9:40

Message le Jeu Juil 07, 2005 12:10



aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 916
Inscription: Ven Avr 29, 2005 12:26

Message le Ven Juil 08, 2005 12:53

renseigne toi sur la librairie curl tu peut l'utiliser si elle est installer comme extention de php elle permet de simuler un navigateur ou un robot ...

sous PHP les fonction de cette librairie commancent toutes par curl_ : curl_setopt, curl_exec, curl_close


Formation recommandée sur ce thème :

Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par Julien Coquet, expert certifié officiellement par Google Analytics.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités