Creation d'un bot analyseur
11 messages • Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
Creation d'un bot analyseur
Salut,
pour être clair,
je cherche à créer un bot, qui a partir d'une liste de liens externes dans ma table, va analyser le contenu de chaque lien (sites externe au mien).
Le bot aurait la fonction de detecter un type de phrase du genre "ce produit n'existe plus".
si le bot detecte cette phrase, alors il effecerait la ligne correspondante dans ma table.
Je suis completement ignard dans le domaine des bots. Si quelqu'un a une piste de départ à me fournir, un script approchant (php si possible), ca serait coool !
merci
pour être clair,
je cherche à créer un bot, qui a partir d'une liste de liens externes dans ma table, va analyser le contenu de chaque lien (sites externe au mien).
Le bot aurait la fonction de detecter un type de phrase du genre "ce produit n'existe plus".
si le bot detecte cette phrase, alors il effecerait la ligne correspondante dans ma table.
Je suis completement ignard dans le domaine des bots. Si quelqu'un a une piste de départ à me fournir, un script approchant (php si possible), ca serait coool !
merci
Tu analyses d'abord le code html des pages à analyser, t'essaies de trouver un truc qu'il n'y a que sur les pages où le produit n'existe plus.
Après tu fais un file_get_contents et avec des regexp tu analyses le code. Si ca renvoie true > tu garde, si ca renvoie false > tu jette
Après tu fais un file_get_contents et avec des regexp tu analyses le code. Si ca renvoie true > tu garde, si ca renvoie false > tu jette
salut merci loletech pour ta référence.
merci mowmow, ouais la démarche je l'ai bien identifié c'est bien cela, mais ce n'est pas la démarche le problème, c'est le moyen de le faire.
Surtout "Tu analyses d'abord le code html des pages à analyser",
c'est surtout cela, je ne sais pas comment faire
merci mowmow, ouais la démarche je l'ai bien identifié c'est bien cela, mais ce n'est pas la démarche le problème, c'est le moyen de le faire.
Surtout "Tu analyses d'abord le code html des pages à analyser",
c'est surtout cela, je ne sais pas comment faire
Affichage > Source
Tu dois répérer un certains enchaînement de code html, pour répérer l'endroit précis. Mais bon c'est pas obligé, après tu peux juste vérifier l'existance de la chîne "ce produit n'existe plus" pour être fixé.
Tu dois répérer un certains enchaînement de code html, pour répérer l'endroit précis. Mais bon c'est pas obligé, après tu peux juste vérifier l'existance de la chîne "ce produit n'existe plus" pour être fixé.
Excellent merci mowmow
j'ai pu trouver des pistes qui m'a amener à ce script
<?
$selection="requete pour lister les produits'";
$resultdeux = mysql_db_query($free_login,$selection);
WHILE ($post2=mysql_fetch_array($resultdeux))
{
$fp = fopen("". $post2["url"] ."", "r"); // page html sur internet
$chaine = 'phrase à detecter'; // chaine à rechercher (@, \.fr, \.com, ...)
$ligne=0;
while (!feof($fp))
{ $page = fgets($fp, 4096);
$ligne = $ligne+1;
if ($news = eregi($chaine, $page, $regs)) {
echo "PRODUIT n° ". $post2["clef"] ."<br>";
}
}
}
?>
j'ai pu trouver des pistes qui m'a amener à ce script
<?
$selection="requete pour lister les produits'";
$resultdeux = mysql_db_query($free_login,$selection);
WHILE ($post2=mysql_fetch_array($resultdeux))
{
$fp = fopen("". $post2["url"] ."", "r"); // page html sur internet
$chaine = 'phrase à detecter'; // chaine à rechercher (@, \.fr, \.com, ...)
$ligne=0;
while (!feof($fp))
{ $page = fgets($fp, 4096);
$ligne = $ligne+1;
if ($news = eregi($chaine, $page, $regs)) {
echo "PRODUIT n° ". $post2["clef"] ."<br>";
}
}
}
?>
-

ecocentric - WRInaute accro

- Messages: 3577
- Inscription: Mar Fév 10, 2004 16:40
scores a écrit:Malheuresement c'est un peu lourdo comme méthode,
ya pas moyen d'alleger le chargement de la page cible (genre ne telecharger que le numero de la ligne identifiée contenant la phrase cherchée ?)
Non, il faut charder par file_get_contents puis analyser.
j'ai remplacé
$fp = fopen("". $post2["url"] ."", "r");
$chaine = 'phrase à detecter';
if ($news = eregi($chaine, $page, $regs)) {
par
$fp = file_get_contents("". $post2["url"] .""); // page html sur internet
$chaine = 'phrase à detecter';
if ($news = eregi($chaine,$fp))
ca marche, mais ca ne change strcitement rien à la lourdeur du truc. J'ai cherché voir si y'avait pas des délimiteurs pour file_get_contents, mais j'arrive pas à m'en servir
$fp = fopen("". $post2["url"] ."", "r");
$chaine = 'phrase à detecter';
if ($news = eregi($chaine, $page, $regs)) {
par
$fp = file_get_contents("". $post2["url"] .""); // page html sur internet
$chaine = 'phrase à detecter';
if ($news = eregi($chaine,$fp))
ca marche, mais ca ne change strcitement rien à la lourdeur du truc. J'ai cherché voir si y'avait pas des délimiteurs pour file_get_contents, mais j'arrive pas à m'en servir
renseigne toi sur la librairie curl tu peut l'utiliser si elle est installer comme extention de php elle permet de simuler un navigateur ou un robot ...
sous PHP les fonction de cette librairie commancent toutes par curl_ : curl_setopt, curl_exec, curl_close
sous PHP les fonction de cette librairie commancent toutes par curl_ : curl_setopt, curl_exec, curl_close
11 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par Julien Coquet, expert certifié officiellement par Google Analytics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot)
- API Google Maps en Flash / Flex
- Optimiser son référencement sur Wikio
- Mise à jour de Google Images (Juillet 2006)
- Mise à jour de Google Images (16/04/2006)
- Google rejoint le projet Open AJAX créé par IBM
- Deepfish
- Les blogs (Search Engine Strategies 2004 - San José)
- Moteur de recherche de flux RSS / Atom
- Google crawle les fichiers CSS
Consultez la description détaillée des produits ou services de Google suivants : Google Présentations
- Test HTTP header
Cet outil vous permet de connaître le code HTTP renvoyé par le serveur pour une page donnée. - Calcul d'indice de densité
Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité








le forum