Exporter les résultats Google comme avec Yahoo

Consultez la formation Google Maps, News, Images de WebRankInfo / Ranking Metrics

klintistwood
Nouveau WRInaute
 
Messages: 20
Inscription: Jeu Oct 25, 2007 22:07

Exporter les résultats Google comme avec Yahoo

Message le Mar Avr 01, 2008 17:19

Bonjour à tous,

J'ai fouillé le catalogue API de Google à la recherche d'une API qui me permettrait d'exporter les résultats de recherche. J'ai vu qu'une API existait mais qu'on ne distribuait plus de cliés pour l'utiliser :-( Dans Yahoo, il existe une possibilité d'exporter des résultats en fichier TSV, c'est pas mal du tout, ça répond assez bien à ce que je voudrais faire mais pour mes besoins Yahoo semble indexer moins de pages que Google.

J'ai essayé d'utiliser Google Alert sur les domaines pour lesquels j'aimerais être avertis des changements et je reçois effectivement des alertes mais elles ne m'apportent rien car la plupart du temps, je ne suis pas averti des changements et quand je reçois une alerte, c'est pour une url que je connais déjà.

Pour expliquer plus concretement mon besoin, voici un peu plus d'explication.
Mon site (http://www.mobilemultimedia.be) héberge des caractéristiques de téléphones portables et réunir ces informations me demande du temps de recherche. Ce que j'aimerais donc c'est de mettre en place quelque chose qui surveille l'apparition de nouveaux téléphones dans les répertoires où les constructeurs déposent habituellement les fichiers qui m'intéressent. Je peux le faire indirectement avec Yahoo via l'export en TSV mais comme je l'ai dit, Yahoo n'indexe pas assez ce genre d'information.

Quelqu'un a une idée?

Merci!
Laurent


webmasterlamogere
WRInaute accro
WRInaute accro
 
Messages: 1874
Inscription: Dim Déc 17, 2006 21:08

Message le Mar Avr 01, 2008 17:34

il n'y a pas de flux rss correspondant?

jcaron
WRInaute accro
WRInaute accro
 
Messages: 1196
Inscription: Ven Fév 13, 2004 20:33

Re: Exporter les résultats Google comme avec Yahoo

Message le Mar Avr 01, 2008 18:24

klintistwood a écrit:Mon site (http://www.mobilemultimedia.be) héberge des caractéristiques de téléphones portables et réunir ces informations me demande du temps de recherche. Ce que j'aimerais donc c'est de mettre en place quelque chose qui surveille l'apparition de nouveaux téléphones dans les répertoires où les constructeurs déposent habituellement les fichiers qui m'intéressent.


Si tu sais déjà où ils mettent les infos, pourquoi passer par Google ou Yahoo? Tu pourrais aller directement au bon endroit voir ce que tu y trouves...

Sinon si tu as un nombre pas trop élevé de résultats, rien ne t'empêche d'interroger (avec parcimonie) Google comme un utilisateur lambda et de parser le HTML pour trouver les liens externes...

A part ça, bon courage, pour être passé par là je sais qu'ils sortent des nouveaux modèles toutes les trois minutes (ou des nouvelles versions du même modèle...), que les specs sont difficiles à trouver, et surtout qu'elles sont souvent très incomplètes voire complètement fausses :-(

Jacques.

klintistwood
Nouveau WRInaute
 
Messages: 20
Inscription: Jeu Oct 25, 2007 22:07

Message le Mer Avr 02, 2008 7:52

merci pour vos réponses.

Jacques, je sais effectivement où ils mettent l'info mais ils n'autorisent bien évidemment pas le directory listing, ce serait trop facile :-( je suis donc obligé d'attendre qu"un moteur vienne indexer leurs fichiers. J'ai essayé de parser les résultats de Google mais quand j'ingère la page de résultat, j'ai Google qui s'énerve et qui me dit qu'il me soupçonne d'être un robot. Donc à moins qu'il existe une méthode particulière pour parser le html de Google, je me retrouve un peu coincé :-(

Laurent

jcaron
WRInaute accro
WRInaute accro
 
Messages: 1196
Inscription: Ven Fév 13, 2004 20:33

Message le Mer Avr 02, 2008 11:35

klintistwood a écrit:Jacques, je sais effectivement où ils mettent l'info mais ils n'autorisent bien évidemment pas le directory listing, ce serait trop facile :-( je suis donc obligé d'attendre qu"un moteur vienne indexer leurs fichiers.


Si le moteur l'indexe, c'est qu'il y a un lien quelque part... Même s'il n'y a pas de directory listing, il doit bien y avoir une page où ces fichiers sont liés... Ca peut être un peu plus compliqué et il peut y avoir plusieurs pages intermédiaires, mais bon...

Sinon les fichiers ont peut-être des noms avec des formats standard?

klintistwood a écrit:J'ai essayé de parser les résultats de Google mais quand j'ingère la page de résultat, j'ai Google qui s'énerve et qui me dit qu'il me soupçonne d'être un robot. Donc à moins qu'il existe une méthode particulière pour parser le html de Google, je me retrouve un peu coincé :-(


Ben là c'est pas tellement au niveau du parsing mais plutôt au niveau de la requête le problème, non? Moi j'ai une paire de trucs qui font quelques requêtes Google et les parsent et il ne m'a jamais dit qu'il me prenait pour un robot (bon, j'ai un "sleep 1" entre deux requêtes, ça peut aider...).

Jacques.

klintistwood
Nouveau WRInaute
 
Messages: 20
Inscription: Jeu Oct 25, 2007 22:07

Message le Mer Avr 02, 2008 21:55

Jacques, trouver la page d'origine serait le rêve mais je pense plutôt qu'ils doivent bosser avec un fichier sitemap ou un truc dans le genre, encore faut-il trouver où ils l'ont caché. Je ne comprends d'ailleurs pas pourquoi ils ne communiquent pas un peu plus à ce sujet. Les fichiers sont des fichiers xml mais qui ont un nom qui contient à chaque fois la marque et le modèle de téléphone donc pas possible de trouver une séquence qui permettrait de les rapatrier tous.

...par contre pour ta requete vers google, ça m'intéresse :-) que mets-tu dans ta requête ? J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 12351
Inscription: Dim Aoû 08, 2004 20:24

Message le Mer Avr 02, 2008 22:45

klintistwood a écrit:J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois.
parce que tu dois être sur un mutualisé et que d'autres sites sur la même ip jouent aussi au même "jeu" et donc ip blacklisté par gg

jcaron
WRInaute accro
WRInaute accro
 
Messages: 1196
Inscription: Ven Fév 13, 2004 20:33

Message le Jeu Avr 03, 2008 0:30

klintistwood a écrit:...par contre pour ta requete vers google, ça m'intéresse :-) que mets-tu dans ta requête ? J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois.


Déjà c'est généralement un GET, pas un POST :-) A part ça dans le cas présent j'utilise des requêtes que je récupère toutes faites (des referers), et puis je fais une requête toute bête avec rien de particulier et même pas un UA spécialement intelligent a priori (plutôt le genre monbot/1.0 en fait), et ça passe tout seul.

L'explication de Leonick est peut-être la bonne, je ne sais pas...

Jacques.

klintistwood
Nouveau WRInaute
 
Messages: 20
Inscription: Jeu Oct 25, 2007 22:07

Message le Jeu Avr 03, 2008 21:25

Leonick, j'ai fait les requetes à partir de mon serveur apache local sur mon pc donc j'imagine que le problème ne vient pas de là mais je n'y avais pas pensé, c'est pas bête!

Jacques, c'est vraiment très très con ce que je vais dire mais j'avais tout simplement pas pensé faire une requête en GET parce que je voulais éviter des conversions de caractères hasardeuses sur des variables comme le user agent. Je vais essayer ça ce week-end, merci d'avoir éclairé ma ptit lanterne :-)


Leonick
WRInaute accro
WRInaute accro
 
Messages: 12351
Inscription: Dim Aoû 08, 2004 20:24

Message le Jeu Avr 03, 2008 21:47

klintistwood a écrit:Leonick, j'ai fait les requetes à partir de mon serveur apache local sur mon pc donc j'imagine que le problème ne vient pas de là mais je n'y avais pas pensé, c'est pas bête!
en local, ça marche avec des get, mais faut pas trop abuser, car l'ip est bannie rapidement (genre 1 centaine de requêtes)

klintistwood
Nouveau WRInaute
 
Messages: 20
Inscription: Jeu Oct 25, 2007 22:07

Message le Dim Avr 06, 2008 13:50

merci les gars, j'ai réussi à faire ce que je voulais faire. Pour ceux que ça intéresse, voici un script permettant de récuperer les urls dans une page de résultat Google:

function GetToHost($link) {
$http_response = "";
$url = parse_url($link);
$fp = fsockopen($url[host], 80, $err_num, $err_msg, 30) or
die("Socket-open failed--error: ".$err_num." ".$err_msg);
fputs($fp, "GET $url[path]?$url[query] HTTP/1.0\r\n");
fputs($fp, "Host: host.org\r\n\r\n");
fputs($fp, "Connection: Close\r\n");
while(!feof($fp)) {
$http_response .= fgets($fp, 128);
}
fclose($fp);
return $http_response;
}

$test=GetToHost("http://www.google.com/search?hl=fr&num=100&q=VOTRE_SITE_A_CHERCHER");
echo $test;
$test=preg_match_all("%http://[a-zA-Z0-9\_\.\?\/\-]+\.(html|php|asp|AJOUTER ICI LES EXTENSIONS)%",$test,$matches);
echo "insert into inconnu (uaprof) values ";
foreach($matches[0] as $cle=>$val)
{
echo "('$val'),<br/>";

}


Et voilà!


Formation recommandée sur ce thème :

Formation Google Maps, Google News et Google Images : apprenez comment optimiser le référencement de votre site pour la recherche universelle et notamment Google Maps, Google Actualités et Google Images. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Trouver la position d'un site dans Yahoo
    Cet outil vous permet de vérifier si une ou plusieurs page(s) de votre site arrive(nt) dans les premiers résultats de Yahoo, pour certains mots-clés recherchés.
  • Logiciel de référencement AgentWebRanking
    AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités