Exporter les résultats Google comme avec Yahoo
11 messages • Page 1 sur 1
Consultez la formation Google Maps, News, Images de WebRankInfo / Ranking Metrics
- klintistwood
- Nouveau WRInaute
- Messages: 20
- Inscription: Jeu Oct 25, 2007 22:07
Exporter les résultats Google comme avec Yahoo
Bonjour à tous,
J'ai fouillé le catalogue API de Google à la recherche d'une API qui me permettrait d'exporter les résultats de recherche. J'ai vu qu'une API existait mais qu'on ne distribuait plus de cliés pour l'utiliser
Dans Yahoo, il existe une possibilité d'exporter des résultats en fichier TSV, c'est pas mal du tout, ça répond assez bien à ce que je voudrais faire mais pour mes besoins Yahoo semble indexer moins de pages que Google.
J'ai essayé d'utiliser Google Alert sur les domaines pour lesquels j'aimerais être avertis des changements et je reçois effectivement des alertes mais elles ne m'apportent rien car la plupart du temps, je ne suis pas averti des changements et quand je reçois une alerte, c'est pour une url que je connais déjà.
Pour expliquer plus concretement mon besoin, voici un peu plus d'explication.
Mon site (http://www.mobilemultimedia.be) héberge des caractéristiques de téléphones portables et réunir ces informations me demande du temps de recherche. Ce que j'aimerais donc c'est de mettre en place quelque chose qui surveille l'apparition de nouveaux téléphones dans les répertoires où les constructeurs déposent habituellement les fichiers qui m'intéressent. Je peux le faire indirectement avec Yahoo via l'export en TSV mais comme je l'ai dit, Yahoo n'indexe pas assez ce genre d'information.
Quelqu'un a une idée?
Merci!
Laurent
J'ai fouillé le catalogue API de Google à la recherche d'une API qui me permettrait d'exporter les résultats de recherche. J'ai vu qu'une API existait mais qu'on ne distribuait plus de cliés pour l'utiliser
J'ai essayé d'utiliser Google Alert sur les domaines pour lesquels j'aimerais être avertis des changements et je reçois effectivement des alertes mais elles ne m'apportent rien car la plupart du temps, je ne suis pas averti des changements et quand je reçois une alerte, c'est pour une url que je connais déjà.
Pour expliquer plus concretement mon besoin, voici un peu plus d'explication.
Mon site (http://www.mobilemultimedia.be) héberge des caractéristiques de téléphones portables et réunir ces informations me demande du temps de recherche. Ce que j'aimerais donc c'est de mettre en place quelque chose qui surveille l'apparition de nouveaux téléphones dans les répertoires où les constructeurs déposent habituellement les fichiers qui m'intéressent. Je peux le faire indirectement avec Yahoo via l'export en TSV mais comme je l'ai dit, Yahoo n'indexe pas assez ce genre d'information.
Quelqu'un a une idée?
Merci!
Laurent
-

webmasterlamogere - WRInaute accro

- Messages: 1874
- Inscription: Dim Déc 17, 2006 21:08
il n'y a pas de flux rss correspondant?
Re: Exporter les résultats Google comme avec Yahoo
klintistwood a écrit:Mon site (http://www.mobilemultimedia.be) héberge des caractéristiques de téléphones portables et réunir ces informations me demande du temps de recherche. Ce que j'aimerais donc c'est de mettre en place quelque chose qui surveille l'apparition de nouveaux téléphones dans les répertoires où les constructeurs déposent habituellement les fichiers qui m'intéressent.
Si tu sais déjà où ils mettent les infos, pourquoi passer par Google ou Yahoo? Tu pourrais aller directement au bon endroit voir ce que tu y trouves...
Sinon si tu as un nombre pas trop élevé de résultats, rien ne t'empêche d'interroger (avec parcimonie) Google comme un utilisateur lambda et de parser le HTML pour trouver les liens externes...
A part ça, bon courage, pour être passé par là je sais qu'ils sortent des nouveaux modèles toutes les trois minutes (ou des nouvelles versions du même modèle...), que les specs sont difficiles à trouver, et surtout qu'elles sont souvent très incomplètes voire complètement fausses
Jacques.
- klintistwood
- Nouveau WRInaute
- Messages: 20
- Inscription: Jeu Oct 25, 2007 22:07
merci pour vos réponses.
Jacques, je sais effectivement où ils mettent l'info mais ils n'autorisent bien évidemment pas le directory listing, ce serait trop facile
je suis donc obligé d'attendre qu"un moteur vienne indexer leurs fichiers. J'ai essayé de parser les résultats de Google mais quand j'ingère la page de résultat, j'ai Google qui s'énerve et qui me dit qu'il me soupçonne d'être un robot. Donc à moins qu'il existe une méthode particulière pour parser le html de Google, je me retrouve un peu coincé
Laurent
Jacques, je sais effectivement où ils mettent l'info mais ils n'autorisent bien évidemment pas le directory listing, ce serait trop facile
Laurent
klintistwood a écrit:Jacques, je sais effectivement où ils mettent l'info mais ils n'autorisent bien évidemment pas le directory listing, ce serait trop facileje suis donc obligé d'attendre qu"un moteur vienne indexer leurs fichiers.
Si le moteur l'indexe, c'est qu'il y a un lien quelque part... Même s'il n'y a pas de directory listing, il doit bien y avoir une page où ces fichiers sont liés... Ca peut être un peu plus compliqué et il peut y avoir plusieurs pages intermédiaires, mais bon...
Sinon les fichiers ont peut-être des noms avec des formats standard?
klintistwood a écrit:J'ai essayé de parser les résultats de Google mais quand j'ingère la page de résultat, j'ai Google qui s'énerve et qui me dit qu'il me soupçonne d'être un robot. Donc à moins qu'il existe une méthode particulière pour parser le html de Google, je me retrouve un peu coincé
Ben là c'est pas tellement au niveau du parsing mais plutôt au niveau de la requête le problème, non? Moi j'ai une paire de trucs qui font quelques requêtes Google et les parsent et il ne m'a jamais dit qu'il me prenait pour un robot (bon, j'ai un "sleep 1" entre deux requêtes, ça peut aider...).
Jacques.
- klintistwood
- Nouveau WRInaute
- Messages: 20
- Inscription: Jeu Oct 25, 2007 22:07
Jacques, trouver la page d'origine serait le rêve mais je pense plutôt qu'ils doivent bosser avec un fichier sitemap ou un truc dans le genre, encore faut-il trouver où ils l'ont caché. Je ne comprends d'ailleurs pas pourquoi ils ne communiquent pas un peu plus à ce sujet. Les fichiers sont des fichiers xml mais qui ont un nom qui contient à chaque fois la marque et le modèle de téléphone donc pas possible de trouver une séquence qui permettrait de les rapatrier tous.
...par contre pour ta requete vers google, ça m'intéresse
que mets-tu dans ta requête ? J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois.
...par contre pour ta requete vers google, ça m'intéresse
parce que tu dois être sur un mutualisé et que d'autres sites sur la même ip jouent aussi au même "jeu" et donc ip blacklisté par ggklintistwood a écrit:J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois.
klintistwood a écrit:...par contre pour ta requete vers google, ça m'intéresseque mets-tu dans ta requête ? J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois.
Déjà c'est généralement un GET, pas un POST
L'explication de Leonick est peut-être la bonne, je ne sais pas...
Jacques.
- klintistwood
- Nouveau WRInaute
- Messages: 20
- Inscription: Jeu Oct 25, 2007 22:07
Leonick, j'ai fait les requetes à partir de mon serveur apache local sur mon pc donc j'imagine que le problème ne vient pas de là mais je n'y avais pas pensé, c'est pas bête!
Jacques, c'est vraiment très très con ce que je vais dire mais j'avais tout simplement pas pensé faire une requête en GET parce que je voulais éviter des conversions de caractères hasardeuses sur des variables comme le user agent. Je vais essayer ça ce week-end, merci d'avoir éclairé ma ptit lanterne
Jacques, c'est vraiment très très con ce que je vais dire mais j'avais tout simplement pas pensé faire une requête en GET parce que je voulais éviter des conversions de caractères hasardeuses sur des variables comme le user agent. Je vais essayer ça ce week-end, merci d'avoir éclairé ma ptit lanterne
en local, ça marche avec des get, mais faut pas trop abuser, car l'ip est bannie rapidement (genre 1 centaine de requêtes)klintistwood a écrit:Leonick, j'ai fait les requetes à partir de mon serveur apache local sur mon pc donc j'imagine que le problème ne vient pas de là mais je n'y avais pas pensé, c'est pas bête!
- klintistwood
- Nouveau WRInaute
- Messages: 20
- Inscription: Jeu Oct 25, 2007 22:07
merci les gars, j'ai réussi à faire ce que je voulais faire. Pour ceux que ça intéresse, voici un script permettant de récuperer les urls dans une page de résultat Google:
function GetToHost($link) {
$http_response = "";
$url = parse_url($link);
$fp = fsockopen($url[host], 80, $err_num, $err_msg, 30) or
die("Socket-open failed--error: ".$err_num." ".$err_msg);
fputs($fp, "GET $url[path]?$url[query] HTTP/1.0\r\n");
fputs($fp, "Host: host.org\r\n\r\n");
fputs($fp, "Connection: Close\r\n");
while(!feof($fp)) {
$http_response .= fgets($fp, 128);
}
fclose($fp);
return $http_response;
}
$test=GetToHost("http://www.google.com/search?hl=fr&num=100&q=VOTRE_SITE_A_CHERCHER");
echo $test;
$test=preg_match_all("%http://[a-zA-Z0-9\_\.\?\/\-]+\.(html|php|asp|AJOUTER ICI LES EXTENSIONS)%",$test,$matches);
echo "insert into inconnu (uaprof) values ";
foreach($matches[0] as $cle=>$val)
{
echo "('$val'),<br/>";
}
Et voilà!
function GetToHost($link) {
$http_response = "";
$url = parse_url($link);
$fp = fsockopen($url[host], 80, $err_num, $err_msg, 30) or
die("Socket-open failed--error: ".$err_num." ".$err_msg);
fputs($fp, "GET $url[path]?$url[query] HTTP/1.0\r\n");
fputs($fp, "Host: host.org\r\n\r\n");
fputs($fp, "Connection: Close\r\n");
while(!feof($fp)) {
$http_response .= fgets($fp, 128);
}
fclose($fp);
return $http_response;
}
$test=GetToHost("http://www.google.com/search?hl=fr&num=100&q=VOTRE_SITE_A_CHERCHER");
echo $test;
$test=preg_match_all("%http://[a-zA-Z0-9\_\.\?\/\-]+\.(html|php|asp|AJOUTER ICI LES EXTENSIONS)%",$test,$matches);
echo "insert into inconnu (uaprof) values ";
foreach($matches[0] as $cle=>$val)
{
echo "('$val'),<br/>";
}
Et voilà!
11 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Maps, Google News et Google Images : apprenez comment optimiser le référencement de votre site pour la recherche universelle et notamment Google Maps, Google Actualités et Google Images. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Des remontées de Yahoo News dans les résultats web
- C'est officiel ! Yahoo! continue avec Google !
- Les crawlers de Yahoo!
- Yahoo! Instant Search
- Yahoo! affiche son Web Rank
- Yahoo acquiert Whereonearth
- L'annuaire Yahoo! (www.yahoo.fr)
- Yahoo! Site Match
- Services et outils de Yahoo! Search
- Tout savoir sur le nouveau Yahoo!
- exporter données google analytics
- Base MYSQL exporter
- Exporter des informations.
- News Yahoo, MSN et Google : Yahoo gagnant
- Exporter un champ d'une table Mysql
- exporter données fichier txt vers ma bdd ?
- Exporter et importer base de données phpbb de 30Mo ?
- Exporter une base de données SQL sur un dédié
- Exporter un tableau vers une feuille excel ?
- Exporter des données via php dans un fichier excel
- Firefox: Exporter (enregistrer) message Gmail en format text
- exporter les news php en java script
- exporter plusieurs dossiers de outlook vers gmail
- exporter mes contacts de gmail vers hotmail
- Exporter un dump de 160Mo, de OVH vers infomaniak
- Trouver la position d'un site dans Yahoo
Cet outil vous permet de vérifier si une ou plusieurs page(s) de votre site arrive(nt) dans les premiers résultats de Yahoo, pour certains mots-clés recherchés. - Logiciel de référencement AgentWebRanking
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


le forum