je voudrais faire un robot d'indexation

Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics


angelus_2
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 179
Inscription: Lun Juil 19, 2004 18:24

je voudrais faire un robot d'indexation

Message le Mar Fév 22, 2005 15:56

bonjour, j'utilise le code en dessous pour récupérer la source d'une page (j'essaie de construire un petit robot sans prétention), seulement certains caractères passe mal, comment puis-je régler ce problème merci (inutile de faire un replace, tout les caractères sont remplacé par ?)
ps: je suis en asp

Dim texte
Dim xml_http
Set xml_http = Server.CreateObject("Microsoft.XMLHTTP")
xml_http.Open "GET", "http://www.lesite.com", False
xml_http.Send
texte = xml_http.responseText
Set xml_http = Nothing

response.write texte


olivieri
WRInaute passionné
WRInaute passionné
 
Messages: 889
Inscription: Lun Fév 03, 2003 17:30

Message le Mar Fév 22, 2005 16:00

Quels genres de caractères passent mal ?


angelus_2
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 179
Inscription: Lun Juil 19, 2004 18:24

Message le Mar Fév 22, 2005 16:05

tu ce qui est composé d'accent, donc é è bien sur mais d'autre chose sont coupés par exemple
variété il répond vari?s
hésitez par h?tez

tout ce qui est à base d'accent est remplacé par un ?


olivieri
WRInaute passionné
WRInaute passionné
 
Messages: 889
Inscription: Lun Fév 03, 2003 17:30

Message le Mar Fév 22, 2005 16:09

et pourquoi tu ne fait pas un

response.write server.urlencode(texte)

pour voir les caractères retournés

Est ce que le fichier que tu lis est en UTF ? Est ce un fichier XML ?


angelus_2
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 179
Inscription: Lun Juil 19, 2004 18:24

Message le Mar Fév 22, 2005 16:15

non cela ne marche pas

je lis en utf

j'ai même essayé
Dim texte
Dim xml_http
Set xml_http = Server.CreateObject("Microsoft.XMLHTTP")
xml_http.Open "GET", url, False
xml_http.setRequestHeader "Content-Type", "text/xml; charset=utf-8"
xml_http.Send
texte = xml_http.responseText
Set xml_http = Nothing


olivieri
WRInaute passionné
WRInaute passionné
 
Messages: 889
Inscription: Lun Fév 03, 2003 17:30

Message le Mar Fév 22, 2005 17:00

Oui et je suppose que tu affiche en ISO, ce qui explique le problème d'affichage. Si c'est ca, j'ai eu le cas avec les fichiers xml d'amazon et j'ai été obligé de me taper une fonction de conversion à la main pour les principaux caractères accentués, de mémoire ils étaient sous la forme ˜&un autre code bizarre;

petit-ourson
WRInaute passionné
WRInaute passionné
 
Messages: 843
Inscription: Lun Mai 31, 2004 15:19

Message le Mar Fév 22, 2005 21:45

J'ai eu ce même problème, en voulant faire un truc en asp alors que cela fonctionnait bien en vbscript.

Je n'ai aps trouvé de solutions.

arnaudf
Nouveau WRInaute
 
Messages: 3
Inscription: Lun Fév 28, 2005 0:03

Message le Lun Fév 28, 2005 0:45

Bonjour,

J'ai le même problème qu'angelus_2. Le problème est constaté lorsque je veux récupérer une page html via l'objet xmlhttp qui contient un caractère accentué en dur : le mot états s'affiche ?ts. Si le caractère accentué est codé en html tout se passe très bien : états s'affiche états .

J'ai aussi tenté des replaces sans succés, idem avec un htmlencode ou en utilisant l'objet MSXML2.ServerXMLHTTP à la place de Microsoft.XMLHTTP.

Crawl_url = request.querystring("lurl")
Set objCon = Server.CreateObject ("Microsoft.XMLHTTP")
'Set objCon = Server.CreateObject("MSXML2.ServerXMLHTTP")
objCon.Open "GET", Crawl_url, False, "", ""
objCon.SetRequestHeader "Content-type", "text/html"
objCon.Send
strPage = objCon.ResponseText
response.write strPage

Y-a-t-il quelque chose à définir dans le global.asa ?
Existe-t-il d'autres objects pour récupérer le source d'une page web ?

Merci


herveG
Modérateur
Modérateur
 
Messages: 9838
Inscription: Mer Mar 05, 2003 11:33

Message le Lun Fév 28, 2005 8:57

Bon, qui vient boire une biere avec moi.... On a encore trouvé es extraterrestres là....

Scusez pour le hors-sujet.... ! :)


angelus_2
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 179
Inscription: Lun Juil 19, 2004 18:24

Message le Lun Fév 28, 2005 9:12

je ne comprend pas ce que tu veux dire herveg


herveG
Modérateur
Modérateur
 
Messages: 9838
Inscription: Mer Mar 05, 2003 11:33

Message le Lun Fév 28, 2005 10:29

petit clin d´oeil à ce topic :

http://www.webrankinfo.com/forums/viewtopic_22055.htm

J ai un truc (idée de projet) à te proposer si tu veux en MP....

arnaudf
Nouveau WRInaute
 
Messages: 3
Inscription: Lun Fév 28, 2005 0:03

Message le Lun Fév 28, 2005 20:42

herveG, tu nous fais perdre notre temps : ton lien n'a rien à voir avec le sujet. Vas donc voir ailleurs si tu n'as pas de réponse à apporter.

Pour l'heure ma question est toujours d'actualité, si quelqu'un a une idée je suis preneur....

merci


Americas
WRInaute accro
WRInaute accro
 
Messages: 3380
Inscription: Mer Sep 24, 2003 11:49

Message le Lun Fév 28, 2005 20:47

herveG a écrit:Bon, qui vient boire une biere avec moi.... On a encore trouvé es extraterrestres là....

Scusez pour le hors-sujet.... ! :)


Moi je te comprend herveG... allons boire une bière et laissons-les discuter ensemble :lol:

arnaudf
Nouveau WRInaute
 
Messages: 3
Inscription: Lun Fév 28, 2005 0:03

Message le Lun Fév 28, 2005 22:59

Solution trouvée sur un autre site via l'object MSXML2.serverXMLHTTP.4.0 et sa méthode responsetext

sFile = "test.txt"
Crawl_url = request.querystring("lurl")

Set objXMLHTTP = CreateObject("MSXML2.serverXMLHTTP.4.0")

objXMLHTTP.Open "GET", Crawl_url , False
objXMLHTTP.Send

set strm1=createobject("adodb.stream")
With strm1
.type = 1
.open
.write objXMLHTTP.responsebody
.savetofile sFile, 2' adSaveCreateOverWrite
.close
End With

set strm2=createobject("adodb.stream")
With strm2
.type = 2
'.charset="euc-kr" 'Use any proper charset
.charset="iso-8859-1" 'Use any proper charset
.open
.loadfromFile "test.txt"
'msgbox .readText
.close
End With

A+


angelus_2
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 179
Inscription: Lun Juil 19, 2004 18:24

Message le Lun Fév 28, 2005 23:07

genial arnaudf, j'ai pas eu le temp d'essayer mais ça mérite surement un grand merci !

je voudrais faire un robot d'indexation

Formation recommandée sur ce thème :

Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par Julien Coquet, expert certifié officiellement par Google Analytics.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Feed Fetcher, Googlebot

  • Déterminer l'âge d'un site
    Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org).
  • Liste de sous-domaines
    Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités