probleme pour parser du xml
5 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
probleme pour parser du xml
Bonjour,
J'ai un probleme pour parser du xml qui n'est pas valide. J'ai réussi à récupérer les pages du dictionnaires français qui est dans le domaine publique. Je voudrais le parser pour insérer tous ca dans une bdd mais leur xml et vraiement pourri car pas trop conforme ca mélange du html et du xml j'ai vraiement pas réussi. Pouvez-vous m'aider ? attention cest assez chiadé
Voila un exemple d'article ( l'ensemble fait 24Mo )
Comme vous voyez il feme pas les balises alors je sais pas comment faire pouvez-vous m'aider ?
Merci
J'ai un probleme pour parser du xml qui n'est pas valide. J'ai réussi à récupérer les pages du dictionnaires français qui est dans le domaine publique. Je voudrais le parser pour insérer tous ca dans une bdd mais leur xml et vraiement pourri car pas trop conforme ca mélange du html et du xml j'ai vraiement pas réussi. Pouvez-vous m'aider ? attention cest assez chiadé
Voila un exemple d'article ( l'ensemble fait 24Mo )
- Code: Tout sélectionner
<biblio hw="A" cat="n. m.">
<p>
<font size="+1">A.</font size="+1">
<Xpage n="1:1">
<CAT>n. m.</CAT> La première lettre de notre alphabet.<BR>
Elle représente une des voyelles. <I>La<BR>
lettre</I> A. <I>Un grand</I> A. <I>Un petit</I> a. <I>Un</I> A <I>majuscule.<BR>
Un</I> a <I>romain. Un a italique. Des</I> a <I>mal<BR>
formés. La voyelle</I> A. A <I>est fermé dans</I> Blâme.<BR>
A <I>est ouvert dans</I> Glace. A, <I>dans les mots</I><BR>
Casuel, larron, etc., <I>a un son intermédiaire.</I><BR>
A <I>ne se prononce pas ordinairement dans</I> Août<BR>
<I>et ne se prononce jamais dans</I> Saône.<BR>
<p><DD>
<I>Une panse d'</I>a, La première partie d'un<BR>
petit <I>a,</I> dans l'écriture ordinaire, la partie<BR>
arrondie de l'<I>a</I> qui a la forme d'une panse.<BR>
<p><DD>
Prov., <I>N'avoir pas fait une panse d'</I>a,<BR>
N'avoir rien écrit, rien copié de ce qu'on<BR>
devait écrire, copier; et figurément N'avoir<BR>
rien composé, n'être point auteur. <I>Depuis<BR>
deux jours, mon copiste n'a pas fait une panse<BR>
d'</I>a. <I>Il laisse croire que cet ouvrage est de lui;<BR>
mais il n'en a pas fait une panse d'</I>a, <I>il n'y a<BR>
pas fait une panse d'</I>a.<BR>
<p><DD>
Fam., <I>Ne savoir ni A ni B,</I> Ne savoir pas<BR>
lire; et figurément Être fort ignorant.<BR>
Comme vous voyez il feme pas les balises alors je sais pas comment faire pouvez-vous m'aider ?
Merci
Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD
mamat- a écrit:Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD
cest a dire comment le réparer ?
dd32 a écrit:faut avoir le schéma de la page enfin...savoir les balises utilisées quoi.. et s'arranger pour les corriger ou fermer les balises non fermées mais comme dit mamat-, faut être patient
Personne aurait une petite solution à me proposer j'y arrive pas
5 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Google dépose 2 brevets pour AdSense
- Google Enterprise a son blog
- Le blog de Google Analytics
- Le blog officiel de Google Research
- Un (RSS) pour tous (les blogs officiels de Google)
- Le blog officiel de Google au Japon
- Le blog officiel de Google Custom Search (CSE)
- Le blog officiel de Google AdWords en français - Inside AdWords FR
- Annuaire WRI : intégration des flux XML des inscrits
- Brevet de Google sur le contenu dupliqué
- Parser XML
- Parser un xml simple
- Parser xml php
- Logiciel Parser de Xml
- parser un document xml
- Parser un xml ( durée du traitement )
- Parser XMl avec PHP 5
- Difficulté à parser du XML avec simpleXML()
- Parser un xml voluminueux sur plusieurs pages ?
- problem pour parser un flux xml avec magpierss
- Parser et mettre en page php un gros flux xml
- Parser XML balises sur plusieurs niveaux (API amazon)
- parser et sauver un flux XML dans une bdd > je sèche
Consultez la description détaillée des produits ou services de Google suivants : API Google Checkout
Qui est en ligne
Utilisateurs parcourant ce forum: dudo et 0 invités





le forum