probleme pour parser du xml
5 messages
• Page 1 sur 1
-

copyme - WRInaute discret

- Messages: 159
- Inscription: 5 Mar 2006
probleme pour parser du xml
Bonjour,
J'ai un probleme pour parser du xml qui n'est pas valide. J'ai réussi à récupérer les pages du dictionnaires français qui est dans le domaine publique. Je voudrais le parser pour insérer tous ca dans une bdd mais leur xml et vraiement pourri car pas trop conforme ca mélange du html et du xml j'ai vraiement pas réussi. Pouvez-vous m'aider ? attention cest assez chiadé
Voila un exemple d'article ( l'ensemble fait 24Mo )
Comme vous voyez il feme pas les balises alors je sais pas comment faire pouvez-vous m'aider ?
Merci
J'ai un probleme pour parser du xml qui n'est pas valide. J'ai réussi à récupérer les pages du dictionnaires français qui est dans le domaine publique. Je voudrais le parser pour insérer tous ca dans une bdd mais leur xml et vraiement pourri car pas trop conforme ca mélange du html et du xml j'ai vraiement pas réussi. Pouvez-vous m'aider ? attention cest assez chiadé
Voila un exemple d'article ( l'ensemble fait 24Mo )
- Code: Tout sélectionner
<biblio hw="A" cat="n. m.">
<p>
<font size="+1">A.</font size="+1">
<Xpage n="1:1">
<CAT>n. m.</CAT> La première lettre de notre alphabet.<BR>
Elle représente une des voyelles. <I>La<BR>
lettre</I> A. <I>Un grand</I> A. <I>Un petit</I> a. <I>Un</I> A <I>majuscule.<BR>
Un</I> a <I>romain. Un a italique. Des</I> a <I>mal<BR>
formés. La voyelle</I> A. A <I>est fermé dans</I> Blâme.<BR>
A <I>est ouvert dans</I> Glace. A, <I>dans les mots</I><BR>
Casuel, larron, etc., <I>a un son intermédiaire.</I><BR>
A <I>ne se prononce pas ordinairement dans</I> Août<BR>
<I>et ne se prononce jamais dans</I> Saône.<BR>
<p><DD>
<I>Une panse d'</I>a, La première partie d'un<BR>
petit <I>a,</I> dans l'écriture ordinaire, la partie<BR>
arrondie de l'<I>a</I> qui a la forme d'une panse.<BR>
<p><DD>
Prov., <I>N'avoir pas fait une panse d'</I>a,<BR>
N'avoir rien écrit, rien copié de ce qu'on<BR>
devait écrire, copier; et figurément N'avoir<BR>
rien composé, n'être point auteur. <I>Depuis<BR>
deux jours, mon copiste n'a pas fait une panse<BR>
d'</I>a. <I>Il laisse croire que cet ouvrage est de lui;<BR>
mais il n'en a pas fait une panse d'</I>a, <I>il n'y a<BR>
pas fait une panse d'</I>a.<BR>
<p><DD>
Fam., <I>Ne savoir ni A ni B,</I> Ne savoir pas<BR>
lire; et figurément Être fort ignorant.<BR>
Comme vous voyez il feme pas les balises alors je sais pas comment faire pouvez-vous m'aider ?
Merci
-

copyme - WRInaute discret

- Messages: 159
- Inscription: 5 Mar 2006
mamat- a écrit:Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD
cest a dire comment le réparer ?
-

copyme - WRInaute discret

- Messages: 159
- Inscription: 5 Mar 2006
dd32 a écrit:faut avoir le schéma de la page enfin...savoir les balises utilisées quoi.. et s'arranger pour les corriger ou fermer les balises non fermées mais comme dit mamat-, faut être patient
Personne aurait une petite solution à me proposer j'y arrive pas
5 messages
• Page 1 sur 1
Lectures recommandées sur ce thème :
Consultez la description détaillée des produits ou services de Google suivants : API Google Checkout
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités



