probleme pour parser du xml


copyme
WRInaute discret
WRInaute discret
 
Messages: 159
Inscription: 5 Mar 2006

probleme pour parser du xml

Message le Sam Mar 25, 2006 14:38

Bonjour,

J'ai un probleme pour parser du xml qui n'est pas valide. J'ai réussi à récupérer les pages du dictionnaires français qui est dans le domaine publique. Je voudrais le parser pour insérer tous ca dans une bdd mais leur xml et vraiement pourri car pas trop conforme ca mélange du html et du xml j'ai vraiement pas réussi. Pouvez-vous m'aider ? attention cest assez chiadé

Voila un exemple d'article ( l'ensemble fait 24Mo )

Code: Tout sélectionner
<biblio hw="A" cat="n. m.">
<p>
<font size="+1">A.</font size="+1">
<Xpage n="1:1">
<CAT>n. m.</CAT> La premi&egrave;re lettre de notre alphabet.<BR>
Elle repr&eacute;sente une des voyelles. <I>La<BR>
lettre</I> A. <I>Un grand</I> A. <I>Un petit</I> a. <I>Un</I> A <I>majuscule.<BR>
Un</I> a <I>romain. Un a italique. Des</I> a <I>mal<BR>
form&eacute;s. La voyelle</I> A. A <I>est ferm&eacute; dans</I> Bl&acirc;me.<BR>
A <I>est ouvert dans</I> Glace. A, <I>dans les mots</I><BR>
Casuel, larron, etc., <I>a un son interm&eacute;diaire.</I><BR>
A <I>ne se prononce pas ordinairement dans</I> Ao&ucirc;t<BR>
<I>et ne se prononce jamais dans</I> Sa&ocirc;ne.<BR>
<p><DD>
<I>Une panse d'</I>a, La premi&egrave;re partie d'un<BR>
petit <I>a,</I> dans l'&eacute;criture ordinaire, la partie<BR>
arrondie de l'<I>a</I> qui a la forme d'une panse.<BR>
<p><DD>
Prov., <I>N'avoir pas fait une panse d'</I>a,<BR>
N'avoir rien &eacute;crit, rien copi&eacute; de ce qu'on<BR>
devait &eacute;crire, copier; et figur&eacute;ment N'avoir<BR>
rien compos&eacute;, n'&ecirc;tre point auteur. <I>Depuis<BR>
deux jours, mon copiste n'a pas fait une panse<BR>
d'</I>a. <I>Il laisse croire que cet ouvrage est de lui;<BR>
mais il n'en a pas fait une panse d'</I>a, <I>il n'y a<BR>
pas fait une panse d'</I>a.<BR>
<p><DD>
Fam., <I>Ne savoir ni A ni B,</I> Ne savoir pas<BR>
lire; et figur&eacute;ment &Ecirc;tre fort ignorant.<BR>



Comme vous voyez il feme pas les balises alors je sais pas comment faire pouvez-vous m'aider ? :(

Merci


mamat-
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 373
Inscription: 18 Oct 2004

Message le Sam Mar 25, 2006 19:36

Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD


copyme
WRInaute discret
WRInaute discret
 
Messages: 159
Inscription: 5 Mar 2006

Message le Dim Mar 26, 2006 1:18

mamat- a écrit:Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD


cest a dire comment le réparer ?


dd32
Modérateur
Modérateur
 
Messages: 3379
Inscription: 9 Sep 2005

Message le Dim Mar 26, 2006 1:46

faut avoir le schéma de la page enfin...savoir les balises utilisées quoi.. et s'arranger pour les corriger ou fermer les balises non fermées mais comme dit mamat-, faut être patient :)


copyme
WRInaute discret
WRInaute discret
 
Messages: 159
Inscription: 5 Mar 2006

Message le Mar Mar 28, 2006 10:33

dd32 a écrit:faut avoir le schéma de la page enfin...savoir les balises utilisées quoi.. et s'arranger pour les corriger ou fermer les balises non fermées mais comme dit mamat-, faut être patient :)


Personne aurait une petite solution à me proposer j'y arrive pas :(


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités