probleme pour parser du xml

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


copyme
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 159
Inscription: Dim Mar 05, 2006 11:01

probleme pour parser du xml

Message le Sam Mar 25, 2006 14:38

Bonjour,

J'ai un probleme pour parser du xml qui n'est pas valide. J'ai réussi à récupérer les pages du dictionnaires français qui est dans le domaine publique. Je voudrais le parser pour insérer tous ca dans une bdd mais leur xml et vraiement pourri car pas trop conforme ca mélange du html et du xml j'ai vraiement pas réussi. Pouvez-vous m'aider ? attention cest assez chiadé

Voila un exemple d'article ( l'ensemble fait 24Mo )

Code: Tout sélectionner
<biblio hw="A" cat="n. m.">
<p>
<font size="+1">A.</font size="+1">
<Xpage n="1:1">
<CAT>n. m.</CAT> La premi&egrave;re lettre de notre alphabet.<BR>
Elle repr&eacute;sente une des voyelles. <I>La<BR>
lettre</I> A. <I>Un grand</I> A. <I>Un petit</I> a. <I>Un</I> A <I>majuscule.<BR>
Un</I> a <I>romain. Un a italique. Des</I> a <I>mal<BR>
form&eacute;s. La voyelle</I> A. A <I>est ferm&eacute; dans</I> Bl&acirc;me.<BR>
A <I>est ouvert dans</I> Glace. A, <I>dans les mots</I><BR>
Casuel, larron, etc., <I>a un son interm&eacute;diaire.</I><BR>
A <I>ne se prononce pas ordinairement dans</I> Ao&ucirc;t<BR>
<I>et ne se prononce jamais dans</I> Sa&ocirc;ne.<BR>
<p><DD>
<I>Une panse d'</I>a, La premi&egrave;re partie d'un<BR>
petit <I>a,</I> dans l'&eacute;criture ordinaire, la partie<BR>
arrondie de l'<I>a</I> qui a la forme d'une panse.<BR>
<p><DD>
Prov., <I>N'avoir pas fait une panse d'</I>a,<BR>
N'avoir rien &eacute;crit, rien copi&eacute; de ce qu'on<BR>
devait &eacute;crire, copier; et figur&eacute;ment N'avoir<BR>
rien compos&eacute;, n'&ecirc;tre point auteur. <I>Depuis<BR>
deux jours, mon copiste n'a pas fait une panse<BR>
d'</I>a. <I>Il laisse croire que cet ouvrage est de lui;<BR>
mais il n'en a pas fait une panse d'</I>a, <I>il n'y a<BR>
pas fait une panse d'</I>a.<BR>
<p><DD>
Fam., <I>Ne savoir ni A ni B,</I> Ne savoir pas<BR>
lire; et figur&eacute;ment &Ecirc;tre fort ignorant.<BR>



Comme vous voyez il feme pas les balises alors je sais pas comment faire pouvez-vous m'aider ? :(

Merci


mamat-
WRInaute impliqué
WRInaute impliqué
 
Messages: 360
Inscription: Lun Oct 18, 2004 14:12

Message le Sam Mar 25, 2006 19:36

Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD


copyme
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 159
Inscription: Dim Mar 05, 2006 11:01

Message le Dim Mar 26, 2006 1:18

mamat- a écrit:Hé bien justement c'est là que ça coince puisque pour le parser il DOIT a tout prix être correct sémantiquement... tu as un soucis, ou alors tu le scan et répare en php avant de le parser mais bonjour le stress du serveur ;oD


cest a dire comment le réparer ?


dd32
Modérateur
Modérateur
 
Messages: 3262
Inscription: Ven Sep 09, 2005 10:21

Message le Dim Mar 26, 2006 1:46

faut avoir le schéma de la page enfin...savoir les balises utilisées quoi.. et s'arranger pour les corriger ou fermer les balises non fermées mais comme dit mamat-, faut être patient :)


copyme
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 159
Inscription: Dim Mar 05, 2006 11:01

Message le Mar Mar 28, 2006 10:33

dd32 a écrit:faut avoir le schéma de la page enfin...savoir les balises utilisées quoi.. et s'arranger pour les corriger ou fermer les balises non fermées mais comme dit mamat-, faut être patient :)


Personne aurait une petite solution à me proposer j'y arrive pas :(


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: dudo et 0 invités