Récupérer le texte d'un site pour le traduire

Nouveau WRInaute
Bonjour a tous,

je souhaite récupérer les texte d'un site web dans le but de le traduire. Ce n'est pas mon site mais j'ai l'autorisation de récupérer les textes (puisqu'on m'a demandé de le faire !). Seulement je ne sais pas comment parser le code et récupérer uniquement les textes et pas les balises html. J'ai vu qu'il existe des classes PHP, ou de gros logiciels un peu chers qui le font, mais peu etre que quelqu'un connait un petit logiciel facile qui pourrait m'être utile. Ou si quelqu'un connait d'autres méthodes que je n'ai pas évoqué, je suis preneur. Merci beaucoup

A++
 
Nouveau WRInaute
Salut jeanvilou,

En php, tu peux essayer la fonction
strip_tags($chaine);

Elle enlève toutes les balises php et html de la chaîne de caractère.
 
Nouveau WRInaute
Merci !

en fait je connaissais déja la fonction, mais je ne souhaite pas me lancer dans un dev PHP (il faudrait suivre tous les liens du site, récupérer le texte de chaque page etc etc) en fait je cherche plutot une solution déja existante même si elle est payante.
 
WRInaute accro
jeanvilou a dit:
Bonjour a tous,

je souhaite récupérer les texte d'un site web dans le but de le traduire. Ce n'est pas mon site mais j'ai l'autorisation de récupérer les textes (puisqu'on m'a demandé de le faire !). Seulement je ne sais pas comment parser le code et récupérer uniquement les textes et pas les balises html. J'ai vu qu'il existe des classes PHP, ou de gros logiciels un peu chers qui le font, mais peu etre que quelqu'un connait un petit logiciel facile qui pourrait m'être utile. Ou si quelqu'un connait d'autres méthodes que je n'ai pas évoqué, je suis preneur. Merci beaucoup

A++

Salut,

j'ai il y a quelques années écrit un petit programme nommé html2text qui fait ca :

- il parse tout document html/php
- en extrait le texte "noble"
- et le restitue soit dans un document soit dans une table de base de données

Comme c'est fait maison, je sais sans pb le mettre en boucle pour traiter en une vague 5000 pages si il faut (meme si en sous dossiers en cascade ... j'ai aussi un bout de code qui liste les doc d'une arborescence sur le disque ... ouhh que de souvenir ... algo récursifs and co :) ).

Seul probleme :

- C'est ecrit avec l'outil 4D et donc pour le lancer faut avoir 4D sur sa becanne et donc tu peux pas le lancer toi (faut que je te le fasse).

Question :

- tu as combien de pages a traiter

Suggestion :

Si c'est pour faire de la traduc, il serait judicieux :

a) au moment de l'extraction du texte, remplacer le texte original par une balise de type (TTnnnnn) permettant de numéroter chaque texte
b) reporter ces balise dans le fichier texte generé

Comme cela tu traduit sans toucher aux balises et une fois traduit une moulinette inverse va remettre le bon texte traduit à la place de la balise (et tu recupères un site traduit).

Plus fin : une fois les textes extraits et traduit, tu les laisse hors des pages et tu les appeles par des includes (suffit de remplacer les balise par l'include) ... comme ca si tu veux faire une autre langue, tu as plus rien a faire que traduire et passer une variable globale FR/ES/GB etc pour accéder aux documents de traduction voulu ....

Enfin voila des pistes sans trop te casser le fion dans la BDD ...
 
Nouveau WRInaute
Hello Zecat !

merci pour ton message, en effet c'est exactement ce que je cherche mais en récusif, c'est a dire de récupérer toutes les pages du site.... par contre le fait d'avoir 4D (ca ne me parle pas) semble etre un frein a l'utilisation du soft...

mais imaginons que ton soft pourrais parser toutes les pages sans exceptions et que je puisse le lancer moi, il ferait quel prix ?
 
WRInaute accro
PS : en relisant, j'affine ...

Toutes les traducs d'une page donnée peuvent etre rangées dans un doc sous forme de tableau
C'est ce tableau qui est appelé par include en debut de chaque page
Ensuite on accede au éléments du tableau

Ca simplifie bien le stockage des traduc sous le meme nom que les pages avec juste un suffixe en plus.

Bref y a plein de voies possibles.

Certes le mieux eut été d'avoir concu le site des le départ en vue de sa localisation dans d'autres langues ... :wink:
 
Discussions similaires
Haut