Comment "nettoyer" une page du texte non visible ?

Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !

Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


Malaiac
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 357
Inscription: 4 Mai 2005

Comment "nettoyer" une page du texte non visible ?

Message le Ven Déc 09, 2005 20:34

Question à trois francs :

Je cherche à extraire le texte "visible par les moteurs" d'une page web.

Je peux passer par un outil d'analyse de texte genre www.outiref.com mais il me sort du texte brut, un peu trop brut, sans mêmes les balises importantes pour les moteurs (h1, h2...)

Existe-t-il un outil qui sort le texte ainsi formaté ?

Et sinon, n'y a-t-il pas un développeur qui aurait la merveilleuse idée de créer un outil qui cracherait à partir d'une page web un résultat du genre :

Code: Tout sélectionner
<title>le titre de la page</title>
<description> une page web en voila qu'elle est belle</description>
<h1>une page hyper importante sur un sujet passionnant</h1>
<h2>rubrique 1</h2>
<h2>rubrique 2</h2>

spidetra
WRInaute passionné
WRInaute passionné
 
Messages: 1500
Inscription: 7 Juil 2003

Message le Ven Déc 09, 2005 21:02



Malaiac
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 357
Inscription: 4 Mai 2005

Message le Ven Déc 09, 2005 21:57

Ca existe autrement qu'en chinois ? ;-)


rottman
WRInaute passionné
WRInaute passionné
 
Messages: 2121
Inscription: 6 Jan 2004

Message le Sam Déc 10, 2005 11:47

Salut,

En php ça se fait assez simplement :

Tu récuperes la source d'une url :

Code: Tout sélectionner
$src = implode('',file('http://www.example.com'));


et tu enleves toutes les balises html que tu veux via strip_tags :

Code: Tout sélectionner
$src = strip_tags($src,'<h1>');


Par exemple !

http://fr2.php.net/strip_tags


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité