PHP/ Déterminer le contenu utile d'une page Web

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


ecocentric
WRInaute accro
WRInaute accro
 
Messages: 3577
Inscription: Mar Fév 10, 2004 16:40

PHP/ Déterminer le contenu utile d'une page Web

Message le Jeu Aoû 16, 2007 11:16

Vous avez peut-être déjà croisé des projets qui, comme Majestic 12, travaillent à identifier le contenu utile HTML des pages indexées (= virer les headers, les footers, etc).

Avez-vous des informations / des idées sur les algorithmes qui peuvent être utilisés à cette fin?

bigjet
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 211
Inscription: Dim Nov 21, 2004 18:30

Message le Jeu Aoû 16, 2007 12:13


Didier_S
WRInaute passionné
WRInaute passionné
 
Messages: 563
Inscription: Mar Aoû 24, 2004 22:25

Message le Jeu Aoû 16, 2007 13:21

bigjet: Pas évident... strip_tags enlève les tags, mais pas leur contenu... ici, on parle de séparer "contenu parasite" et "contenu texte" ;)

A première vue, je pencherais pour le calcul du poids des balises par rapport au texte. Ca permet d'enlever facilement tout ce qui est nav, elements graphiques, etc (qui demandent plus de balises que le contenu texte)

bigjet
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 211
Inscription: Dim Nov 21, 2004 18:30

Message le Jeu Aoû 16, 2007 13:53

Au temps pour moi, j'avais lu le post en diagonale :oops:


sureau
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 192
Inscription: Lun Mar 07, 2005 15:25

Message le Jeu Aoû 16, 2007 14:36

Perso, je parserais plusieurs pages, et je retirais les élements récurrents (ce qui est présent sur toutes les pages est surement un header, footer ou menu).


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Base

  • Calcul du taux de backlinks vers pages internes
    Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités