PHP/ Déterminer le contenu utile d'une page Web


ecocentric
WRInaute accro
WRInaute accro
 
Messages: 3602
Inscription: 10 Fév 2004

PHP/ Déterminer le contenu utile d'une page Web

Message le Jeu Aoû 16, 2007 11:16

Vous avez peut-être déjà croisé des projets qui, comme Majestic 12, travaillent à identifier le contenu utile HTML des pages indexées (= virer les headers, les footers, etc).

Avez-vous des informations / des idées sur les algorithmes qui peuvent être utilisés à cette fin?

bigjet
WRInaute discret
WRInaute discret
 
Messages: 211
Inscription: 21 Nov 2004

Message le Jeu Aoû 16, 2007 12:13


Didier_S
WRInaute impliqué
WRInaute impliqué
 
Messages: 567
Inscription: 24 Aoû 2004

Message le Jeu Aoû 16, 2007 13:21

bigjet: Pas évident... strip_tags enlève les tags, mais pas leur contenu... ici, on parle de séparer "contenu parasite" et "contenu texte" ;)

A première vue, je pencherais pour le calcul du poids des balises par rapport au texte. Ca permet d'enlever facilement tout ce qui est nav, elements graphiques, etc (qui demandent plus de balises que le contenu texte)

bigjet
WRInaute discret
WRInaute discret
 
Messages: 211
Inscription: 21 Nov 2004

Message le Jeu Aoû 16, 2007 13:53

Au temps pour moi, j'avais lu le post en diagonale :oops:


sureau
WRInaute discret
WRInaute discret
 
Messages: 195
Inscription: 7 Mar 2005

Message le Jeu Aoû 16, 2007 14:36

Perso, je parserais plusieurs pages, et je retirais les élements récurrents (ce qui est présent sur toutes les pages est surement un header, footer ou menu).


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Base

  • Tester l'indexation récente d'un site dans Google
    Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org).
  • Calcul du taux de backlinks vers pages internes
    Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


cron