Messages: 243

Enregistré le: 14 Sep 2004

Message le Mer Juil 30, 2008 17:01

Bonjour,
J'ai créé un système qui analyse les mots clés présents sur une page. Je teste ce service depuis quelque temps sur un autre de mes sites (scapture.com), mais je viens de créer un site digne de ce nom tout en changeant pas mal de trucs : http://alyze.info/

A la base, c'est un analyseur (avancé) de mots-clés dont je me sers à titre perso, mais au fil des développements c'est devenu beaucoup plus que ça. Et je me suis dit que ça pouvait servir à d'autres... et voilà alyze.info !

Dans les idées que j'ai en tête et sur lesquels j'aimerais votre avis :
  • Faire des pages d'aide à la conception sur lequel le webmaster serait invité à se rendre, par exemple si son site renvoie un entête HTTP incorrect, proposer une page d'explication sur les entêtes HTTP, le fonctionnement avec Apache, PHP, etc.
  • Analyser les liens internes et externes sur la page.
  • Faire un moteur de recherche à partir de ces analyses (je rêve un peu !).
  • À partir des analyses déjà réalisées, suggérer des mots-clés présents sur les pages traitant du même sujet.


Critiques et idées sont les bienvenues.

Edit : Les Image sont également bienvenues. ;)
Modifié en dernier par kalex le Mer Aoû 20, 2008 14:00, modifié 1 fois.
Haut
102 Réponses
Messages: 1874

Enregistré le: 17 Déc 2006

Message le Mer Juil 30, 2008 17:42

j'ai un soucis en analysant le site lamogere.fr : le mot "château" n'est pas détecté mais il y a "ch" et "teau"
=> le â pose donc problème

sinon l'outil est bien fait => une reco
Haut
Messages: 2308

Enregistré le: 29 Avr 2006

Message le Mer Juil 30, 2008 17:50

Vraiment pas mal, bon boulot ;)
Haut
Messages: 243

Enregistré le: 14 Sep 2004

Message le Mer Juil 30, 2008 17:53

Merci !

webmasterlamogere a écrit:j'ai un soucis en analysant le site lamogere.fr : le mot "château" n'est pas détecté mais il y a "ch" et "teau"
=> le â pose donc problème

C'est corrigé (il s'agissait d'un oubli dans une expression régulière).
Haut
Messages: 38

Enregistré le: 24 Juin 2008

Message le Mer Juil 30, 2008 17:57

Super :-) Je débute dans le référencement et ca donne un très bon aperçu du visuel que peut avoir le moteur de recherche sur sa page d'acceuil (et autres).
Merci.
Haut
Messages: 592

Enregistré le: 11 Mar 2006

Message le Mer Juil 30, 2008 17:59

+1, très bon outil, sympa de le partager.
Haut
Messages: 861

Enregistré le: 26 Mar 2005

Message le Mer Juil 30, 2008 18:14

+1

Par contre il ne suit pas les redirections, et ça c'est un peu gênant.
Sinon bravo.
Haut
Messages: 106

Enregistré le: 17 Avr 2004

Message le Mer Juil 30, 2008 18:29

Très bon outil.
Prévois-tu de détailler la formule de la densité pondérée ?
Haut
Messages: 2050

Enregistré le: 22 Nov 2005

Message le Mer Juil 30, 2008 19:07

Reco + marque-page.
Bel outil, il serait effectivement pertinent d'avoir accès à la formule de densité, et mieux, de pouvoir la définir soi-même, personne n'étant sûr des critères appliqués par les moteurs.

J'extrapole mais tu pourrais imaginer du coup un mini-classement des formules de pondération les plus utilisées, ça pourrait être intéressant.

Edit : y'a une extension FF qui propose ce principe : https://addons.mozilla.org/fr/firefox/addon/4788
Haut
Messages: 1302

Enregistré le: 15 Mai 2003

Message le Mer Juil 30, 2008 19:48

Bonjour, excellent, nous autorises-tu à l'ajouter ici ? :
http://blog.axe-net.fr/seorapido/

en remplacement de celui en place. Comme tu peux le voir, cela ne fait qu'ouvrir ton site.
Haut
Messages: 339

Enregistré le: 6 Avr 2005

Message le Mer Juil 30, 2008 20:10

kalex a écrit:Critiques et idées sont les bienvenues.


Très bon outil (+1 reco)

Une option que je trouverais plus qu'utile c'est la possibilité également d'analyser les expressions en plus des mots clefs (2 mots, 3 mots, etc.)

sinon c'est un très bon KGen online !
Haut
Messages: 243

Enregistré le: 14 Sep 2004

Message le Mer Juil 30, 2008 21:21

Que de bons commentaires ! Ca fait vraiment plaisir.

En plus, vous avez de bonnes idées. ;)

Tilt > C'est vrai que je devrais faire quelque chose pour les redirections. Je pense à signaler clairement qu'il s'agit d'une page de redirection et faire un lien vers l'analyse de la page pointée, comme ça les utilisateurs resteront informés que l'URL qu'ils entrent n'est pas une "vraie page".

ADIDASman & dadovb > Très bonne idée ! Il faudrait non seulement détailler la formule (une trentaine de variables), mais aussi permettre de la personnaliser. A priori, ça ne devrait pas être trop compliqué à faire vu mon code, mais le diable est dans le détail.

sr > Bien sur, tu peux ajouter alyze sur ton site. Par contre, il se peut que je change quelques trucs au formulaire pour soumettre les pages.

pierre_jean > Pour les expressions de 2 ou 3 mots, c'est pas prévu, mais pourquoi pas, ça peut être utile.

Je vous tiens au courant ici même de mes travaux. Pour l'instant, je vais me pencher sur un système antispam, car mon hébergeur risque de ne pas apprécier si ce site se popularise avant que ce soit en place. :lol:
Haut
Messages: 2820

Enregistré le: 13 Fév 2004

Message le Mer Juil 30, 2008 23:22

Bien sympa...

On a un outil à usage essentiellement interne (pour le moment) qui fait le même genre de choses:

http://www.oxado.com/bin/checkpage

Son objectif initial était surtout de tester notre algo de détection de langue, mais il fait aussi une analyse de mots-clefs à notre sauce. Avantages par rapport au tien:
- il détecte donc la langue (dans la plupart des cas), avec un certain nombre d'informations de la façon dont il est arrivé à cette conclusion, et des avertissements sur les incohérences
- il élimine les mots peu importants ("et", "le", "la" etc...), en fonction de la langue (avec plus ou moins de succès suivant les langues): c'est la l'une des motivations sur la détection de la langue en fait
- il gère des N-grammes (avec N de 1 à 3)
- il affiche les liens, frames, etc.
- il est possible (même si ce n'est pas dans l'interface) d'indiquer la langue "voulue" (pour les pages qui varient avec la langue) en changeant le &language=xx dans l'URL
- il gère les redirections

Inconvénients:
- il est nettement plus "cryptique"

La pondération semble aussi assez différente entre nos outils, et les "unités" ne sont pas forcément les mêmes non plus

Feedback welcome évidemment...

Jacques.
Haut
Messages: 243

Enregistré le: 14 Sep 2004

Message le Jeu Juil 31, 2008 12:00

Je viens d'ajouter deux fonctions :
  • La détection des redirections, mais ça ne se fait pas automatiquement (vous êtes invités à soumettre la page visée), car il peut être utile de savoir qu'une URL n'est qu'une page de redirection (par ex. pour vérifier s'il s'agit d'une redirection permanente ou temporaire).
  • Un onglet "Liens" différenciant les liens internes et les liens externes, donnant le texte affiché, le nombre de lien pour une URL, etc.
    Je pense que ça peut être utile pour vérifier le linking d'une page (je me suis rendu compte de certaines insuffisances sur mes propres sites avec cette fonction !).

Le reste ? A suivre... :lol:

jcaron > Attention, tout ton design est filtré par Adblock avec EasyList. Sinon, bravo pour ton service, qui ne semble toutefois pas avoir le même but qu'alyze (aide au webmaster).
Haut
Messages: 149

Enregistré le: 1 Aoû 2007

Message le Jeu Juil 31, 2008 12:55

merci, un bon outil bien pratique

+1
Haut
Messages: 209

Enregistré le: 20 Avr 2006

Message le Jeu Juil 31, 2008 13:33

Super !
Une reco, un grand merci !
Haut
Messages: 243

Enregistré le: 14 Sep 2004

Message le Jeu Juil 31, 2008 16:21

Pour ceux qui m'avaient demandé de rendre publiques les pondérations effectuées, je commence avec cette petite page où je pense avoir listé les variables les plus importantes : http://alyze.info/InternalVars
Permettre aux utilisateurs de les modifier serait surement intéressant...

C'est la deuxième "fonctionnalité" que je crée grâce à vos suggestions. Merci. ;)
Haut
Messages: 2050

Enregistré le: 22 Nov 2005

Message le Jeu Juil 31, 2008 16:42

kalex a écrit:Pour ceux qui m'avaient demandé de rendre publiques les pondérations effectuées, je commence avec cette petite page où je pense avoir listé les variables les plus importantes : http://alyze.info/InternalVars
Permettre aux utilisateurs de les modifier serait surement intéressant...

C'est la deuxième "fonctionnalité" que je crée grâce à vos suggestions. Merci. ;)


bien vu.

Poids du titre (par défaut) : 13
Ca correspond à la balise title ?
Haut
Messages: 243

Enregistré le: 14 Sep 2004

Message le Jeu Juil 31, 2008 16:52

Oui, c'est bien le <title>.

Là j'avais plusieurs choix, soit pondérer le titre et les métas comme des balises ordinaires, soit leur attribuer un poids par rapport au body. J'obtiens de meilleurs résultats avec cette dernière technique, mais ça pourra éventuellement faire l'objet d'une option lorsque les utilisateurs pourront définir eux-mêmes leurs critères (j'ai parlé au futur ? merde maintenant, il faut que je le code :lol:).
Haut
Messages: 1013

Enregistré le: 16 Juin 2006

Message le Jeu Juil 31, 2008 18:23

Bravo

il serait bien que tu rajoutes la densité sur 2-3 mots ensemble, ca serait vraiment au top.
Haut
Messages: 1429

Enregistré le: 28 Nov 2003

Message le Ven Aoû 01, 2008 1:37

As-tu essayé de faire une corrélation entre ton outil et des classements présent sur Google (notamment pour la pondération) ? Où c'est plutôt à la louche ?

Je demande ça, parce que je ne vois pas l'intérêt d'un tel outil. Ou plutôt, je vois difficilement comment appliquer une telle méthode à chaque page d'un site, à moins d'avoir vraiment beaucoup de temps sur chaque page créé. Sachant qu'en plus, personne ne peut dire ce qui est optimal.
Haut
Messages: 243

Enregistré le: 14 Sep 2004

Message le Ven Aoû 01, 2008 1:52

Tout est sur le site : "Ce classement ne vise pas à reproduire le comportement de tel ou tel moteur de recherche. Il s'agit plutôt d'une analyse (forcément subjective) produite avec un grand souci de rigueur et de bon sens."
Haut
Messages: 1541

Enregistré le: 21 Sep 2004

Message le Ven Aoû 01, 2008 2:22

bien cool merci j'attends la suite des évènements avec impatience :!:
Haut
Messages: 243

Enregistré le: 14 Sep 2004

Message le Ven Aoû 01, 2008 3:38

Pour ce qui est de classer les termes par deux ou trois, après avoir travaillé sur la question pendant quelques heures, je pense que classer des mots clés composés de plusieurs mots clés n'a pas de sens, du moins avant la recherche.

Je sais, c'est surprenant, mais prenons un exemple, c'est assez simple. Le blog de Maître Eolas s'intitule "journal d'un avocat". Ce qui est important, c'est "journal" et "avocat", mais ces deux termes sont quand même séparés par deux mots. De plus, "journal" et "droit" serait tout aussi approprié pour une recherche, mais ces deux termes n'apparaissent pas cote à cote. De même pour "avocat" et "blog", "justice" et "droit", etc.

Si je veux classer les mots clés par deux ou trois, il me faut absolument des statistiques de recherche. Et je n'en ai malheureusement pas (Google si tu me lis, j'ai 120 Go de libres sur mon disque ;) ).

Sinon, une fonction intéressante serait de permettre d'entrer plusieurs mots clés puis que le système dise pourquoi ils sont ou ne sont pas adaptés à la page.
Haut
Messages: 1302

Enregistré le: 15 Mai 2003

Message le Ven Aoû 01, 2008 8:34

Bonjour Kalex,

Merci de ton "autorisation" pour mettre ton service sur SEOrapido,

par contre, si tu mets un capcha, cela ne pourra pas fonctionner.
Peux tu me valider le fait que tu va en mettre un ou bien as tu abandonné cette idée ?

A+
Haut
Messages: 23015

Enregistré le: 19 Avr 2002

Message le Ven Aoû 01, 2008 10:17

bravo kalex c'est intéressant (j'ai aussi un outil interne de ce type). Je ne vois pas bien pourquoi tu te limites aux mots simples (expressions de 1 mot) vu que ce ne sont pas toujours les requêtes qui nous intéressent le plus à travailler en référencement.
Sinon, tu t'es basé sur quoi pour la pondération ?
Haut
Messages: 2820

Enregistré le: 13 Fév 2004

Message le Ven Aoû 01, 2008 12:49

kalex a écrit:Pour ce qui est de classer les termes par deux ou trois, après avoir travaillé sur la question pendant quelques heures, je pense que classer des mots clés composés de plusieurs mots clés n'a pas de sens, du moins avant la recherche.

Je sais, c'est surprenant, mais prenons un exemple, c'est assez simple. Le blog de Maître Eolas s'intitule "journal d'un avocat". Ce qui est important, c'est "journal" et "avocat", mais ces deux termes sont quand même séparés par deux mots. De plus, "journal" et "droit" serait tout aussi approprié pour une recherche, mais ces deux termes n'apparaissent pas cote à cote. De même pour "avocat" et "blog", "justice" et "droit", etc.


Il y a là deux problématiques différentes: repérer les séquences de mots (donc "journal avocat" par exemple ici) et repérer les combinaisons de mots (donc "blog avocat" par exemple). La deuxième est implicite quand on a la liste des mots individuels, il suffit de faire un produit cartésien de la liste avec elle-même, et de trouver une opération de combinaison du score de chaque (addition ou multiplication a priori). Bref, rien de bien utile en soi, on comprend bien que la combinaison des deux mots les plus "forts" sera plus forte que la combinaison du 100e et du 200e...

Pour la première, je pense que les moteurs font effectivement la différence entre les mots pris de façon isolée dans le texte, et ceux qui se suivent, et c'est pour ça que c'est important (si tu tapes "blog avocat", il va chercher les pages qui contiennent "blog" et "avocat", mais je pense que ceux qui contiennent la séquence "blog avocat" seront privilégiés). En fait j'ai un vague souvenir d'un vieux papier de Google sur le fonctionnement de tout ça (la thèse des deux larrons peut-être?) qui incluait une notion de "proximité" plutôt que de séquence en fait. Pour faire simple, il faut donc repérer les N-grammes, en éliminant évidemment les mots non significatifs ("de", "un"...).

C'est d'ailleurs ce qu'on fait nous:

http://www.oxado.com/bin/checkpage?url= ... -eolas.fr/

Où on constate que les séquences de mots arrivent assez tardivement dans le classement ici (sur d'autres sites ils arrivent beaucoup plus tôt), et que "journal avocat" arrive assez loin.

Clairement on n'a pas du tout la même pondération que toi (d'ailleurs sur un autre exemple je suis arrivé à la conclusion que tu ignores les alt et autres title sur les images... volontaire ou oubli?). Clairement je crois que tout le monde peut être d'accord pour dire que ce n'est pas facile de trouver les "bonnes", aussi bien pour "reproduire" ce que font les moteurs que pour les moteurs eux-mêmes qui doivent fonctionner avec tous les sites, qui ont des structures très différentes :-( Les "alt" sur les images sont l'exemple typique: sur certains sites il est indispensable de les utiliser pour avoir un tantinet de contenu intéressant, sur d'autres ils n'introduisent que de la pollution...

Jacques.
Haut
Messages: 243

Enregistré le: 14 Sep 2004

Message le Ven Aoû 01, 2008 14:33

jcaron > Merci pour tes conseils ! En fait, j'arrive à peu près aux mêmes conclusions que toi, c'est-à-dire que la proximité de deux termes est importante, mais pas déterminante. Je continue à travailler sur la présentation de plusieurs termes, mais je ne publierais ça que lorsque ça sera satisfaisant.
Je précise tout de même que le but n'est pas d'interpréter toutes les pages, même mal conçues, de façon optimale. Ca, c'est un boulot de moteur de recherche. Le but c'est de déterminer si une page est bien conçue, justement pour faciliter le boulot des moteurs.

Un autre merci pour l'attribut atl des images, la fonction n'était tout simplement pas activée ! Maintenant, ça fonctionne.

WebRankInfo > Pour la pondération, je me suis basé à la fois sur ce que dit le W3C de ses balises et sur l'expérience. Sur une sélection de pages bien référencées et bien conçues, j'ai essayé de faire en sorte que les mots décrivant le mieux la page apparaissent en premier.

sr > Non pas de capcha, plutôt un système de cache de quelques secondes. :)
Haut
Messages: 4

Enregistré le: 9 Juin 2005

Message le Ven Aoû 01, 2008 17:01

J'utilise le module SEO Quake pour la densité. Quand j'ai vu ton outil, je me suis dit super, il fait la différence entre la pondération d'un malheureux alt et un mot placé dans l'url.
Parcontre les combinaisons de mots n'y sont pas.
Les outils sont donc complémentaires!
Haut
Messages: 106

Enregistré le: 17 Avr 2004

Message le Ven Aoû 01, 2008 18:49

Merci pour la liste des valeurs que tu utilises pour la pondération.
Ca donne encore plus de valeur à l'outil de comprendre son fonctionnement !
Haut