Crawler un site : ClicBox en Beta Test

WRInaute occasionnel
Bonjour à tous !

J'ai mis a disposition un tool que j'utilise depuis des années : Un crawler perso.

Ce robot parcours un site web comme le ferait un robot de recherche et analyse la structure pour détecter les potentiels problèmes qu'un moteur de recherche pourrait rencontrer.

J'ai lancé le service il y a seulement quelques jours, il y a donc sûrement des choses a améliorer, n'hésitez pas a m'en faire part (perso, j'en trouve tous les jours).

N'hésitez pas également a faire des retours sur le rapport de crawl ! (graphiques supplémentaires souhaités, présentation etc).

Il y a également un webservice d'export a dispo (je dois ajouter un export CSV, mais celui-ci ne contiendra pas les liens).

Ce robot est adapté a des sites qui ont beaucoup de pages (plus de 500 au moins). Il n'a pas tellement d'utilité pour un site corporate, mais est particulièrement adapté a du e-commerce par exemple.

Il y a 5 crédits offerts a l'inscription, mais si vous avez besoin de plus, j'en offrirais ici pour les beta testeurs.

N'hésitez pas : http://www.clicbox.fr/
 
WRInaute accro
Tu le dis sur ton site, que ton bot n’interprète pas le JS, hors Googlebot se comporte plus comme un crawler webkit, donc pourquoi ne pas l'avoir développé à base de webkit ?

Il serait intéressant d'avoir accès à une démo d'un rapport (sans devoir s'inscrire).
 
WRInaute occasionnel
Parce que l'objectif est surtout de faire du contrôle structurel (PrSculpting). Rien ne vaut un bon vieux href.

Cependant, j'ai prévu de le faire évoluer par la suite et d'implémenter une librairie type phantomJS pour interpréter également le JS. (donc, je garde le point !)
 
WRInaute occasionnel
Quelques exemples issus du rapport :
Rapport-ClicBox-1.png

Rapport-ClicBox.png

Rapport-ClicBox-3.png

Rapport-ClicBox-2.png

ScreenShot068.png
 
WRInaute accro
Je n'ai certes pas un site e-commerce, mais un site de contenu de plus de 3000 pages, du coup je me suis inscrit pour tester. J'ai eu quelques soucis d'en-tête après mise en ligne de ma nouvelle version, ça me permettra de vérifier que tout est maintenant corrigé.
 
WRInaute occasionnel
@spout

Je viens de faire quelques tests avec le rendu WebKit. Le problème, c'est que niveau performances de crawl, on va passer de ~1500 url's crawlées par H et par robot a environ 500 /600.

Je réfléchis a tout ça, pourquoi pas un traitement asynchrone.
 
WRInaute impliqué
Salut,

Quelques remarques :
Le texte dans le slider (sous l'image) est trop sombre on le voit presque pas.
Il manque cruellement de texte sur cette page d'accueil ^^

Voila :)
 
WRInaute accro
J'ai pu crawler une bonne partie de mon site, ce qui m'aura permis d'identifier quelques url qui n'avaient jamais été mis à jour et généraient du DC interne (ce qui est maintenant chose corrigé).

Par contre dans le rapport sur l'unicité sémantique, je ne suis pas sûr de comprendre pourquoi certains éléments sont marqués en doublon alors que lorsque j'affiche le détail, aucune url doublonnée n'est indiquée. De même, pour certains doublons la même url s'affiche deux fois.
 
WRInaute occasionnel
Hello UsagiYojimbo !

Quand le robot affiche 2 fois la même url, cela signifie qu'il a trouvé une première url redirigée vers celle là. En fait, il garde toujours la première pour mémoire. Je vais ajouter de l'info pour que ce soit plus compréhensible.

Pour le coup des url's qui ne s'affichent pas, je pense que c'est un problème de caractère spécial lors de la recherche. Je vais fouiller.

Sinon, suite à la remarque de spout, j'ai implémenté webkit dans une certaine mesure, en l'occurence pour la découverte des liens. Et j'avoue, ça montre des choses intéressantes. Par contre, ça ralentit cruellement le crawl :(
Cocher WebKit ne consomme pas de crédit supplémentaire. Le fait que ce soit plus lent est déjà assez chiant a soi.

patapon87 > Je regarde
 
WRInaute occasionnel
Worpress avait supprimée les balises P sur caroussel. Bizarre.

Triixx a dit:
Salut,

Quelques remarques :
Le texte dans le slider (sous l'image) est trop sombre on le voit presque pas.
Il manque cruellement de texte sur cette page d'accueil ^^

Voila :)
 
Nouveau WRInaute
Bonjour,
Un trés bon outil, mais par contre il y'a un point qui m'embête :
Mon site est doté d'un comparateur de prix, exemple sur cette page (onglet comparateur) :
http://www.guitarezine.fr/pedale-effet/equalizer-booster/boss-ge-7-equalizer

Il y'a par exemple un lien vers un produit du magasin guitarshop.
exemple :
http://www.guitarshop.fr/effets/effets_electriques/boss/produit-3505-g ... lizer.html

Ton crawler à commencer à me crawler les urls de ce marchand, en remplacant www.guitarshop.fr par mon nom de domaine, du coup dans mon extension de SEO j'ai eu des milliers d'erreur 404.

Cordialement
 
WRInaute occasionnel
baloo738 a dit:
Bonjour,
Un trés bon outil, mais par contre il y'a un point qui m'embête :
Mon site est doté d'un comparateur de prix, exemple sur cette page (onglet comparateur) :
http://www.guitarezine.fr/pedale-effet/equalizer-booster/boss-ge-7-equalizer

Il y'a par exemple un lien vers un produit du magasin guitarshop.
exemple :
http://www.guitarshop.fr/effets/effets_electriques/boss/produit-3505-g ... lizer.html

Ton crawler à commencer à me crawler les urls de ce marchand, en remplacant http://www.guitarshop.fr par mon nom de domaine, du coup dans mon extension de SEO j'ai eu des milliers d'erreur 404.

Cordialement

Hello !

En fait, il a simplement suivi la redirection. Il faut que tu interdises la page /redirect* dans ton fichier robots.txt. Au final, le robot a eu le même comportement que Google, sauf que Google ne te le montre pas.

Je regarde quand même de mon coté pourquoi il a suivi la redirection via ton domaine au lieu du domaine cible. Il aurait du t'afficher des 302 et non des 404.

N'hésite pas a me MP si tu as des questions
 
WRInaute occasionnel
Hello,

Une instance de robot pour une heure coûte 2 crédits. Donc avec 20 crédits, soit 10 robots pendant une heure, ou 1 robot pendant 10 heures, ou 5 robots pendant une heure avec enregistrement du contenu.

Les données sont stockée sur un index local.

Triixx a dit:
Salut,

Concrètement on peut faire quoi avec 20crédits ?
Les données elles sont stockées où ?
 
Nouveau WRInaute
Bonjour,
J'ai relancé un crawl du site, et il ne prend plus en compte les redirect de mon comparateur de prix.

Dans le rapport, y'a t'il possibilité d'avoir accés aux différents urls des stats.
Par exemple le rapport m'indique que 96% de mes reflinks sont en nofolow, est-il possible d'avoir une liste de ces urls ?
 
Discussions similaires
Haut