Crawler un site : ClicBox en Beta Test

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


Kaliiii
WRInaute impliqué
WRInaute impliqué
 
Messages: 614
Inscription: 2 Mar 2005

Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 9:06

Bonjour à tous !

J'ai mis a disposition un tool que j'utilise depuis des années : Un crawler perso.

Ce robot parcours un site web comme le ferait un robot de recherche et analyse la structure pour détecter les potentiels problèmes qu'un moteur de recherche pourrait rencontrer.

J'ai lancé le service il y a seulement quelques jours, il y a donc sûrement des choses a améliorer, n'hésitez pas a m'en faire part (perso, j'en trouve tous les jours).

N'hésitez pas également a faire des retours sur le rapport de crawl ! (graphiques supplémentaires souhaités, présentation etc).

Il y a également un webservice d'export a dispo (je dois ajouter un export CSV, mais celui-ci ne contiendra pas les liens).

Ce robot est adapté a des sites qui ont beaucoup de pages (plus de 500 au moins). Il n'a pas tellement d'utilité pour un site corporate, mais est particulièrement adapté a du e-commerce par exemple.

Il y a 5 crédits offerts a l'inscription, mais si vous avez besoin de plus, j'en offrirais ici pour les beta testeurs.

N'hésitez pas : http://www.clicbox.fr/


spout
WRInaute accro
WRInaute accro
 
Messages: 6342
Inscription: 14 Mai 2003

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 9:26

Tu le dis sur ton site, que ton bot n’interprète pas le JS, hors Googlebot se comporte plus comme un crawler webkit, donc pourquoi ne pas l'avoir développé à base de webkit ?

Il serait intéressant d'avoir accès à une démo d'un rapport (sans devoir s'inscrire).


Kaliiii
WRInaute impliqué
WRInaute impliqué
 
Messages: 614
Inscription: 2 Mar 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 9:55

Parce que l'objectif est surtout de faire du contrôle structurel (PrSculpting). Rien ne vaut un bon vieux href.

Cependant, j'ai prévu de le faire évoluer par la suite et d'implémenter une librairie type phantomJS pour interpréter également le JS. (donc, je garde le point !)


Kaliiii
WRInaute impliqué
WRInaute impliqué
 
Messages: 614
Inscription: 2 Mar 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 10:09

Quelques exemples issus du rapport :
Image
Image
Image
Image
Image


spout
WRInaute accro
WRInaute accro
 
Messages: 6342
Inscription: 14 Mai 2003

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 10:18

Merci, c'est sympa :)


UsagiYojimbo
WRInaute accro
WRInaute accro
 
Messages: 10422
Inscription: 23 Nov 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 10:27

Je n'ai certes pas un site e-commerce, mais un site de contenu de plus de 3000 pages, du coup je me suis inscrit pour tester. J'ai eu quelques soucis d'en-tête après mise en ligne de ma nouvelle version, ça me permettra de vérifier que tout est maintenant corrigé.


Kaliiii
WRInaute impliqué
WRInaute impliqué
 
Messages: 614
Inscription: 2 Mar 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 10:29

N'hésite pas a me dire si tu vois des choses étranges, je rectifierais le tir.


Kaliiii
WRInaute impliqué
WRInaute impliqué
 
Messages: 614
Inscription: 2 Mar 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 11:26

@spout

Je viens de faire quelques tests avec le rendu WebKit. Le problème, c'est que niveau performances de crawl, on va passer de ~1500 url's crawlées par H et par robot a environ 500 /600.

Je réfléchis a tout ça, pourquoi pas un traitement asynchrone.


patapon87
WRInaute passionné
WRInaute passionné
 
Messages: 1126
Inscription: 12 Jan 2010

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 18:22

Perso impossible de valider le domaine malgré la mise en place du txt

Triixx
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 343
Inscription: 12 Mar 2011

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 21:05

Salut,

Quelques remarques :
Le texte dans le slider (sous l'image) est trop sombre on le voit presque pas.
Il manque cruellement de texte sur cette page d'accueil ^^

Voila :)


UsagiYojimbo
WRInaute accro
WRInaute accro
 
Messages: 10422
Inscription: 23 Nov 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 21:12

J'ai pu crawler une bonne partie de mon site, ce qui m'aura permis d'identifier quelques url qui n'avaient jamais été mis à jour et généraient du DC interne (ce qui est maintenant chose corrigé).

Par contre dans le rapport sur l'unicité sémantique, je ne suis pas sûr de comprendre pourquoi certains éléments sont marqués en doublon alors que lorsque j'affiche le détail, aucune url doublonnée n'est indiquée. De même, pour certains doublons la même url s'affiche deux fois.


Kaliiii
WRInaute impliqué
WRInaute impliqué
 
Messages: 614
Inscription: 2 Mar 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 22:05

Hello UsagiYojimbo !

Quand le robot affiche 2 fois la même url, cela signifie qu'il a trouvé une première url redirigée vers celle là. En fait, il garde toujours la première pour mémoire. Je vais ajouter de l'info pour que ce soit plus compréhensible.

Pour le coup des url's qui ne s'affichent pas, je pense que c'est un problème de caractère spécial lors de la recherche. Je vais fouiller.

Sinon, suite à la remarque de spout, j'ai implémenté webkit dans une certaine mesure, en l'occurence pour la découverte des liens. Et j'avoue, ça montre des choses intéressantes. Par contre, ça ralentit cruellement le crawl :(
Cocher WebKit ne consomme pas de crédit supplémentaire. Le fait que ce soit plus lent est déjà assez chiant a soi.

patapon87 > Je regarde


Kaliiii
WRInaute impliqué
WRInaute impliqué
 
Messages: 614
Inscription: 2 Mar 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Dim Juil 07, 2013 22:09

Worpress avait supprimée les balises P sur caroussel. Bizarre.

Triixx a écrit:Salut,

Quelques remarques :
Le texte dans le slider (sous l'image) est trop sombre on le voit presque pas.
Il manque cruellement de texte sur cette page d'accueil ^^

Voila :)

baloo738
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 35
Inscription: 9 Déc 2006

Re: Crawler un site : ClicBox en Beta Test

Message le Lun Juil 08, 2013 22:15

Bonjour,
Un trés bon outil, mais par contre il y'a un point qui m'embête :
Mon site est doté d'un comparateur de prix, exemple sur cette page (onglet comparateur) :
http://www.guitarezine.fr/pedale-effet/equalizer-booster/boss-ge-7-equalizer

Il y'a par exemple un lien vers un produit du magasin guitarshop.
exemple :
http://www.guitarshop.fr/effets/effets_electriques/boss/produit-3505-g ... lizer.html

Ton crawler à commencer à me crawler les urls de ce marchand, en remplacant www.guitarshop.fr par mon nom de domaine, du coup dans mon extension de SEO j'ai eu des milliers d'erreur 404.

Cordialement


Kaliiii
WRInaute impliqué
WRInaute impliqué
 
Messages: 614
Inscription: 2 Mar 2005

Re: Crawler un site : ClicBox en Beta Test

Message le Mar Juil 09, 2013 11:24

baloo738 a écrit:Bonjour,
Un trés bon outil, mais par contre il y'a un point qui m'embête :
Mon site est doté d'un comparateur de prix, exemple sur cette page (onglet comparateur) :
http://www.guitarezine.fr/pedale-effet/equalizer-booster/boss-ge-7-equalizer

Il y'a par exemple un lien vers un produit du magasin guitarshop.
exemple :
http://www.guitarshop.fr/effets/effets_electriques/boss/produit-3505-g ... lizer.html

Ton crawler à commencer à me crawler les urls de ce marchand, en remplacant http://www.guitarshop.fr par mon nom de domaine, du coup dans mon extension de SEO j'ai eu des milliers d'erreur 404.

Cordialement


Hello !

En fait, il a simplement suivi la redirection. Il faut que tu interdises la page /redirect* dans ton fichier robots.txt. Au final, le robot a eu le même comportement que Google, sauf que Google ne te le montre pas.

Je regarde quand même de mon coté pourquoi il a suivi la redirection via ton domaine au lieu du domaine cible. Il aurait du t'afficher des 302 et non des 404.

N'hésite pas a me MP si tu as des questions


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :