VoilaBot BETA 1.2

WRInaute discret
Bonjour,

Depuis vendredi soir, nous observons une 'charge' massive et en règle de VoilaBot sur notre serveur : 3 I.P différentes et simultanées qui génèrent un max de requêtes.

Sur le principe, pas de problème... puisque c'est quand même le but de faire des sites indexables et indexés. :wink:
Là, on peut imaginer, vu le nombres de requêtes qu'il arrive à aller voir bien en profondeur du site ; Ce qui est plutôt rassurant.

Par contre, où c'est pas cool, c'est que cela augmente très considérablement la charge de nos machines au point de les saturer :cry:
On a même du modifier le robots.txt pour calmer un peu les choses momentanément.

Est-ce que quelqu'un observe la même chose sur son site en ce moment ?
Est-ce que Voilà procède à une - TRÈS GROSSE - mise à jour de sa base ?
Bref, est-ce qu'il se passe quelque chose de particuliers chez Orange / Voilà ?

Merci
 
WRInaute discret
Voilabot passe tous les jours sur mon site depuis une semaine alors qu'avant il ne passait pratiquement jamais.
Par contre, le crawl est léger (petit site aussi) et pose pas de problème de charge pour moi.
 
Nouveau WRInaute
Même combat, pas de solution

Bonjour,

Il y a quelques semaines, VoilaBot nous a saturé un dédié et a généré un nombre considérable de liens erronés sur leur base (24000 pages indexées pour un site qui doit en compter 1000 au max). La commande sur voila.fr, c'est domain:http://www.monsite.com

En surveillant les erreurs 404, j'ai découvert qu'il avait créé des tas de pages "virtuelles" type /123/456/789/123/Page au lieu de /123/Page.

A mon avis il y a un souci dans la gestion des redirections.

Est-ce qu'on peut vider le cache du moteur en effaçant toutes ces pages ? Peut-être avec robots.txt... Y'a-t-il des spécialistes de Voila dans la salle ?
 
Nouveau WRInaute
Bonjour,

Problématique 1 : Charge massive de VOILA BOT ? Que se passe t'il à Orange/Voila?

Le moteur de recherche Orange / Voila s'est donné un objectif de croissance très important cette année. Pour cela, une infrastructure conséquente a été mise en place (doublement des machines cette année) et un nouvel outil de complément a été ajouté pour palier au manque de couverture en profondeur de certains sites. La combinaison de ces deux paramètres expliquent la charge "plus importante" des robots VOILA.

Problématique 2 : VoilaBot crée des urls relatives n'existant pas
Ceci etait un bug (une fonction de ré-écriture des URL absolues) et a été corrigé.

Merci !
 
WRInaute passionné
Je trouve quand même exagéré que des robots censés indexer des sites web provoquent des surcharges entrainant ralentissement voire plantage. A quoi ça sert d'être bien référencé si le site est HS ou très difficile d'accès due à une lenteur excessive ?
Je ne parle pas de mon expérience : je n'ai pas vérifié mes sites par rapport à votre nouveau défricheur, mais au vu de ces premières remarques, ça fait peur !

De là à ce que des webmasteurs bloquent l'accès aux robots de Voila...


Voilà matière à réfléchir ;)
 
WRInaute discret
Je pense qu'il s'agit d'un problème de règlage de la vitesse des bots qui a du s'embaler un peu...

Par contre vu le taux de visite actuel de voilà sur mes sites, ils peuvent y aller un moment ;-) pour le moment on dirait la "web archive"

A part ça, je ne connaissais pas la commande domain sur voilà, mais le résultat est assez amusant, sur tous mes domaines testés j'avais des résultats de type indéxation aléatoire, c'est à dire des pages complétement décorrélées entre elles ou alors y a une limite à 6 réponses :lol:
 
WRInaute accro
Moi pas encore de crawl, j'attends. Mais si voila apporte autant de visiteurs qu'avant je ne vois pas l'intérêt de massacrer des serveurs.
 
Nouveau WRInaute
Boucle VoilaBot

Bonjour,

Idem, depuis 2 jours, VoilaBot nous prend la moitité de notre CPU Usage sur un serveur dédié.
Il appelle les pages en raffales et boucle sur beaucoup d'elle (surtout celle qui contienne un formulaire login/mot de passe) .
Les accès MySql ont donc explosé ...

Comme dit précédemment, il tente l'indexation d' URL soient périmés soit inexistantes.

Mis a part le bloqué au niveau du htacess, voyez-vous une autre solution ?

Ci-dessous le log du Bot :
VoilaBotCollector BETA 0.1 (http://www.voila.com/)

Il nous a fait 130 000 hits en 6h !

A+
 
WRInaute impliqué
Idem de mon coté,
VoilaBot nous charge un serveur dédié en période Noël, quel belle idée de faire cela maintenant...
s'il y a la moindre couille, c'est blacklistage direct.
 
WRInaute impliqué
C'est vrai que le Voilabot a des pointes d'activité assez sévères mais cela ne dure pas trop, il semble redevenir raisonnable ensuite (inférieur à Slurp en tout cas)

Il lit sans arrêt robots.txt, j'ai plus d'accès de sa part à robots.txt qu'à tous les autres fichiers réunis. Heureusement, que les autres bots ne font pas cela!
 
WRInaute discret
bonjour,

j'ai le meme soucis, sauf qu'il me plante le serveur en error 500.

j'ai tenté un robots.txt contenant

Code:
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)
Disallow: /

mais ca ne marche pas, ce n'est pas la bonne syntaxe ?
 
WRInaute accro
Estce que c'est la bonne syntaxe car il est en train de me mettre mon dédié dans le rouge;

Je sais le post date un peu mais c'est la première fois que je le vois aussi véloce et du coup mes sites hébergés (clients) lagguent sévère!
 
WRInaute passionné
mini déterrage (1 an ca va) de ce fil suite aux agressions de nouveau présentent de ce robot :evil:
avec 150 / 180 connexions

Il a pas changé de nom depuis ou il a d'autres noms ?

User-agent: VoilaBot
User-agent: VoilaBotCollector BETA 0.1

Puis lui aussi quelle plaie : b3091037.crawl.yahoo.net
 
WRInaute accro
Les ip a botter en touche:
193.252.118.173
193.252.118.174
193.252.118.175
193.252.118.176
193.252.149.13
193.252.149.14
193.252.149.15
193.252.149.16
81.52.143.15
81.52.143.16
81.52.143.26
81.52.143.29
81.52.143.30
81.52.143.31
81.52.143.32
81.52.143.33
81.52.143.34
81.52.143.35
81.52.143.36
81.52.143.37
 
Nouveau WRInaute
je remonte ce topic car j'ai de nouveau des probl avec le bot voila qui attaque mes serveurs avec 10 ip différentes.

je peux bien sûr les bloquer via iptables mais autant qu'il indexe et là, je rencontre un autre problème que je n'arrive pas à résoudre ...

Voila cherche sur l'un de mes sites des url au format :

http://www.example.com/../../dossier/xxx.htm
http://www.example.com/../dossier/xxx.htm

au lieu de :
http://www.example.com/dossier/xxx.htm

j'ai tenté un rewrite dans mon htaccess, rewrite qui fonctionne parfaitement avec firefox mais toujours pas avec Voila qui génère une erreur 400.

je précise que toutes mes urls sur mon site sont complètes (http://www.example.com/dossier/xxx.htm, http://www.example.com/dossier/yyy.htm) et non relatives.

le problème est que les pages existent, mais pas sous ces urls.

Donc mon rewrite :
Code:
RewriteRule ^/../dossier/(.*).htm$ /dossier/$3.htm [L,R=301]
RewriteRule ^/../../dossier/(.*).htm$ /dossier/$4.htm [L,R=301]

Et j'insiste sur le fait que ces règles fonctionnent avec mon navigateur.

Car tant qu'à faire, autant qu'il trouve les bonnes pages.

Any Idea les pros ?
merci à tous.
 
WRInaute passionné
J'ai un peu les même problèmes... Il me génère des quantités monstrueuses de 404.

Depuis ce WE, j'ai radicalement changé les choses pour ce vilain robot qui veut visiter des pages que lui seul connaît !

Dans ma page d'erreur personnalisée, j'ai mis cela :

Code:
$num_erreur = $_SERVER['REDIRECT_STATUS']
$navigateur  = $_SERVER['HTTP_USER_AGENT']

// On redirige par défaut certaines 404
if ($num_erreur == 404 && $navigateur == 'Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (support.voilabot@orange-ft') {
	header ('HTTP/1.1 301 Moved Permanently');
	header('Location: http://www.science-et-vie.net/');
	exit;
}

Maintenant, il est content... Il ne trouvera jamais plus aucune 404 sur mon site :mrgreen: :mrgreen: et moi, je ne passerais plus des heures à modifier mon htaccess pour des pages que lui seul veut lire.
 
WRInaute passionné
Pour info, je relève cet ancien sujet mais je viens de bloquer VoilaBot : 100.000 pages en 2 jours... pour 0 visiteur (ou presque) par mois. Ca faisait des mois que je regardais l'activité délirante de ce robot français mais là, trop, c'est trop. De plus, il ne respecte pas le robots.txt puisque ça fait quand même 3 jours que je l'ai intégré mais visiblement sans succès : conclusion, blocage par htaccess.
 
WRInaute impliqué
0 visiteur ? Voila est mon deuxième apporteur de trafic moteur, bien loin devant Yahoo+Bing. Et à la fin du mois, ça fait quelques centaines de visiteurs.
 
WRInaute passionné
Quand je dis 0, c'est environ 500 par mois, Ask = 5.000, Bing+Yahoo = 25.000 environ (j'ai un positionnement relativement similaire sur Bing que sur Google). Même un truc comme MyWebSearch ou AOL apportent chacun 750 visiteurs (avec une excellente transformation en adsense!)... :mrgreen:
 
WRInaute impliqué
Très surprenant ! C'est le site de ton www ? Sur tous mes sites et ceux de mes clients, je n'ai jamais vu Voila à la traîne face à Bing ou Yahoo mais largement en avance ou au pire à égalité.
 
WRInaute passionné
Oui, c'est le .com de mon www. Franchement, vu le positionnement sur le moteur Voilà, je ne suis pas surpris de recevoir aussi peu de visites. Mais bon 500 VU pour plusieurs centaines milliers de pages crawlées tous les mois, ça n'a plus aucun intérêt. Ce site peut se permettre de perdre 20 VU/jour. :roll:
 
WRInaute impliqué
Le problème c'est dans ce que tu annonces comme chiffres, tu devrais avoir autant voir plus de trafic que Bing et Yahoo, d'où mon étonnement.

Le "bug" du Bot est peut être lié à ce mauvais positionnement. Pour une raison ou une autre (qui peut provenir de chez eux), ton site lui pose problème.

Sincèrement, je te conseillerai de les contacter. Ils répondent aux e-mails sans problème. Fait leur part de ton soucis de bot fou. Ils devraient certainement pouvoir résoudre le problème et si en plus tu arrives à gagner plus de trafic, ça serait plus judicieux que de bloquer le bot ;).
 
WRInaute accro
voila est un moteur qui est très sensible au spamindex, donc 2 solutions : soit tu travailles à fond dans le spam et là, point de vu gg tu es grillé, et sur bing, si tu abuses vraiment tu peut être grillé, sinon ça passe.
dans ce cas, effectivement, tu peux te retrouver avec plus de visites de voila que de bing/y!
mais sinon, au niveau pertinence, voila c'est :roll:
 
WRInaute passionné
Avec ton message, je me suis amusé à remonter aux stats de février 2008 : déjà 500 visiteurs de Voilà aussi, Yahoo : 1900 et AOL ou Windows Live faisaient 1000. Bref, comme je ne spamme pas un poil, Voilà ne pourra jamais lire des keywords ... que je n'ai pas. Après, il est possible que le linking interne (automatique avec le dictionnaire) assez poussé ne plaise pas à Voilà.

Je viens de taper manuellement quelques-unes des requêtes de mon top50, finalement, le positionnement est pas si mauvais que ça. En revanche, je ne suis pas premier avec le .com sur le nom de domaine, c'est le .tel du www de WRI!!! :mrgreen:

C'est peut-être la thématique finalement qui n'est pas porteuse sur Voilà. Je viens de réouvrir l'accès à Voilà. :roll:

Pour la pertinence, aîe ouille aîe... vive les EMD ! :lol:
 
WRInaute impliqué
Lol clair que Voila, c'est perfectible, mais bon je ne crache jamais sur une source de trafic :p. En tous les cas, tes chiffres sont surprenants.
 
Discussions similaires
Haut