Messages: 266

Enregistré le: 3 Mar 2004

Message le Lun Sep 03, 2007 11:18

Bonjour,

Depuis vendredi soir, nous observons une 'charge' massive et en règle de VoilaBot sur notre serveur : 3 I.P différentes et simultanées qui génèrent un max de requêtes.

Sur le principe, pas de problème... puisque c'est quand même le but de faire des sites indexables et indexés. :wink:
Là, on peut imaginer, vu le nombres de requêtes qu'il arrive à aller voir bien en profondeur du site ; Ce qui est plutôt rassurant.

Par contre, où c'est pas cool, c'est que cela augmente très considérablement la charge de nos machines au point de les saturer :cry:
On a même du modifier le robots.txt pour calmer un peu les choses momentanément.

Est-ce que quelqu'un observe la même chose sur son site en ce moment ?
Est-ce que Voilà procède à une - TRÈS GROSSE - mise à jour de sa base ?
Bref, est-ce qu'il se passe quelque chose de particuliers chez Orange / Voilà ?

Merci
Haut
30 Réponses
Messages: 279

Enregistré le: 27 Fév 2007

Message le Lun Sep 03, 2007 13:46

Voilabot passe tous les jours sur mon site depuis une semaine alors qu'avant il ne passait pratiquement jamais.
Par contre, le crawl est léger (petit site aussi) et pose pas de problème de charge pour moi.
Haut
Messages: 5311

Enregistré le: 20 Oct 2005

Message le Lun Sep 03, 2007 14:00

C'est quoi Voila ?
Haut
Messages: 22678

Enregistré le: 8 Aoû 2004

Message le Lun Sep 03, 2007 20:12

Audiofeeline a écrit:C'est quoi Voila ?
un "petit" moteur de recherche qui ramène quand même plus de visiteurs que megablague
Haut
Messages: 7

Enregistré le: 27 Mar 2006

Message le Mer Sep 05, 2007 18:25

Même combat, pas de solution

Bonjour,

Il y a quelques semaines, VoilaBot nous a saturé un dédié et a généré un nombre considérable de liens erronés sur leur base (24000 pages indexées pour un site qui doit en compter 1000 au max). La commande sur voila.fr, c'est domain:http://www.monsite.com

En surveillant les erreurs 404, j'ai découvert qu'il avait créé des tas de pages "virtuelles" type /123/456/789/123/Page au lieu de /123/Page.

A mon avis il y a un souci dans la gestion des redirections.

Est-ce qu'on peut vider le cache du moteur en effaçant toutes ces pages ? Peut-être avec robots.txt... Y'a-t-il des spécialistes de Voila dans la salle ?
Haut
Messages: 6

Enregistré le: 30 Oct 2007

Message le Mer Nov 07, 2007 18:00

Bonjour,

Problématique 1 : Charge massive de VOILA BOT ? Que se passe t'il à Orange/Voila?

Le moteur de recherche Orange / Voila s'est donné un objectif de croissance très important cette année. Pour cela, une infrastructure conséquente a été mise en place (doublement des machines cette année) et un nouvel outil de complément a été ajouté pour palier au manque de couverture en profondeur de certains sites. La combinaison de ces deux paramètres expliquent la charge "plus importante" des robots VOILA.

Problématique 2 : VoilaBot crée des urls relatives n'existant pas
Ceci etait un bug (une fonction de ré-écriture des URL absolues) et a été corrigé.

Merci !
Haut
Messages: 2709

Enregistré le: 2 Juin 2007

Message le Ven Nov 09, 2007 20:03

Je trouve quand même exagéré que des robots censés indexer des sites web provoquent des surcharges entrainant ralentissement voire plantage. A quoi ça sert d'être bien référencé si le site est HS ou très difficile d'accès due à une lenteur excessive ?
Je ne parle pas de mon expérience : je n'ai pas vérifié mes sites par rapport à votre nouveau défricheur, mais au vu de ces premières remarques, ça fait peur !

De là à ce que des webmasteurs bloquent l'accès aux robots de Voila...


Voilà matière à réfléchir ;)
Haut
Messages: 173

Enregistré le: 3 Avr 2006

Message le Sam Nov 10, 2007 8:44

Je pense qu'il s'agit d'un problème de règlage de la vitesse des bots qui a du s'embaler un peu...

Par contre vu le taux de visite actuel de voilà sur mes sites, ils peuvent y aller un moment ;-) pour le moment on dirait la "web archive"

A part ça, je ne connaissais pas la commande domain sur voilà, mais le résultat est assez amusant, sur tous mes domaines testés j'avais des résultats de type indéxation aléatoire, c'est à dire des pages complétement décorrélées entre elles ou alors y a une limite à 6 réponses :lol:
Haut
Messages: 4994

Enregistré le: 3 Fév 2004

Message le Sam Nov 10, 2007 10:47

Moi pas encore de crawl, j'attends. Mais si voila apporte autant de visiteurs qu'avant je ne vois pas l'intérêt de massacrer des serveurs.
Haut
Messages: 1

Enregistré le: 13 Avr 2005

Message le Mer Déc 19, 2007 10:53

Boucle VoilaBot

Bonjour,

Idem, depuis 2 jours, VoilaBot nous prend la moitité de notre CPU Usage sur un serveur dédié.
Il appelle les pages en raffales et boucle sur beaucoup d'elle (surtout celle qui contienne un formulaire login/mot de passe) .
Les accès MySql ont donc explosé ...

Comme dit précédemment, il tente l'indexation d' URL soient périmés soit inexistantes.

Mis a part le bloqué au niveau du htacess, voyez-vous une autre solution ?

Ci-dessous le log du Bot :
VoilaBotCollector BETA 0.1 (http://www.voila.com/)

Il nous a fait 130 000 hits en 6h !

A+
Haut
Messages: 643

Enregistré le: 19 Nov 2006

Message le Mer Déc 19, 2007 11:51

Idem de mon coté,
VoilaBot nous charge un serveur dédié en période Noël, quel belle idée de faire cela maintenant...
s'il y a la moindre couille, c'est blacklistage direct.
Haut
Messages: 1063

Enregistré le: 6 Sep 2003

Message le Mer Déc 19, 2007 14:13

C'est vrai que le Voilabot a des pointes d'activité assez sévères mais cela ne dure pas trop, il semble redevenir raisonnable ensuite (inférieur à Slurp en tout cas)

Il lit sans arrêt robots.txt, j'ai plus d'accès de sa part à robots.txt qu'à tous les autres fichiers réunis. Heureusement, que les autres bots ne font pas cela!
Haut
Messages: 643

Enregistré le: 19 Nov 2006

Message le Sam Déc 22, 2007 20:03

A croire qu'ils le font exprès
Ils ont foutu la sauce ce soir ...

et hop blacklisté au moins pour les vacances.
Haut
Messages: 3418

Enregistré le: 28 Nov 2002

Message le Sam Déc 22, 2007 20:16

Topsitemaker a écrit:et hop blacklisté au moins pour les vacances.


VoilaBot en touche :arrow:
Haut
Messages: 133

Enregistré le: 9 Sep 2006

Message le Jeu Jan 10, 2008 14:03

bonjour,

j'ai le meme soucis, sauf qu'il me plante le serveur en error 500.

j'ai tenté un robots.txt contenant

Code: Tout sélectionner
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (http://www.voila.com/)
Disallow: /


mais ca ne marche pas, ce n'est pas la bonne syntaxe ?
Haut
Messages: 45

Enregistré le: 30 Nov 2006

Message le Mer Jan 16, 2008 15:48

User-agent: VoilaBot
Haut
Messages: 2733

Enregistré le: 15 Jan 2005

Message le Dim Jan 11, 2009 21:17

Estce que c'est la bonne syntaxe car il est en train de me mettre mon dédié dans le rouge;

Je sais le post date un peu mais c'est la première fois que je le vois aussi véloce et du coup mes sites hébergés (clients) lagguent sévère!
Haut
Messages: 53

Enregistré le: 26 Oct 2007

Message le Dim Jan 18, 2009 15:17

Idem, attention, il a changé de nom : VoilaBotCollector BETA 0.1

Saloprie va !!
Haut
Messages: 2823

Enregistré le: 10 Juil 2006

Message le Ven Mar 12, 2010 10:15

mini déterrage (1 an ca va) de ce fil suite aux agressions de nouveau présentent de ce robot :evil:
avec 150 / 180 connexions

Il a pas changé de nom depuis ou il a d'autres noms ?

User-agent: VoilaBot
User-agent: VoilaBotCollector BETA 0.1

Puis lui aussi quelle plaie : b3091037.crawl.yahoo.net
Haut
Messages: 2733

Enregistré le: 15 Jan 2005

Message le Dim Mar 21, 2010 9:03

Les ip a botter en touche:
193.252.118.173
193.252.118.174
193.252.118.175
193.252.118.176
193.252.149.13
193.252.149.14
193.252.149.15
193.252.149.16
81.52.143.15
81.52.143.16
81.52.143.26
81.52.143.29
81.52.143.30
81.52.143.31
81.52.143.32
81.52.143.33
81.52.143.34
81.52.143.35
81.52.143.36
81.52.143.37
Haut
Messages: 45

Enregistré le: 30 Nov 2006

Message le Lun Mai 10, 2010 10:26

je remonte ce topic car j'ai de nouveau des probl avec le bot voila qui attaque mes serveurs avec 10 ip différentes.

je peux bien sûr les bloquer via iptables mais autant qu'il indexe et là, je rencontre un autre problème que je n'arrive pas à résoudre ...

Voila cherche sur l'un de mes sites des url au format :

http://www.example.com/../../dossier/xxx.htm
http://www.example.com/../dossier/xxx.htm

au lieu de :
http://www.example.com/dossier/xxx.htm

j'ai tenté un rewrite dans mon htaccess, rewrite qui fonctionne parfaitement avec firefox mais toujours pas avec Voila qui génère une erreur 400.

je précise que toutes mes urls sur mon site sont complètes (http://www.example.com/dossier/xxx.htm, http://www.example.com/dossier/yyy.htm) et non relatives.

le problème est que les pages existent, mais pas sous ces urls.

Donc mon rewrite :
Code: Tout sélectionner
RewriteRule ^/../dossier/(.*).htm$ /dossier/$3.htm [L,R=301]
RewriteRule ^/../../dossier/(.*).htm$ /dossier/$4.htm [L,R=301]


Et j'insiste sur le fait que ces règles fonctionnent avec mon navigateur.

Car tant qu'à faire, autant qu'il trouve les bonnes pages.

Any Idea les pros ?
merci à tous.
Haut
Messages: 2485

Enregistré le: 7 Mai 2005

Message le Lun Mai 10, 2010 20:52

J'ai un peu les même problèmes... Il me génère des quantités monstrueuses de 404.

Depuis ce WE, j'ai radicalement changé les choses pour ce vilain robot qui veut visiter des pages que lui seul connaît !

Dans ma page d'erreur personnalisée, j'ai mis cela :

Code: Tout sélectionner
$num_erreur = $_SERVER['REDIRECT_STATUS']
$navigateur  = $_SERVER['HTTP_USER_AGENT']

// On redirige par défaut certaines 404
if ($num_erreur == 404 && $navigateur == 'Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (support.voilabot@orange-ft') {
   header ('HTTP/1.1 301 Moved Permanently');
   header('Location: http://www.science-et-vie.net/');
   exit;
}


Maintenant, il est content... Il ne trouvera jamais plus aucune 404 sur mon site :mrgreen: :mrgreen: et moi, je ne passerais plus des heures à modifier mon htaccess pour des pages que lui seul veut lire.
Haut
Messages: 1701

Enregistré le: 11 Nov 2007

Message le Mer Fév 20, 2013 11:02

Pour info, je relève cet ancien sujet mais je viens de bloquer VoilaBot : 100.000 pages en 2 jours... pour 0 visiteur (ou presque) par mois. Ca faisait des mois que je regardais l'activité délirante de ce robot français mais là, trop, c'est trop. De plus, il ne respecte pas le robots.txt puisque ça fait quand même 3 jours que je l'ai intégré mais visiblement sans succès : conclusion, blocage par htaccess.
Haut
Messages: 804

Enregistré le: 24 Jan 2003

Message le Mer Fév 20, 2013 11:10

0 visiteur ? Voila est mon deuxième apporteur de trafic moteur, bien loin devant Yahoo+Bing. Et à la fin du mois, ça fait quelques centaines de visiteurs.
Haut
Messages: 1701

Enregistré le: 11 Nov 2007

Message le Ven Fév 22, 2013 16:27

Quand je dis 0, c'est environ 500 par mois, Ask = 5.000, Bing+Yahoo = 25.000 environ (j'ai un positionnement relativement similaire sur Bing que sur Google). Même un truc comme MyWebSearch ou AOL apportent chacun 750 visiteurs (avec une excellente transformation en adsense!)... :mrgreen:
Haut
Messages: 804

Enregistré le: 24 Jan 2003

Message le Ven Fév 22, 2013 16:29

Très surprenant ! C'est le site de ton www ? Sur tous mes sites et ceux de mes clients, je n'ai jamais vu Voila à la traîne face à Bing ou Yahoo mais largement en avance ou au pire à égalité.
Haut
Messages: 1701

Enregistré le: 11 Nov 2007

Message le Ven Fév 22, 2013 16:49

Oui, c'est le .com de mon www. Franchement, vu le positionnement sur le moteur Voilà, je ne suis pas surpris de recevoir aussi peu de visites. Mais bon 500 VU pour plusieurs centaines milliers de pages crawlées tous les mois, ça n'a plus aucun intérêt. Ce site peut se permettre de perdre 20 VU/jour. :roll:
Haut
Messages: 804

Enregistré le: 24 Jan 2003

Message le Ven Fév 22, 2013 17:03

Le problème c'est dans ce que tu annonces comme chiffres, tu devrais avoir autant voir plus de trafic que Bing et Yahoo, d'où mon étonnement.

Le "bug" du Bot est peut être lié à ce mauvais positionnement. Pour une raison ou une autre (qui peut provenir de chez eux), ton site lui pose problème.

Sincèrement, je te conseillerai de les contacter. Ils répondent aux e-mails sans problème. Fait leur part de ton soucis de bot fou. Ils devraient certainement pouvoir résoudre le problème et si en plus tu arrives à gagner plus de trafic, ça serait plus judicieux que de bloquer le bot ;).
Haut
Messages: 22678

Enregistré le: 8 Aoû 2004

Message le Ven Fév 22, 2013 17:35

voila est un moteur qui est très sensible au spamindex, donc 2 solutions : soit tu travailles à fond dans le spam et là, point de vu gg tu es grillé, et sur bing, si tu abuses vraiment tu peut être grillé, sinon ça passe.
dans ce cas, effectivement, tu peux te retrouver avec plus de visites de voila que de bing/y!
mais sinon, au niveau pertinence, voila c'est :roll:
Haut
Messages: 1701

Enregistré le: 11 Nov 2007

Message le Ven Fév 22, 2013 19:33

Avec ton message, je me suis amusé à remonter aux stats de février 2008 : déjà 500 visiteurs de Voilà aussi, Yahoo : 1900 et AOL ou Windows Live faisaient 1000. Bref, comme je ne spamme pas un poil, Voilà ne pourra jamais lire des keywords ... que je n'ai pas. Après, il est possible que le linking interne (automatique avec le dictionnaire) assez poussé ne plaise pas à Voilà.

Je viens de taper manuellement quelques-unes des requêtes de mon top50, finalement, le positionnement est pas si mauvais que ça. En revanche, je ne suis pas premier avec le .com sur le nom de domaine, c'est le .tel du www de WRI!!! :mrgreen:

C'est peut-être la thématique finalement qui n'est pas porteuse sur Voilà. Je viens de réouvrir l'accès à Voilà. :roll:

Pour la pertinence, aîe ouille aîe... vive les EMD ! :lol:
Haut