Slurp New IP
5 messages • Page 1 sur 1
-

WebRankInfo - Administrateur du site

- Messages: 15808
- Inscription: Ven Avr 19, 2002 19:51
effectivement cette adresse n'est pas encore configurée
je vais vous préparer une liste des robots avant la sortie de la version 2.1
je vais vous préparer une liste des robots avant la sortie de la version 2.1
-

WebRankInfo - Administrateur du site

- Messages: 15808
- Inscription: Ven Avr 19, 2002 19:51
Voici un script MySQL à exécuter si vous souhaitez avoir la meme liste que la mienne. Si qqn a configuré d'autres robots, je suis preneur.
- Code: Tout sélectionner
#
# Structure de la table `gs_robots`
#
DROP TABLE IF EXISTS gs_robots;
CREATE TABLE gs_robots (
id smallint(7) unsigned NOT NULL auto_increment,
actif smallint(1) unsigned NOT NULL default '1',
user_agent varchar(255) NOT NULL default '',
ip1 varchar(16) NOT NULL default '',
ip2 varchar(16) NOT NULL default '',
nom varchar(255) NOT NULL default '',
detection enum('detection_user_agent','detection_ip') NOT NULL default 'detection_user_agent',
descr_fr text,
descr_en text,
url varchar(120) NOT NULL default '',
PRIMARY KEY (id),
KEY id (id)
) TYPE=MyISAM;
#
# Contenu de la table `gs_robots`
#
INSERT INTO gs_robots VALUES (1, 1, 'Googlebot/2.1 (+http://www.googlebot.com/bot.html)', '216.239.46.', '64.68.8', 'GoogleBot', 'detection_ip', 'GoogleBot est le nom du robot d\'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes.<br />\r\nNéanmoins il en existe deux sortes : le <b>Fresh Crawler</b>, dont l\'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours. Le <b>Deep Crawler</b> (ou <b>Full Crawler</b>), dont l\'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.', 'GoogleBot is the name of the crawler of Google. This robot is programmed to run on hundreds of machines simultaneously with different IP addresses.<br />Nevertheless there are two types of GoogleBot robots: the <b>Fresh Crawler</b>, whose IP address begins with 64.68.82., is the robot indexing the fresh pages recently found by Google; once visited by this robot, the pages are in the Google\'s index only for a few days. The <b>Deep Crawler</b> (or <b>Full Crawler</b>), whose IP address begins with 216.239.46., is the robot massively indexing all the documents within the Google\'s index, during around one week, just after the Google Dance.', 'http://www.googlebot.com/bot.html');
INSERT INTO gs_robots VALUES (2, 0, 'test', '.', '.', '_test', 'detection_ip', 'Ceci n\'est pas un robot à proprement parler, il est utilisé pour tester si GoogleStats est bien installé sur votre site.<br />Une fois que l\'installation est validée, pensez à désactiver ce robot.', 'This is not really a robot... it is used to test if GoogleStats is correctly installed on your site.<br />Once you have tested it, de-activate it.', '');
INSERT INTO gs_robots VALUES (3, 1, 'Pompos', '212.27.33.', '', 'Pompos', 'detection_user_agent', 'Pompos est un outil puissant d\'analyse de documents à des fins d\'indexation et de classement du Web. Le but du robot Pompos est de collecter le plus de documents possible sur le web, et ce pour le moteur dir.com.<br />', 'Pompos est un outil puissant d\'analyse de documents à des fins d\'indexation et de classement du Web. Le but du robot Pompos est de collecter le plus de documents possible sur le web, et ce pour le moteur dir.com.<br />', 'http://dir.com/pompos.html');
INSERT INTO gs_robots VALUES (4, 1, 'FAST-WebCrawler', '66.77.73.', '', 'Fast', 'detection_ip', 'Le robot de Fast / AlTheWeb', 'Used for http://www.alltheweb.com and other search engines', '');
INSERT INTO gs_robots VALUES (5, 1, 'ia_archiver', '66.28.250.', '209.237.238.', 'Alexa', 'detection_user_agent', 'Le robot d\'Alexa.', 'Used for http://www.alexa.com and http://www.archive.org internet archive', 'http://pages.alexa.com/help/webmasters/index.html');
INSERT INTO gs_robots VALUES (6, 1, 'Mercator', '204.123.28.', '', 'Mercator (Altavista)', 'detection_user_agent', 'Robot d\'Altavista', 'Altavista search indexing spider', '');
INSERT INTO gs_robots VALUES (7, 1, 'Slurp', '216.35.116.', '66.196.', 'Slurp (Inktomi)', 'detection_ip', 'Robot utilisé par Inktomi', 'Spider for http://www.inktomi.com partner sites', '');
INSERT INTO gs_robots VALUES (8, 1, 'Openfind', '66.237.60.', '', 'Openfind', 'detection_ip', 'Openfind data gatherer, Openbot/3.0+(robot-response@openfind.com.tw)<br />Used for http://www.openfind.com.tw/ search engine (Taiwan)', 'Openfind data gatherer, Openbot/3.0+(robot-response@openfind.com.tw;)<br />Used for http://www.openfind.com.tw/ search engine (Taiwan)', 'http://www.openfind.com.tw/robot.html');
INSERT INTO gs_robots VALUES (9, 1, 'Scooter', '64.152.75.114', '209.73.162.54', 'Scooter (Altavista)', 'detection_user_agent', 'Robot d\'Altavista', 'http://www.altavista.com web crawler', '');
INSERT INTO gs_robots VALUES (10, 1, 'SlySearch/1.2', '64.140.48.30', '', 'SlySearch', 'detection_user_agent', 'Robot de recherche de plagiat (www.plagiarism.com)', 'Robot searching for plagiarism (www.plagiarism.org)', 'http://www.plagiarism.org/crawler/robotinfo.html');
INSERT INTO gs_robots VALUES (11, 1, 'ASPseek/1.2.10', '198.169.127.', '', 'ASP seek', 'detection_user_agent', '', '', '');
INSERT INTO gs_robots VALUES (12, 1, 'http://www.almaden.ibm.com/cs/crawler', '66.147.154.3', '', 'Almaden', 'detection_user_agent', 'Almaden est le laboratoire de recherche d\'IBM...', '', 'http://www.almaden.ibm.com/cs/crawler');
INSERT INTO gs_robots VALUES (13, 1, 'Mozilla/2.0 (compatible; Ask Jeeves)', '65.214.36.150', '', 'Ask Jeeves', 'detection_user_agent', '', '', '');
INSERT INTO gs_robots VALUES (14, 1, 'Googlebot-Image/1.0 (+http://www.googlebot.com/bot.html)', '64.68.84.', '', 'Googlebot-Image', 'detection_user_agent', 'Robot d\'indexation des images de Google', 'Image Google crawler', 'http://www.googlebot.com/bot.html');
INSERT INTO gs_robots VALUES (15, 1, 'TurnitinBot', '64.140.48.', '', 'Turnitin', 'detection_user_agent', '', '', 'http://www.turnitin.com/robot/crawlerinfo.html');
INSERT INTO gs_robots VALUES (16, 1, 'Mozilla/4.0 (compatible; MSIE 5.0; Windows 95) VoilaBot; 1.6', '195.101.94.', '', 'VoilaBot', 'detection_user_agent', 'Le robot de Voila', 'Voila search engine robot', '');
INSERT INTO gs_robots VALUES (17, 1, 'Mozilla/4.0 compatible ZyBorg/1.0 (ZyBorg@WISEnutbot.com; http://www.WISEnutbot.com)', '209.249.66', '209.249.67', 'ZyBorg (WiseNut)', 'detection_user_agent', 'Robot de WiseNut', 'WiseNut\'s robot', 'http://www.wisenutbot.com/');
INSERT INTO gs_robots VALUES (18, 1, 'DeepIndex', '', '', 'DeepIndex', 'detection_user_agent', 'DeepIndex est le principal robot d\'indexation de DeepIndex le moteur de recherche. Ce robot fonctionne sur plusieurs machines et alimente la base de recherche principale du moteur en permanence. Il respecte les normes W3C en matière de robot d\'indexation et suit les indications du fichier robots.txt et/ou du meta-tag robots. Il est programmé pour ne pas saturer les serveurs.', 'DeepIndex is the name of the searchengine bot of DeepIndex european searchengine. The bot works on several computers to feed the DeepIndex main base. The bot does follow robots.txt and/or meta-tag robots and respects the W3C recommandations for indexing robots. The bot is programmed to be polite with your server.', 'http://www.webrankinfo.com/deepindex/');
INSERT INTO gs_robots VALUES (19, 1, 'exabot', '', '', 'Exabot', 'detection_user_agent', 'Robot de Exalead.', 'Exalead\'s robot.', 'http://www.exalead.com/');
INSERT INTO gs_robots VALUES (20, 1, 'MicrosoftPrototypeCrawler', '131.107.', '', 'MS Prototype', 'detection_user_agent', 'Robot de Microsoft', 'Microsoft\'s Robot', '');
INSERT INTO gs_robots VALUES (21, 1, 'Surfnomore Spider', '165.90.194.', '66.28.249.', 'Surfnomore', 'detection_user_agent', 'Moteur de recherche en construction', 'A future search engine...', 'http://www.surfnomore.com');
5 messages • Page 1 sur 1
Lectures recommandées sur ce thème :
- Petit changement pour Slurp (le robot de Yahoo)
- Les crawlers de Yahoo!
- Yahoo Slurp et autres robots d'indexation de Yahoo
- Robots.txt : Yahoo supporte les options avancées
- La balise meta NOYDIR de Yahoo
- Référencement : gestion des redirections par Yahoo
- Comment faire ignorer des zones de page pour Yahoo (robots-nocontent)
- Changements dans l'algorithme de Yahoo (sept 2007)
- Référencement : le problème des sessions des pages PHP
- Passage du robot Inktomi Slurp mais pas de Yahoo Slurp
- Question pour intello, slurp, slurp ... bizzarerie mots clés
- Slurp
- Yahoo slurp FR vs US ?
- yahoo Slurp crawle que /
- Bug pour Slurp ?
- Slurp Yahoo et Inktomi
- dernière visite de Slurp?
- Nouvelle IP pour Slurp?
- Yahoo Slurp et les redirections
- yahoo slurp comment faire?
- Erreur %E2%8C%A9=en avec Yahoo-slurp
- Slurp bouffe beacoup trop
- gros crawl yahoo slurp
- Slurp aime les 404
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités



le forum