/!\ aspirateur de site et anti référencement ...
21 messages • Page 2 sur 2 • 1, 2
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
-

absoluteweb - WRInaute impliqué

- Messages: 474
- Inscription: Ven Nov 22, 2002 16:02
Je préfère laisser passer certains aspirateurs que de devoir tenir à jour une liste non exhaustive d'IP...
Bonjour.
Je suis le webmaster de Toulouse-Renaissance qu’a cité " absoluteweb ".
Comme rien n’est statique en informatique, et afin d’améliorer mon script, je suis intéressé de connaître les aspirateurs qui respectent le protocole robots.txt car, pour ma part, je n’en connais pas.
Je suis le webmaster de Toulouse-Renaissance qu’a cité " absoluteweb ".
Comme rien n’est statique en informatique, et afin d’améliorer mon script, je suis intéressé de connaître les aspirateurs qui respectent le protocole robots.txt car, pour ma part, je n’en connais pas.
-

absoluteweb - WRInaute impliqué

- Messages: 474
- Inscription: Ven Nov 22, 2002 16:02
Bonjour,Maleville a écrit:Je suis le webmaster de Toulouse-Renaissance qu’a cité " absoluteweb ".
J'utilise ton script depuis 2 semaines environ et j'en suis satisfait. J'ai juste rencontré un "gros" problème avec les commentaires que tu ajoutes à la fin des lignes d'IP pour indiquer la date. Ma version d'Apache génère des Warning à ce sujet (il faut mettre des " autour des commentaires) et compte tenu du nombre de visites et d'aspirateurs bannis, mon error log apache s'est saturé ! J'ai passé une heure avant de comprendre le problème.
Le script me bloque 3-5 aspirateurs par jour, ce qui me semble assez conséquent. s'agit-il forcement "d'aspirateurs", au sens robots qui visitent toute les pages de mon site ?
Nicolas.
Pas forcément. L’expérience montre que ceux qui se retrouvent souvent bloqués (30% des visiteurs)sont les utilisateurs de Firefox qui fréquemment désactivent, dans un excès de prudence, JavaScript et peuvent suivrent ainsi le lien interdit. Ce qui donne, par exemple :
Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1
Mozilla/5.0 (X11; U; Linux i686; fr-FR; rv:1.7.12) Gecko/20050920 Firefox/1.0.7
Etc.
Car je ne vois pas quelle autre fonction courante dans Firefox permet d’accéder au lien caché. Mais peut-être, existe t’elle.
Les possesseurs d’Internet Explorer, dans la grande majorité, ne désactivent pas JavaScript.
Il serait peut-être utile alors d’introduire la balise "meta" suivante :
<NOSCRIPT>
<meta http-equiv="refresh" content="0;URL=http://www.votre-domaine.com/pas-de-javascript.html">
</NOSCRIPT>
qui redirigerait les visiteurs n’ayant pas JavaScript activé sur une page d’information. Mais cela ne va t’il pas influencer Google qui n’aime pas du tout la balise "meta refresh 0" ? A y réfléchir.
En revanche, ceux dont l’URL suivit est :
^/_vti_bin/owssvr.dll?UL=1&ACT=4&BUILD=2614&STRMVER=4&CAPREQ=0
semblerait avoir la barre de discussion d’Internet Explorer ouverte. C’est ce qui ressort des forums anglo-saxons.
Puisqu’on en est à parler du blocage automatique par IP, il peut être intéressant pour toi d’employer un automatisme pour « nettoyer » le fichier .htaccess car le faire manuellement est assez fastidieux.
Pour cela j’ai fait un petit script qui observe à intervalle régulier le fichier .htaccess pour en vérifier la présence, vérifier s’il n’a pas été endommagé et le remplacer lorsqu’il devient trop important par l’ajout d’IP. Pour ceux qui sont sur un serveur mutualisé, cette simulation de tâche CRON leur sera très utile d’autant que ce script peut servir à toute autre tâche programmée. Je ne donnerai pas ici le lien direct qui renvoie au script mais une recherche sur mon site avec le mot clef "CRON" y mènera.
En échange de bon procédé, et pour que d’autres ne tombent pas dans le piège, il me serait utile de connaître le détail de ton problème rencontré avec la ligne de remarque (Nom de l’hébergeur, type de serveur -mutualisé-privé, version Apache, syntaxe exacte d’une ligne corrigée avec les ""etc.)
Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1
Mozilla/5.0 (X11; U; Linux i686; fr-FR; rv:1.7.12) Gecko/20050920 Firefox/1.0.7
Etc.
Car je ne vois pas quelle autre fonction courante dans Firefox permet d’accéder au lien caché. Mais peut-être, existe t’elle.
Les possesseurs d’Internet Explorer, dans la grande majorité, ne désactivent pas JavaScript.
Il serait peut-être utile alors d’introduire la balise "meta" suivante :
<NOSCRIPT>
<meta http-equiv="refresh" content="0;URL=http://www.votre-domaine.com/pas-de-javascript.html">
</NOSCRIPT>
qui redirigerait les visiteurs n’ayant pas JavaScript activé sur une page d’information. Mais cela ne va t’il pas influencer Google qui n’aime pas du tout la balise "meta refresh 0" ? A y réfléchir.
En revanche, ceux dont l’URL suivit est :
^/_vti_bin/owssvr.dll?UL=1&ACT=4&BUILD=2614&STRMVER=4&CAPREQ=0
semblerait avoir la barre de discussion d’Internet Explorer ouverte. C’est ce qui ressort des forums anglo-saxons.
Puisqu’on en est à parler du blocage automatique par IP, il peut être intéressant pour toi d’employer un automatisme pour « nettoyer » le fichier .htaccess car le faire manuellement est assez fastidieux.
Pour cela j’ai fait un petit script qui observe à intervalle régulier le fichier .htaccess pour en vérifier la présence, vérifier s’il n’a pas été endommagé et le remplacer lorsqu’il devient trop important par l’ajout d’IP. Pour ceux qui sont sur un serveur mutualisé, cette simulation de tâche CRON leur sera très utile d’autant que ce script peut servir à toute autre tâche programmée. Je ne donnerai pas ici le lien direct qui renvoie au script mais une recherche sur mon site avec le mot clef "CRON" y mènera.
En échange de bon procédé, et pour que d’autres ne tombent pas dans le piège, il me serait utile de connaître le détail de ton problème rencontré avec la ligne de remarque (Nom de l’hébergeur, type de serveur -mutualisé-privé, version Apache, syntaxe exacte d’une ligne corrigée avec les ""etc.)
-

absoluteweb - WRInaute impliqué

- Messages: 474
- Inscription: Ven Nov 22, 2002 16:02
Maleville a écrit:En échange de bon procédé, et pour que d’autres ne tombent pas dans le piège, il me serait utile de connaître le détail de ton problème rencontré avec la ligne de remarque (Nom de l’hébergeur, type de serveur -mutualisé-privé, version Apache, syntaxe exacte d’une ligne corrigée avec les ""etc.)
Serveur dédié, Apache 1.3.34
Lignes posant problème:
SetEnvIf Remote_Addr ^218\.223\.149\.144$ ban # 04-04-2006 (Tue) 01:36:12
Lignes ne posant plus problème:
SetEnvIf Remote_Addr ^218\.223\.149\.144$ ban "# 04-04-2006 (Tue) 01:36:12"
Nicolas.
21 messages • Page 2 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- anti-aspirateur
- Anti aspirateur URGENT ?
- mod_rewrite et anti aspirateur
- .htaccess anti-aspirateur de site
- Script php Anti aspirateur.
- Anti aspirateur: ne pas bloquer Google
- Anti aspirateur de site : une idée
- Mon script anti-aspirateur a blacklisté googlebot.
- Script anti-aspirateur et Google (et les autres...)
Consultez la description détaillée des produits ou services de Google suivants : Google Sandbox
- Synthèse du référencement Google
Cet outil vous donne un petit résumé de l'état de référencement de votre site dans Google. - Logiciel de référencement AgentWebRanking
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés. - Partenaires pour échanger des liens
Cet outil vous liste quelques sites qui font des liens vers des sites similaires au vôtre, pour vous aider à trouver des partenaires pour des échanges de liens. - Transformer des citations en liens
Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink). - Tester le type de redirection
Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


le forum