/!\ aspirateur de site et anti référencement ...

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

Albert1
WRInaute passionné
WRInaute passionné
 
Messages: 935
Inscription: Mar Aoû 23, 2005 15:13

Message le Dim Mar 19, 2006 1:49

cdpdf a écrit:C'est tres facile à contourner, car je sais que certains aspirateurs permettent de respecter le fichier robots.txt

tout à fait :wink:


absoluteweb
WRInaute impliqué
WRInaute impliqué
 
Messages: 474
Inscription: Ven Nov 22, 2002 16:02

Message le Dim Mar 19, 2006 1:54

Je préfère laisser passer certains aspirateurs que de devoir tenir à jour une liste non exhaustive d'IP...

Maleville
Nouveau WRInaute
 
Messages: 27
Inscription: Jeu Déc 05, 2002 13:01

Message le Dim Avr 02, 2006 6:59

Bonjour.

Je suis le webmaster de Toulouse-Renaissance qu’a cité " absoluteweb ".
Comme rien n’est statique en informatique, et afin d’améliorer mon script, je suis intéressé de connaître les aspirateurs qui respectent le protocole robots.txt car, pour ma part, je n’en connais pas.


absoluteweb
WRInaute impliqué
WRInaute impliqué
 
Messages: 474
Inscription: Ven Nov 22, 2002 16:02

Message le Dim Avr 02, 2006 9:42

Maleville a écrit:Je suis le webmaster de Toulouse-Renaissance qu’a cité " absoluteweb ".
Bonjour,
J'utilise ton script depuis 2 semaines environ et j'en suis satisfait. J'ai juste rencontré un "gros" problème avec les commentaires que tu ajoutes à la fin des lignes d'IP pour indiquer la date. Ma version d'Apache génère des Warning à ce sujet (il faut mettre des " autour des commentaires) et compte tenu du nombre de visites et d'aspirateurs bannis, mon error log apache s'est saturé ! J'ai passé une heure avant de comprendre le problème.

Le script me bloque 3-5 aspirateurs par jour, ce qui me semble assez conséquent. s'agit-il forcement "d'aspirateurs", au sens robots qui visitent toute les pages de mon site ?

Nicolas.

Maleville
Nouveau WRInaute
 
Messages: 27
Inscription: Jeu Déc 05, 2002 13:01

Message le Mer Avr 05, 2006 6:56

Pas forcément. L’expérience montre que ceux qui se retrouvent souvent bloqués (30% des visiteurs)sont les utilisateurs de Firefox qui fréquemment désactivent, dans un excès de prudence, JavaScript et peuvent suivrent ainsi le lien interdit. Ce qui donne, par exemple :

Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1
Mozilla/5.0 (X11; U; Linux i686; fr-FR; rv:1.7.12) Gecko/20050920 Firefox/1.0.7
Etc.
Car je ne vois pas quelle autre fonction courante dans Firefox permet d’accéder au lien caché. Mais peut-être, existe t’elle.
Les possesseurs d’Internet Explorer, dans la grande majorité, ne désactivent pas JavaScript.
Il serait peut-être utile alors d’introduire la balise "meta" suivante :

<NOSCRIPT>
<meta http-equiv="refresh" content="0;URL=http://www.votre-domaine.com/pas-de-javascript.html">
</NOSCRIPT>

qui redirigerait les visiteurs n’ayant pas JavaScript activé sur une page d’information. Mais cela ne va t’il pas influencer Google qui n’aime pas du tout la balise "meta refresh 0" ? A y réfléchir.

En revanche, ceux dont l’URL suivit est :
^/_vti_bin/owssvr.dll?UL=1&ACT=4&BUILD=2614&STRMVER=4&CAPREQ=0
semblerait avoir la barre de discussion d’Internet Explorer ouverte. C’est ce qui ressort des forums anglo-saxons.

Puisqu’on en est à parler du blocage automatique par IP, il peut être intéressant pour toi d’employer un automatisme pour « nettoyer » le fichier .htaccess car le faire manuellement est assez fastidieux.
Pour cela j’ai fait un petit script qui observe à intervalle régulier le fichier .htaccess pour en vérifier la présence, vérifier s’il n’a pas été endommagé et le remplacer lorsqu’il devient trop important par l’ajout d’IP. Pour ceux qui sont sur un serveur mutualisé, cette simulation de tâche CRON leur sera très utile d’autant que ce script peut servir à toute autre tâche programmée. Je ne donnerai pas ici le lien direct qui renvoie au script mais une recherche sur mon site avec le mot clef "CRON" y mènera.

En échange de bon procédé, et pour que d’autres ne tombent pas dans le piège, il me serait utile de connaître le détail de ton problème rencontré avec la ligne de remarque (Nom de l’hébergeur, type de serveur -mutualisé-privé, version Apache, syntaxe exacte d’une ligne corrigée avec les ""etc.)


absoluteweb
WRInaute impliqué
WRInaute impliqué
 
Messages: 474
Inscription: Ven Nov 22, 2002 16:02

Message le Mer Avr 05, 2006 8:47

Maleville a écrit:En échange de bon procédé, et pour que d’autres ne tombent pas dans le piège, il me serait utile de connaître le détail de ton problème rencontré avec la ligne de remarque (Nom de l’hébergeur, type de serveur -mutualisé-privé, version Apache, syntaxe exacte d’une ligne corrigée avec les ""etc.)

Serveur dédié, Apache 1.3.34

Lignes posant problème:
SetEnvIf Remote_Addr ^218\.223\.149\.144$ ban # 04-04-2006 (Tue) 01:36:12

Lignes ne posant plus problème:
SetEnvIf Remote_Addr ^218\.223\.149\.144$ ban "# 04-04-2006 (Tue) 01:36:12"

Nicolas.

/!\ aspirateur de site et anti référencement ...

Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Sandbox

  • Synthèse du référencement Google
    Cet outil vous donne un petit résumé de l'état de référencement de votre site dans Google.
  • Logiciel de référencement AgentWebRanking
    AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
  • Partenaires pour échanger des liens
    Cet outil vous liste quelques sites qui font des liens vers des sites similaires au vôtre, pour vous aider à trouver des partenaires pour des échanges de liens.
  • Transformer des citations en liens
    Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).
  • Tester le type de redirection
    Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités