Detection robots SPAM
10 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
- Selection A
- WRInaute impliqué

- Messages: 255
- Inscription: Lun Mar 14, 2005 11:20
Detection robots SPAM
Bonjour,
Pour mon site, je suis en train de développer une sorte de tag cloud car les solutions clés en mains ne me satisfaisaient pas!
En gros lors de visite sur certaines pages de mon site, j'execute une requete SQL INSERT permettant d'enregistrer un "tag".
Il m'a été facile d'empécher l'execution de cette requete SQL par les robots des grands moteurs de recherches (détection via HTTP_USER_AGENT).
Mais en consultant ma table SQL de tag je me suis appercut d'un nombre considérable de lignes venant de robots SPAMMEUR (date des insert proches, ip différentes, user agent modifié pour approché ceux des naigateur).
Avez-vous des idées pour détecter automatiquement ces robots SPAMMEUR ?
Pour mon site, je suis en train de développer une sorte de tag cloud car les solutions clés en mains ne me satisfaisaient pas!
En gros lors de visite sur certaines pages de mon site, j'execute une requete SQL INSERT permettant d'enregistrer un "tag".
Il m'a été facile d'empécher l'execution de cette requete SQL par les robots des grands moteurs de recherches (détection via HTTP_USER_AGENT).
Mais en consultant ma table SQL de tag je me suis appercut d'un nombre considérable de lignes venant de robots SPAMMEUR (date des insert proches, ip différentes, user agent modifié pour approché ceux des naigateur).
Avez-vous des idées pour détecter automatiquement ces robots SPAMMEUR ?
- Selection A
- WRInaute impliqué

- Messages: 255
- Inscription: Lun Mar 14, 2005 11:20
Le "tag" est un mot clé présent dans l'adresse web de la page !
Ma requete sql insert dans une table le date, le tag, l'adresse et le user agent .
Ma requete sql insert dans une table le date, le tag, l'adresse et le user agent .
en clair, c'est un mini système de stats, c'est ça ?
dont tu as déjà exclu des robots (user agents connus) et tu voudrais exclure aussi les robots spammeurs.
2 solutions :
bloquer par rapport à une certaine vitesse de crawl
mettre un lien vers une page bloquée par robots.txt et si cette page est demandée, bloquer l'ip
dont tu as déjà exclu des robots (user agents connus) et tu voudrais exclure aussi les robots spammeurs.
2 solutions :
bloquer par rapport à une certaine vitesse de crawl
mettre un lien vers une page bloquée par robots.txt et si cette page est demandée, bloquer l'ip
- Selection A
- WRInaute impliqué

- Messages: 255
- Inscription: Lun Mar 14, 2005 11:20
Leonick a écrit:en clair, c'est un mini système de stats, c'est ça ?
Oui un mini système de stat utiles pour les internautes
Leonick a écrit:bloquer par rapport à une certaine vitesse de crawl
Difficile à faire car j'ai déja mis en place un bloquage par vitesse de crawl basé sur l'adresse ip (en gros pour bloquer le multi rafraichissement) mais le problème de ces robots c est qu'ils ont une adresse ip qui change tout le temps
Leonick a écrit:mettre un lien vers une page bloquée par robots.txt et si cette page est demandée, bloquer l'ip
Je suis pas sur d'avoir compris... En plus je pense que ces type de robots ce moque pas mal du fichier robots.txt
Le problème du bloquage par ip est de connaitre la plage d'ip à bloquer
Si d'ailleurs vous avez une sorte de liste d'adresse ip à bannir ???
d'où justement son intérêt.Selection A a écrit:Leonick a écrit:mettre un lien vers une page bloquée par robots.txt et si cette page est demandée, bloquer l'ip
Je suis pas sur d'avoir compris... En plus je pense que ces type de robots ce moque pas mal du fichier robots.txt
Tu mets un lien sur ta page d'accueil vers paslire.html en indiquant (ne pas suivre ce lien - pour l'internaute) et tu bloques paslire.html dans robots.txt
le robot spammeur va suivre tous les liens de la page et, ne s'occupant pas de robots.txt, va lire ta page paslire.html et là, tu bloques l'ip
- Selection A
- WRInaute impliqué

- Messages: 255
- Inscription: Lun Mar 14, 2005 11:20
ok j'ai compris. C'est la bonne vieille technique du pot de miel !
Par contre j'aime pas trop l'idée d'un lien sur la page d'accueil... Faudrait trouver une solution transparente pour l'utilisateur mais mes connaissances avec robots.txt sont limités.
Dans un script php je met :
et dans mon robots.txt je met :
Est ce que les robots "gentils" vont lire mapage.php ?
Par contre j'aime pas trop l'idée d'un lien sur la page d'accueil... Faudrait trouver une solution transparente pour l'utilisateur mais mes connaissances avec robots.txt sont limités.
Dans un script php je met :
- Code: Tout sélectionner
include("mapage.php");
et dans mon robots.txt je met :
- Code: Tout sélectionner
Disallow: /mapage.php
Est ce que les robots "gentils" vont lire mapage.php ?
En utilisant
User-Agent: *
Disallow: /mapage.php
les robots bien élevés ne doivent pas parcourir la page.
Malheureusement, Yahoo version 3 et d'autres vont la lire...
Pour les robots spammeurs, de toutes façons, cela ne sert à rien puisqu'ils ne consultent pas robots.txt
De plus, ils utilisent des proxies.
La détection automatique est risquée et difficile.
Une méthode assez efficace pour éviter ces robots, c'est de rediriger la requête vers la page après avoir initialisé un cookie ou une variable de session quand l'User Agent n'est pas celui d'un robot connu.
Ces robots n'acceptent pas d'être redirigés.
User-Agent: *
Disallow: /mapage.php
les robots bien élevés ne doivent pas parcourir la page.
Malheureusement, Yahoo version 3 et d'autres vont la lire...
Pour les robots spammeurs, de toutes façons, cela ne sert à rien puisqu'ils ne consultent pas robots.txt
De plus, ils utilisent des proxies.
La détection automatique est risquée et difficile.
Une méthode assez efficace pour éviter ces robots, c'est de rediriger la requête vers la page après avoir initialisé un cookie ou une variable de session quand l'User Agent n'est pas celui d'un robot connu.
Ces robots n'acceptent pas d'être redirigés.
- Selection A
- WRInaute impliqué

- Messages: 255
- Inscription: Lun Mar 14, 2005 11:20
Dan_A a écrit:Une méthode assez efficace pour éviter ces robots, c'est de rediriger la requête vers la page après avoir initialisé un cookie ou une variable de session quand l'User Agent n'est pas celui d'un robot connu.
Tu peux etre plus claire je n'ai pas compris
10 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Algorithme de détection du link spam de masse
- Articles de R et D sur le PageRank, le SpamRank et le spam...
- Des informations sur l'algorithme de Yahoo Search fournies par Priyank Garg
- Description du TrustRank de Google
- Sortie de GoogleStats v2.01
- Les crawlers de Yahoo!
- l'attribut rel=nofollow contre le spam de commentaires ?
- Spam Report Google : explications en français...
- Google crawle les fichiers CSS
- Les robots MSNbot de Live Search
- pas de détection des robots
- [Robots] Tests , detection , indexation.
- Detection des robots / htaccess
- améliorer la détection des robots
- [Article] Link Spam Detection Based on Mass Estimation
- Site modifié par detection de robots
- Détection des robots Almaden et Pompos
- detection des robots sur pages htm?
- script anti-spam robots et anti-pirates...
- [SPAM] Moins de spam depuis quelques jours
- [SPAM] Spam violent de soumission de formulaire automatique
- Stop le spam avec Spam Poison Community
- robots.txt et balise meta robots, incompatibilité ?
- Interdire certains robots ? Comment ? Quels robots ?
- Détection du navigateur + Reroutage
Consultez la description détaillée des produits ou services de Google suivants : Google TrustRank
- Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Tester la validité d'un lien
Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).
Qui est en ligne
Utilisateurs parcourant ce forum: crocknaboton et 0 invités





le forum