Détecter les Bots sur un site
17 messages
• Page 1 sur 2 • 1, 2
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

cloacking - WRInaute impliqué

- Messages: 722
- Inscription: 20 Oct 2004
Détecter les Bots sur un site
Bonjour,
Je souhaiterais reconnaitre sur mon site s'il s'agit d'un humain ou d'un robot.
J'ai fait un script du genre
Cependant j'ai visiblement plusieurs bot de chez Google qui ne respecte pas ma détection de l'useragent.
ai je oublié quelque chose ?
Les ip's concernés sont : 66.249.72.50, 66.249.72.115, 66.249.72.12, etc ...
Je souhaiterais reconnaitre sur mon site s'il s'agit d'un humain ou d'un robot.
J'ai fait un script du genre
- Code: Tout sélectionner
$userAgent = getenv('HTTP_USER_AGENT');
if ( !ereg('([bB]ot|[sS]pider|[yY]ahoo|Rambler|Yahoo|AbachoBOT|accoona|ASPSeek|CocoCrawler|
FAST-WebCrawler|Lycos|MSRBOT|Scooter|AltaVista|eStyle|Scrubby|ia_archiver|ai_archiver|WebCrawler|
abacho | Abacho | adibot | Adifco | spiderman | AESOP | albertbot | AlbertBot | fast | All The Web | overture | All The Web | alpavista | Alpavista | mercator | Alta Vista | scooter | Alta Vista | altavista | AltaVista | aranhabot | Amazon.com | amfibi | Amfibi | amibot | Amidalla | anthill | Anthill | antibot | AntiSearch | aquiseeker | Aquiseeker | arks | Arks | ask | Ask | atom | AtomZ | attentio | Attentio | amiga-aweb | AWeb-Amiga | baiduspider | Baidu | msnbot | Bing | bitmagic | BitMagic | biz360 | Biz360 | blekko | Blekko | bnf.fr_bot | BnF | bspider | BSpider | busca | BuscaPique | cassandra | Cassandra | ccbot | CCBot | cityreview | CityReview | clushbot | Clush | comodo | Comodo | lwp-trivial | CPAN | twiceler | Cuill | cydralspider | Cydral | daum | Daum | deepindex | DeepIndex | Dillo | Dillo | pompos | Dir.com | dittospider | Ditto | tagword | DMOZ | dnabot | DNA | domnutch | DomNutch | dotbot | Dot | ecxi | Ecxi | enigmabot | Enigma | speedy | EntireWeb | envolk | Envolk | euripbot | Eurip | arachnoidea | Euroseek | exactseek | Exact Seek | exabot | ExaLead | architextspider | Excite | fastbot | Fast Search | fast-webcrawler | Fast Web Crawler | finebot | FineSearch | freecrawl | FreeCrawl | gaisbot | Gais | geckobot | Gecko | geohasher | GeoHasher | geonabot | Geona | gigabot | GigaBlast | ocelli | GlobalSpec | googlebot | Google | mediapartners | Google AD-Sense | adsbot | Google AD-Words | feedfetcher | Google Feedfetcher | gralon | Graal | heritrix | Heritrix | homerbot | HomerWeb | toutatis | Hoppa | hotbot | HotBot | aitcsrobot | HTML Index Search | almaden | IBM | ichiro | Ichiro | sidewinder | InfoSeek | ultraseek | InfoSeek | inktomi | Inktomi | ia_archiver | Internet Archive | internetseer | InternetSeer | irlbot | IRL-Crawler | isidorus | Isidorus | ixquick | IxQuick | jyxobot | Jyxo | kmccrew | KmcCrew | kumkie | KumKie | larbin | Larbin | legs | Legs | lexibot | LexiBot | spiderguy | Lexis-Nexis | lexxebot | Lexxe | libertyw | LibertyW | linkchecker | LinkChecker | grub | LookSmart | mantraagent | LookSmart | martini | LookSmart | lycos | Lycos | t-rex | Lycos | vachercher | Lycos | wobot | Magellan | magpie | Magpie | mj12bot | Majestic-12 | casper | MaMa | megabot | MegaGlobe | mlbot | MetaDataLabs | sandcrawler | Microsoft | msrbot | Microsoft Research | henrilerobotmirago | Mirago | henrythemiragorobot | Mirago | findwhat | Miva | miva | Miva / FindWhat | msnbot-media | MSN Media | dumrobo | Naver | naverbot | Naver | dloader | Naver | netcraft | NetCraft | netvibes | NetVibes | nomad | Nomad | gulliver | NorthernLight | nutch | Nutch | openbot | OpenFind | openwebspider | OpenWeb | orangebot | Orange | panelbot | PanelBot | patwebbot | PatSearch | peerbot | PeerBot | picosearch | Pico Search | psbot | PicSearch | pipeliner | Pipeline Search | powermarks | Powermarks | purebot | PureBot | sapo | Sapo | sbider | SBIder | imspider | ScanSoft | scoutjet | ScoutJet | scrubby | Scrub the Web | scilla.pl | Scylla | fluffy | Search Hippo | searchspider | SearchSpider | seoengbot | SEO Engine | sightquest | SightQuest | simplepie | SimplePie | asterias | SingingFish | sitespider | Site Spider | sledink | Sledink | sleipnir | Sleipnir | slik | Slider | slysearch | SlySearch | snapbot | Snap.com | snoopy | Snoopy | sogou | Sogou Spider | solomono | Solomono | sosospider | Soso | spiderku | SpiderKU | suchtop-bot | Suchtop-Bot | summify | Summify | swoogle | Swooglebot | sygol | Sygol | synobot | Synomia | szukacz | Szukacz | taco | Taco Bell | teoma | Teoma | directhit | Teoma | tide | Tide | tineye | TinEye | titan | Titan | tovero | Tovero | twengabot | Twenga | ubicrawler | Ubi | underscorebot | UnderScore | utse | Utse | verticrawl | VertiCrawl | voila | Voila | echo | Voila | amiga | Voyager | voyager | Voyager | w3mir | W3Mir | appie | Walhello | wasabot | Wasa | archive.org_bot | Web Archive | root | Web Core | sitewinder | Webwasher | wget | WGet | winona | WhatUseek | surveybot | WhoIs | wikia | Wikia | wikiwix | Wikiwix | willow | Willow | vagabondo | WiseGuys | wisenut | WiseNut | zyborg | WiseNut | yacy | Yacy | yahooseeker | Yahoo! | slurp | Yahoo! | yandex | Yandex | yaub | Yauba | yellspider | Yell | yeti | Yeti | zao | Zao | zealbot | Zeal | zibber | Zibber | zibie | Zibie | zoomspider | Zoom)', $userAgent))
{
// Mon instruction
}
Cependant j'ai visiblement plusieurs bot de chez Google qui ne respecte pas ma détection de l'useragent.
ai je oublié quelque chose ?
Les ip's concernés sont : 66.249.72.50, 66.249.72.115, 66.249.72.12, etc ...
-

cloacking - WRInaute impliqué

- Messages: 722
- Inscription: 20 Oct 2004
Re: Détecter les Bots sur un site
Bonjour et merci de ta réponse 
Je ne connais pas $_SERVER['HTTP_X_REQUESTED_WITH'], je vais regarder
Quant à la finalité, c'est pour une régie de pub internet donc on incrémente les affichages de +1 si c'est un humain car sinon les stats sont faussées
Je ne connais pas $_SERVER['HTTP_X_REQUESTED_WITH'], je vais regarder
Quant à la finalité, c'est pour une régie de pub internet donc on incrémente les affichages de +1 si c'est un humain car sinon les stats sont faussées
-

spout - WRInaute accro

- Messages: 4378
- Inscription: 14 Mai 2003
Re: Détecter les Bots sur un site
Donc dans ce cas tu pourrais passer par AJAX / $_SERVER['HTTP_X_REQUESTED_WITH'].
Source: http://snipplr.com/view/16624/
- Code: Tout sélectionner
function isAjax ()
{
if (
isset($_SERVER['HTTP_X_REQUESTED_WITH'])
&& $_SERVER['HTTP_X_REQUESTED_WITH'] == "XMLHttpRequest")
return true;
return false;
}
Source: http://snipplr.com/view/16624/
-

spout - WRInaute accro

- Messages: 4378
- Inscription: 14 Mai 2003
Re: Détecter les Bots sur un site
HTML:
jQuery:
Ainsi les bots ne chargeront pas la publicité.
publicite.php:
(le test isAjax() est optionnel)
Je vois pas comment mieux expliquer un truc qui me semble simple
- Code: Tout sélectionner
<div id="publicite"></div>
jQuery:
- Code: Tout sélectionner
$(function(){
$('#publicite').load('publicite.php');
});
Ainsi les bots ne chargeront pas la publicité.
publicite.php:
- Code: Tout sélectionner
<?php
function isAjax ()
{
if (
isset($_SERVER['HTTP_X_REQUESTED_WITH'])
&& $_SERVER['HTTP_X_REQUESTED_WITH'] == "XMLHttpRequest")
return true;
return false;
}
if (isAjax()) {
//code HTML pour afficher la pub
}
else {
echo 'Rien à voir ici';
}
?>
(le test isAjax() est optionnel)
Je vois pas comment mieux expliquer un truc qui me semble simple
-

cloacking - WRInaute impliqué

- Messages: 722
- Inscription: 20 Oct 2004
Re: Détecter les Bots sur un site
il y en a encore qui passe 
IP address: 209.85.228.93
IP country: United States
IP Address state: California
IP Address city: Mountain View
IP postcode: 94043
IP latitude: 37.4192
IP longitude: -122.0574
ISP: Google
Organization: Google
IP address: 209.85.228.93
IP country: United States
IP Address state: California
IP Address city: Mountain View
IP postcode: 94043
IP latitude: 37.4192
IP longitude: -122.0574
ISP: Google
Organization: Google
-

Leonick - WRInaute accro

- Messages: 19592
- Inscription: 8 Aoû 2004
Re: Détecter les Bots sur un site
ne pas oublier qu'il y a des surfs classiques en provenance des ip des bot, ne serait-ce que pour les équipes qualités pour vérifier les sites (par exemple pour voir s'il y a du cloaking), ainsi que pour faire un snapshot pour les aperçus de gg, et puis, avec les directives de panda, pour vérifier si un site a trop de pubcloacking a écrit:Je sais pas si c'est un bot mais ça vient de chez google
si tu veux juste éviter que les robots n'affichent ta pub, il suffit de la bloquer en robots.txt
-

cloacking - WRInaute impliqué

- Messages: 722
- Inscription: 20 Oct 2004
Re: Détecter les Bots sur un site
Merci de la réponse Leonick mais ça fait quand même beaucoup de visite si elles sont humaines ...
Je ne veux pas empêcher les robots de voir la publicité, ils peuvent la voir pas de souci
C'est juste que je ne veux pas que ça incrémente le nombre d'affichage, là est le problème ?
Pour le robot txt je vais voir
Je ne veux pas empêcher les robots de voir la publicité, ils peuvent la voir pas de souci
C'est juste que je ne veux pas que ça incrémente le nombre d'affichage, là est le problème ?
Pour le robot txt je vais voir
-

Leonick - WRInaute accro

- Messages: 19592
- Inscription: 8 Aoû 2004
Re: Détecter les Bots sur un site
pourquoi ne pas utiliser DFP ? comme ça ça sera gg qui gérera ça et faire le tri entre vrai internaute et bot, ils savent le fairecloacking a écrit:C'est juste que je ne veux pas que ça incrémente le nombre d'affichage, là est le problème ?
-

cloacking - WRInaute impliqué

- Messages: 722
- Inscription: 20 Oct 2004
Re: Détecter les Bots sur un site
tout simplement car on souhaite gérer en internet et que DFP est trop complexe pour les petits clients qui ne viennent pas du monde du net 
Le fait que les moteurs soient comptabilisés ne causent pas trop de problèmes car on vend au clic mais ça fausse le CTR
Le fait que les moteurs soient comptabilisés ne causent pas trop de problèmes car on vend au clic mais ça fausse le CTR
17 messages
• Page 1 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités
