Mon script anti-aspirateur a blacklisté googlebot

doom · 6 Avril 2007

salut a tous,
j'utilise actuellement un script anti aspirateur de sites qui bride à 60 pages/minutes chaque IP;
Tout s'est bien passé depuis environ 3 mois, mais le 1er avril (poisson? malheuresement non!) googlebot a déoassé ce quotat et je viens de m'en rendre compte uniquement maintenant.
J'ai passé la limite à 90, mais est-ce que le fait que google ai crawlé pendant 7 jours la même pages peut-il me pénaliser pendant longtemps?
Merci d'avance de vos réponses et de vos avis

doom

HawkEye · 6 Avril 2007

--> https://www.google.com/webmasters/sitemaps/?hl=fr

...tu peux régler la vitesse d'indexation de GoogleBot

sebcbien_bzh · 7 Avril 2007

tu ne peux pas exclure telle ou telle ip dans ton script afin de laisser google et autre bot vérifier ton site ?

je ne connais pas ton site, donc sauf si cela n'est constitué que de texte, 60 pages par minutes cela me semble assez important pour les aspirateur perso en tout cas.

ortolojf · 16 Décembre 2023

Bonjour

Google donne une méthode pour détecter les bots.

Dans cette fonction, le paramètre $ip a déjà été validé ip4 ou ip6 normé, et la méthode est de comparer le ndd du reverse à : googlebot.com ou google.com ou googleusercontent.com, et dans ce cas de vérifier si la correspondance vers l'ip est la même ip.

Sinon ce n'est pas un bot google, donc recherche sur regex.

On pourrait compléter par d'autres méthodes similaires pour d'autres types de bots.

1) La méthode ( pour Google ) est-elle correcte et exhaustive ?

2) Quelles méthodes pour d'autres bots ?

Merci beaucoup de corriger mon script.

Amicalement.

PHP:

<?php

    function is_bot($ip) {

        $cmd = 'host ' . $ip;

        $str = shell_exec($cmd);

        if(strpos($str, "pointer ") !== false) {

            $array = array_reverse(preg_split("{[ \t]+}", $str));

            if(in_array("pointer", $array)) {

                $ind = -1 + array_search("pointer", $array);

                $domain = $array[$ind];

                if(preg_match("{(googlebot|google|googleusercontent)\.com$}", $domain)) {

                    $cmd = 'host ' . $domain;

                    $str = shell_exec($cmd);

                    if(strpos($str, "address ") !== false) {

                        $array = array_reverse(preg_split("{[ \t]+}", $str));

                        if(in_array("address", $array)) {

                            $ind = -1 + array_search("address", $array);

                            $ip2 = $array[$ind];

                            $ip4 = (filter_var($ip2, FILTER_VALIDATE_IP, FILTER_FLAG_IPV4) != false) ? $ip2 : null;
                           
                            if($ip4 !== null ) {

                               if($ip4 == $ip) {

                                    return true;
                               }

                               return false;
                            }
                            $ip6 = (filter_var($ip2, FILTER_VALIDATE_IP, FILTER_FLAG_IPV6) != false) ? $ip2 : null;
                           
                            $binary = ($ip6 != null) ? inet_pton($ip6) : false;

                            $ip6 = ($binary != false) ? inet_ntop($binary) : null;

                            if($ip6 !== null ) {
                   
                            if($ip == $ip6) {

                                    return true;
                                }

                                return false;
                            }
   
                            return false;
                        }
                       
                        return false;
                    }

                    return false;
                }

                $domain = preg_replace("{^(www)?\.?}", "", $domain);

                $regex = "{(bing|aol|voila|ia[_-]?archiver|ask|teoma|exabot|thumbnails|gigabot|inktomi|slurp|msnbot|altavista|w3c[_-]?|validator|yahoo|yandex)\.}";

                if(preg_match($regex, $domain)) {

                    return true;
                }

                return false;
            }

            return false;
        }

        return false;
    }

?>

[/code

ortolojf · 16 Décembre 2023

Pardon

Voilà le lien donnant la méthode :

HTML:

   https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot?hl=fr

pomination · 17 Décembre 2023

Oh je pense que depuis 16 ans, il a dû s'en sortir ;-)

ortolojf · 17 Décembre 2023

Une question.

Pour tous les ndd de bots, faut-il s'assurer que le reverse pointe bien vers la bonne ip ?

Merci beaucoup.

kartyr · 17 Décembre 2023

ortolojf a dit:
Pour tous les ndd de bots, faut-il s'assurer que le reverse pointe bien vers la bonne ip ?

C'est mieux. Aussi, il faut s'assurer que l'IP provient bien de la plage d’adresses déclarée par le propriétaire du robot d'exploration, sauf DuckDuckBot, dont les addresses annoncées ne sont pas celles utilisées...

ortolojf · 17 Décembre 2023

Bonjour kartyr

Comment obtenir la liste des ips de chaque robots ?

Merci beaucoup.

ortolojf · 21 Décembre 2023

Bonjour

Google dit que quand une page est chargée en prerender, elle reçoit le header http :

Sec-Purpose: prefetch;prerender

Peut-on se fier à celà, et lancer l'incrémentation du compteur, soit si la page est en prerender, soit quand le mode prerender n'existe pas ( Chrome ou autre ) ?

Ceci du côté serveur ?

Le déceler coté client ralentit trop mon site

Merci beaucoup.

ortolojf · 22 Décembre 2023

Rebonjour

Les reverse ne valent rien en matière de détection de bots.

Seule solution, bancale, le user-agent.

Que pensez-vous de ma fonction de détection de bots ?

Pour les moteurs de recherche.

Merci.

PHP:

    function is_bot() {

        $user_agent = isset($_SERVER["HTTP_USER_AGENT"]) ? $_SERVER["HTTP_USER_AGENT"] : null;

        if($user_agent === null) return false;

        $regex = "{(Googlebot\/|Googlebot\-Image\/|Googlebot\-Video\/|Storebot\-Google\/|Googlebot\-InspectionTool\/|GoogleOther|APIs\-Google|AdsBot\-Google\-Mobile|AdsBot\-Google|Mediapartners\-Google|Google\-Safety|FeedFetcher\-Google|GoogleProducer|Google\-Read\-Aloud|Google\-Site\-Verification|bingbot\/|adidxbot\/|MicrosoftPreview\/|AOLBuild|AOL[ ]+[4-9]\.0|VoilaBot|ia_archiver|\/archive\.org_bot|Ask[ ]+Jeeves\/Teoma|Baiduspider|Exabot\/\d|Exabot\-Thumbnails|Gigabot\/|Slurp\/|msnbot\/|Qwantify|Scooter|W3C_Validator\/|Yandex)}";

        if (preg_match($regex, $user_agent )) return true;

        return false;
    }