User-agent: Mediapartners-Google*

WRInaute occasionnel
Pour les adsenses si je mets ceci dans mon fichier robots.txt

User-agent: Mediapartners-Google*
Disallow:

Est ce le même robot qui indexe les pages pour la recherche ?
Car je ne souhaite pas que google indexe certaines pages de mon site, merci :)
 
WRInaute accro
Mediapartner est le bot pour GOOGLE ADSENSE
mais méfie toi, il sert aussi à mettre les pages en cache...
 
WRInaute occasionnel
Moi dans mes stats, j'ai eu le bot avec comme UA Mediapartners-Google/2.1 et le bot qui avait comme UA Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot. avec la meme ip, le meme jour :?
 
WRInaute accro
Suede a dit:
Ils n'ont pas corrigé ce bug d'indexation du á leur crawl via proxy?
Ce n'est pas un bug. C'est une optimisation du crawl. Au lieu d'avoir deux bots différents qui visitent la même page, maintenant ils partagent une cache commune.

Je ne sais pas si cela entraîne qu'on ne peut plus interdire les crawls d'indexation si on affiche des AdSense.

Jean-Luc
 
WRInaute occasionnel
Et en utilisant en plus :
<meta name="robots" content="index, follow, noarchive"

Le bot ne fera plus que son boulot pour adsense
:wink:
 
WRInaute accro
jeanluc a dit:
Suede a dit:
Ils n'ont pas corrigé ce bug d'indexation du á leur crawl via proxy?
Ce n'est pas un bug. C'est une optimisation du crawl. Au lieu d'avoir deux bots différents qui visitent la même page, maintenant ils partagent une cache commune.

Je ne sais pas si cela entraîne qu'on ne peut plus interdire les crawls d'indexation si on affiche des AdSense.

Jean-Luc

Attention: le Crawl Caching Proxy n'est pas un cache de résultats, mais un cache de contenu, inter-robots.
Le contenu chopé par le bot d'AdSense n'est pas pour autant indexé par GoogleBot ou par les autres. Chaque robot applique stricto-sensu les règles qui lui sont imposées par robots.txt: si GoogleBot ne peut indexer une page, elle ne sera pas indexée dans le moteur; mais celà n'empèche pas MediaBot (Mediapartners) de lire la page et de renvoyer du contextuel.

http://blog.indexweb.info/actualite-int ... xy,16.html
 
Nouveau WRInaute
gwaradenn a dit:
Et en utilisant en plus :
<meta name="robots" content="index, follow, noarchive"

Le bot ne fera plus que son boulot pour adsense
:wink:
Moi je préfère <meta name="robots" content="noarchive"
<meta name="robots" content="index, follow, est la valeur par défaut, pouquoi alourdir le code ?
 
WRInaute passionné
jeanluc a dit:
Suede a dit:
Ils n'ont pas corrigé ce bug d'indexation du á leur crawl via proxy?
Ce n'est pas un bug. C'est une optimisation du crawl. Au lieu d'avoir deux bots différents qui visitent la même page, maintenant ils partagent une cache commune.

Je ne sais pas si cela entraîne qu'on ne peut plus interdire les crawls d'indexation si on affiche des AdSense.

Jean-Luc

Si, il y eu un bug dans les premiers temps.
Des gens avaient autorisé mediapartner mais refusé googlebot sur certaines pages. Ces pages se sont trouvés indexées car il n'y avait pas de vérification du robots lors de la consultation du cache du crawl.

François
 
WRInaute accro
Bonsoir, je m y perds un peu et j aurais voulu savoir comment dois-je faire exactement pour permettre au robot google-adsense de parcourir mes pages, même celles que j ai interdit à tous les robots d indexer pour eviter les doublons.

J'ai mis ceci:

User-agent: *
Disallow: /forum/ici

par exemple j'ai mis ca. Ok, les bots n'indexent pas les pages qui comment par ici, mais si je veux autoriser juste le robot google adsense, dois-je rajouter sous ces deux lignes:

User-agent: Mediapartners-Google*
allow: /forum/ici

Merc de votre aide !
 
WRInaute accro
Bonjour,

Il faut mettre :
Code:
Useragent: *
Disallow: /forum/ici

User-agent: Mediapartners-Google*
Disallow:

Allow: est à déconseiller car ce n'est pas une directive standard.

Jean-Luc
 
WRInaute accro
ok et est-ce que ca va changer quelquchose de mettre

Code:
Useragent: *
Disallow: /forum/ici

User-agent: Mediapartners-Google*
Disallow:

ou

Code:
User-agent: Mediapartners-Google*
Disallow:

Useragent: *
Disallow: /forum/ici

Y a-t-il un ordre de lecture ou prend-t-il simplement tout en considération ?

Merci
 
WRInaute accro
Aucune différence. Le User-agent: * s'adresse à tous les robots pour lesquels il n'y a pas de directives spécifiques.

Jean-Luc
 
WRInaute discret
Le sujet date mais je reviens dessus car je viens de recevoir un mail de Google Adsense :

Nous avons remarqué que le AdSense crawler rencontre des difficultés pour explorer certaines parties de votre site [...]. Ce problème est lié à votre fichier robots.txt.

Pourtant mon fichier Robots.txt autorise tous les bots à se connecter :

Code:
User-agent: *
Disallow:
Sitemap: http://www.xxx.net/sitemap.xml

Google Adsense préconise le code :

Code:
User-agent: Mediapartners-Google
Disallow:

mais je ne vois pas ce que ça va changer ? Votre avis ?
 
WRInaute discret
Nous avons remarqué que le AdSense crawler rencontre des difficultés pour explorer certaines parties de votre site [...]. Ce problème est lié à votre fichier robots.txt.
Il faut dire que plein de sites ont un problème avec leur robots.txt. Car, depuis quelques temps, beaucoup de webmestres reçoivent ce mail de Google AdSense. Pourquoi subitement il y a un problème dans les fichiers robots.txt ? A moins que ce ne soit le robot Mediapartners-Google qui ait un problème.

J'ai aussi reçu ce mail la première fois il y a à peu près 3 semaines. Cela fait des années que j'ai le même fichier robots.txt et le robot Mediapartners-Google a toujours crawlé le site sans problème. J'ai ajouté le code proposé par Google AdSense. Résultat : le site a été inondé d'annonces pas vraiment pertinentes. J'ai donc retiré le code de Google AdSense ; mais quelques jours plus tard j'ai reçu une seconde fois le mail.
 
Discussions similaires
Haut