Spam par referer ?

WRInaute discret
Bonjour à tous,

Depuis mon inscription sur un annuaire dont je tais le nom avant d'être certain que ce qui m'arrive fait du tord à mon site, j'ai un pic de fréquentation (+800%) mais pas depuis des sites référents, depuis les moteurs de recherche. Tout ce que j'ai trouvé sur ce forum était l'explication du spam par referer que je comprends à peu près mais dans mon cas, je vois les mots-clés utilisés (ou soit-disant utilisés) pour trouver mon site qui ne correspondent absolument pas à mon contenu... Et j'insiste, c'est bien la source "moteurs de recherche" qui explose !!!
D'autre part, si je tape ces mots-clés sur les moteurs de recherche, je ne peux trouver mon site...

1. Google apprécie-t-il une augmentation de trafic si elle provient de mots-clés qui n'ont rien à voir avec mon contenu ?
2. Comment est-ce possible que google analytics me donne des mots clés ayant permis d'accéder à mon site sans qu'il puisse être présent dans les résultats de recherche ?
3. Que dois-je faire ?

Merci d'avance pour vos réponses, je suis un débutant en référencement et j'ai vraiment besoin de votre aide sur ce point !


Un peu plus d'infos : J'ai trouvé dans google Analytics\Contenu\Pages les plus consultées, des dizaines de pages qui ne sont pas les miennes et contenant les fameux mots clés qui n'ont rien à voir avec mon contenu, je suis donc vite allé vérifier sur mon serveur mais rien n'y apparait en tous cas maintenant que je regarde... C'est un peu flippant tout ça !!!
 
WRInaute discret
S'il vous plait !!! Une réponse !!!
Je ne sais pas si je dois agir ou non... Me désinscrire de cet annuaire que je soupçonne d'être la cause de tout ça... Me réjouir de beaux chiffres en terme de nombre de connexions... Moins sympa, mon temps moyen de connexion s'effondre...
HELP !!!
 
WRInaute accro
Bonjour,

C'est assez bizarre. Un outil d'analyse des logs comme AWStats aiderait à tirer cela au clair. Si le trafic n'est pas trop important, un examen des logs avec un simple éditeur de texte pourrait suffire.

Jean-Luc
 
WRInaute occasionnel
Salut !

J'ai pas vraiment de réponse à ton problème mais je t'invite à faire un test : Si tu le peux depuis les logs, tu mets en évidence l'ip du bot et tu lui interdis l'accès pendant une journée.
Tu vérifies s'il y a eu une amélioration durant cette journée et tu prends une décision en fonction ^^
 
WRInaute discret
Merci à vous !

Je n'avais pas encore activé les statistiques chez mon hébergeur, je viens de le faire, j'aurai mes premiers logs dans 24 à 48h et je pourrai dans un premier temps les traiter manuellement sans problèmes, je garde quand même dans un petit coin le conseil sur AWStats.
Par contre, je ne suis pas certain que ces clics viennent de la même ip puisque ils sont bien identifiés comme visiteurs uniques par GA. Surtout, ils arrivent sur des pages qui sont considérées par GA comme mes propres pages alors qu'elles n'existent pas sur mon serveur...
 
WRInaute occasionnel
jojoldemago a dit:
Surtout, ils arrivent sur des pages qui sont considérées par GA comme mes propres pages alors qu'elles n'existent pas sur mon serveur...
Heu, comment tu gères les erreurs 404 au juste ?
 
WRInaute discret
Je ne les gère pas puisque je n'ai encore jamais supprimé aucune page (sauf une page d'essais qui a un lien sur un forum...)
Si je suis le lien des pages indiquées dans GA, je tombe sur une 404.
 
WRInaute discret
lunicrea a dit:
Heu, comment tu gères les erreurs 404 au juste ?
Pourquoi poses tu cette question ?

D'autre part, j'ai regardé dans mon log qui n'a malheureusement pas eu le temps de récupérer beaucoup d'infos puisque bizarrement, il semble que les fameuses fausses pages et faux clics se soient arrêtés hier matin, j'ai quand même ceci d'intéressant je pense mais je ne peux pas tout décrypté, si vous pouvez m'aider...
Pour info, mon site : http://www.chambreshotesjolivet.fr et la page qui n'est pas à moi : /objets-pub.....

[08/Oct/2011:22:39:20 +0200] "GET /objets-publicitaires-tapis-de-souris-personnalise,1,0.html HTTP/1.1" 302 298 "-" "Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1" "-" 0 http://www.chambreshotesjolivet.fr
69.171.224.251 - - [08/Oct/2011:22:57:24 +0200] "GET /images/verte_fb_ogt.jpg HTTP/1.0" 200 52328 "-" "facebookexternalhit/1.0 (+https://www.facebook.com/externalhit_uatext.php)" "-" 0 http://www.chambreshotesjolivet.fr

Merci à vous !
 
WRInaute accro
jojoldemago a dit:
Pourquoi poses tu cette question ?
pour savoir si un vilain génère des centaines de liens bidons pour faire passer ton site pour un mauvais site. (plein de page identiques qui serait ta 404). par exemple ...

le spam de referer c'est souvent pour obtenir du backlink facile et se produit surtout sur les sites qui affichent des stats publiques. Mais bon a priori tu n'a que 4 pages ça ne doit pas être le cas.
 
WRInaute discret
Bonjour Zeb !
Te serait-il possible de détailler cette idée ou on rentre dans le secret défense du black hat ?
J'ai compris que si je "gérais" mes 404 en redirigeant ces erreurs vers une page de mon site qui dirait "désolé cette page n'existe plus...", des gens mal intentionnés pourraient créer des liens genre www.monsite.fr/lienbidon.htm pour faire attérir les robots très souvent sur cette page ? Je pense rater quelque-chose...
 
WRInaute accro
Et bien en fait google ne connais un site que par les liens qu'il explore. Google (entre autre) n'aime pas non plus les sites ayant beaucoup de pages identiques. Moralité si je souhaite faire croire a google que ton site est rempli de pages identiques je met partout des liens vers des pages bidons. Si ta gestion des 404 est pas bonne (genre pas répondre dans le header que la page n'existe plu ou pas) google pensera que tu as plein de pages identiques et te déclassera peut être.

Dans ton cas si je demande la page : -http://www.chambreshotesjolivet.fr/ -toto.htm qui n'existe pas, ton serveur me renvoie un code 302 Found avant de me servir une page -http://404.online.net/ liée a ton hébergement qui elle me renvoie un 404.
 
WRInaute discret
Rebonjour !
Alors, j'ai tenté de faire un truc, ça a l'air de fonctionner puisque lorsque je tape une adresse bidon, je tombe bien sur ma page 404.
mon fichier .htacces :
Code:
# http://documentation.online.net/fr/hebergement-mutualise/gestion-web/configuration-php?s[]=php5#activer_php5
# Pour faire parser les fichiers .php par PHP5
AddType application/x-httpd-php5 .php
ErrorDocument 404   /erreur-404.htm
Je ne sais pas (ou plus...) à quoi servent les 3 premières lignes mais je ne dois pas en avoir besoin puisque tout mon site est en html. J'ai donc mis une page 404 en .htm aussi alors que sur le tuto sur les redirections, l'exemple indiquait un .php, je ne pense pas que cela ait une grande importance...
Sur le lien indiqué plus haut, j'ai trouvé ça à écrire :
Code:
header("HTTP/1.1 404 Not Found");
echo file_get_contents("erreur-404.php");
exit;
Mais newbie que je suis, j'ai pensé que c'était à écrire sur chaque page et pas pour le htaccess, j'ai raison ?

Une autre question, j'ai remarqué que mon htaccess est dans mon dossier "www" hors, l'adresse sans les www est redirigée vers mon site www par mon hébergeur, serait-il préférable d'installer mon fichier htaccess à la racine ou je le laisse dans le dossier www, là où j'ai tous mes fichiers et dossiers de mon site ?

Une dernière : est-il intéressant de suivre cette page erreur-404 dans GA ? Savoir si j'ajoute le petit script GA sur cette page...
 
WRInaute discret
Pour revenir à nos moutons...
Ma position sur certains mots-clés vient de dégringoler sur google, peut-être y a-t-il un lien avec ces problèmes...
Sur mon log d'hier qui est vraiment imposant malgré une très faible fréquentation de mon site, je ne trouve qu'une seule référence à ces "fausses pages", voici ce qui est écrit :
Code:
143.196.215.101 - - [09/Oct/2011:09:17:35 +0200] "GET /objets-publicitaires-tapis-de-souris-personnalise,1,0.html HTTP/1.0" 302 286 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9.2.17) Gecko/20110420 Firefox/3.6.17 GTB7.1 (.NET CLR 3.5.30729)" "-" 0 www.chambreshotesjolivet.fr
Pourtant, sur mon rapport GA, cette page objets-pub... a été visionnée 14 fois hier. J'ai donc pensé que quelqu'un avait peut-être mis mon identifiant de compte GA sur sa page. J'ai trouvé cette fameuse page ici :
http''://w'ww.nova-tm.fr/objets'-publicitaires'-tapis-de-souris'-personnalise,1,0.h'tml (enlever les ' si vous voulez vérifier mais je pense qu'il serait bon de ne pas suivre ce lien...)
Et surprise lorsque je lis le code, je trouve bien mon ID GA dans le head de la page :
Code:
<script type="text/javascript">var _gaq = _gaq || [];_gaq.push(['_setAccount', 'UA-25188694-1']);_gaq.push(['_trackPageview']);(function() {var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);})();</script>
Sachant que tout en bas de la page, juste avant de fermer le body, j'en trouve un autre :
Code:
<script type="text/javascript">

  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-19307835-1']);
  _gaq.push(['_trackPageview']);

  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
  })();

</script>

Je pense qu'avec tout ça, vous pourrez probablement m'expliquer ce qui s'est passé... Enfin je l'espère... Et si la gestion des 404 suffira à écarter tout problème de ce type.
 
WRInaute occasionnel
jojoldemago a dit:
Ma position sur certains mots-clés vient de dégringoler sur google, peut-être y a-t-il un lien avec ces problèmes...
D'après ce que je lis, il n'y a aucun lien de cause à effets malheureusement ... Le problème vient d'ailleurs !

Concernant justement ton problème de stats GA, tu as donc donné la réponse : Ton numéro GA apparait sur ce site en question et c'est pour cette raison que tu te retrouves avec cette (ou ces) erreur 404.

Dans l'immédiat, il faut vite contacter le webmaster de nota-tm.fr et lui demander de retirer expressément ton code GA !

Cela devrait résoudre ton problème qui du coup n'est pas du Spam par referer ;)
 
WRInaute discret
La réponse à mes problèmes :
Un copié/collé de mon code source dans le but d'installer le bouton google +1, le gars à copié mon script pour google analytics en même temps... J'espère qu'il réussira à retrouver toutes les pages où il l'a installé...
J'attends encore quelques réponses pour mes redirections 404 avant de clore le sujet, ça m'aura au moins servi à quelque-chose...
Encore merci à vous
 
WRInaute discret
Si jamais cela peut servir à quelqu'un qui rencontrerait les mêmes problèmes que moi, il y a la possibilité de créer un filtre dans google analytics pour exclure toutes les données venant d'un domaine. Je l'ai créé aujourd'hui donc je ne pourrai probablement pas le tester puisque le webmaster qui avait fait l'erreur a corrigé tout ça cet après-midi... Mais a priori, cela peut-être une solution simple si on ne veut pas entreprendre de démarche pour avertir le webmaster concerné, ce qui pourtant me parait la solution la plus adaptée.
 
WRInaute occasionnel
jojoldemago a dit:
Un copié/collé de mon code source dans le but d'installer le bouton google +1, le gars à copié mon script pour google analytics en même temps... J'espère qu'il réussira à retrouver toutes les pages où il l'a installé...
Eh ben, assez impressionnant de lire ça ! 8O

Enfin, cela résout ton problème et c'est l'essentiel ;)
 
WRInaute accro
jojoldemago a dit:
mais dans mon cas, je vois les mots-clés utilisés (ou soit-disant utilisés) pour trouver mon site qui ne correspondent absolument pas à mon contenu...
ton histoire viens de me faire comprendre le pourquoi d'un truc sur un de mes sites ;-) merci.
 
WRInaute occasionnel
zeb a dit:
jojoldemago a dit:
mais dans mon cas, je vois les mots-clés utilisés (ou soit-disant utilisés) pour trouver mon site qui ne correspondent absolument pas à mon contenu...
ton histoire viens de me faire comprendre le pourquoi d'un truc sur un de mes sites ;-) merci.
Ah ? Un site a pompé ton code GA aussi ? :mrgreen:
 
WRInaute discret
Content qu'un newbie puisse aider un expert !!!
Des idées sur mes redirections 404 ? Ou il vaut mieux que j'ouvre un nouveau post ?
 
Discussions similaires
Haut