Copie live de mon site

Nouveau WRInaute
Bonjour à toutes et tous,
Je vous explique la situation.
J'ai un gros site web Hébergé sur un serveur dédie (Nginx, Varnish, php7, memcahe et pour la partie secu Iptables et Fail2ban)
La base de données est sur un autre dédié pour supporter la charge (en gros des pics à 3500 connectés en même temps).
Mon soucis c'est que plusieurs sites me pompent tout mon contenu en direct. Je pensais qu'ils avaient pluggué ma DB, mais non puisque j'ai changé les ports et les mots de passe. de plus j'ai testé changer le footer et comme par magie chez eu aussi ça change, tout est identique sauf les adresses qu'il convertissent à la volée avec leurs noms de domaine.
J'ai rajouté un tag avec un lien vers mon www et en direct sur leur site le même tag avec leur www....
Je ne comprends pas bien comment ils peuvent faire cela, je pense qu'ils doivent chopper mon trafic Ip mais comme je suis aussi chez cloudflare.... pour avoir mon ip réelle.. c'est hard.
Bref, j'aimerais savoir ne serai ce que par curiosité comment ils font.
Je vous donne mon domaine et le leur séparés par un point pour éviter tout spam.
Dernier truc, je sais que certains vont râler car mon fond de commerce en France est pas toujours bien vu mais ou je vis ce n'est pas un soucis.

Donc mon domaine: zone-telechargement point eu
Les petits malins:
mastermichaelwolf point com
meraude point com

Etc....
En espérant que l'on puisse m'¡expliquer comment ils font ce tour de passe passe,
Je vous souhaites de bonnes fêtes,
Rico
.
 
WRInaute occasionnel
Tu m'excuse de ne pas te donner des pistes en réveillon . On verra çà vers mardi. Il y a différentes techniques pour piquer le contenu (frames, robots, ...) et d'autres pour les empécher (voire envoyer le contenu d'autres sites pas forcément fréquentables, ...)
 
Nouveau WRInaute
Merci Patrick,
J'attendrais mardi pour en savoir un peu plus sur comment ils font ça.
en attendant je te souhaite une très bonne année 2017,
Richard
 
Nouveau WRInaute
Je ne sais pas si c'est illégal vu que rien de déposé, mais en faisant un whois tu verras que mon site est relativement ancien et bien avant la fermeture de Zone-telechargement .com....
Je m'attendais a un commentaire dans le genre... :lol:
Et je n'ai pas dit que ce que l'on faisais à mon site tait illégal, je veux juste comprendre comment ils font..
donc les leçons de morale.... :arrow:
Cordialement,
rico
 
WRInaute impliqué
vas sur leur site, ajoute un paramètre bidon à l'url (du genre site.com?camembert), regarde dans tes logs l'ip de la requête avec le paramètre bidon, si c'est pas ton ip, c'est l'ip du serveur qui pompe les données. Bloque cette ip.
 
Nouveau WRInaute
Merci madri2.
Donc voila la requête sur le site bidon:162.158.88.215 - - [04/Jan/2017:06:27:10 +0100] "GET /?tintinet HTTP/1.1" 200 14887 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
172.68.11.20 - - [04/Jan/2017:06:38:30 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.90.225 - - [04/Jan/2017:06:38:57 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.92.151 - - [04/Jan/2017:06:39:57 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.92.151 - - [04/Jan/2017:06:45:11 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.90.225 - - [04/Jan/2017:06:46:05 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.91.80 - - [04/Jan/2017:06:46:09 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.91.80 - - [04/Jan/2017:06:47:48 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.92.151 - - [04/Jan/2017:06:53:08 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
172.68.11.20 - - [04/Jan/2017:06:54:00 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.91.80 - - [04/Jan/2017:06:55:18 +0100] "GET /?tintinet HTTP/1.1" 200 14889 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.92.151 - - [04/Jan/2017:06:57:10 +0100] "GET /?tintinet HTTP/1.1" 200 14886 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
172.68.11.20 - - [04/Jan/2017:06:58:32 +0100] "GET /?tintinet HTTP/1.1" 200 14886 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
162.158.90.225 - - [04/Jan/2017:07:00:12 +0100] "GET /?tintinet HTTP/1.1" 200 14886 "" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
Et voila sur le mien:
188.114.110.193 - - [04/Jan/2017:06:16:25 +0100] "GET /?tintinet HTTP/1.1" 200 18875 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:50.0) Gecko/20100101 Firefox/50.0"

C'est donc l'Ip qui pompe mes datas. le soucis c'est qu'au fur et a mesure que je bloque il change d'IP.
Mais ce qui m’intéresse c'est comment il fait car comme c'est une Ip Cloudflare il peut en changer facilement. donc je dois pouvoir mettre un truc préventif en place.
D'avance merci,
Richard
 
WRInaute discret
eventpix a dit:
Je ne sais pas si c'est illégal vu que rien de déposé, mais en faisant un whois tu verras que mon site est relativement ancien et bien avant la fermeture de Zone-telechargement .com....
Je m'attendais a un commentaire dans le genre... :lol:
Et je n'ai pas dit que ce que l'on faisais à mon site tait illégal, je veux juste comprendre comment ils font..
donc les leçons de morale.... :arrow:
Cordialement,
rico

c'est pas forcément une leçon de morale mais plus une interrogation, mais ça ressemble quand même pas mal à l'autre site
 
WRInaute occasionnel
eventpix a dit:
c'est une Ip Cloudflare
Les sites hébergés sur les cloud n'ont pas d'adresses IP (essaye ping ... aucun résultat). La solution passe par htaccess (iptable pour certains serveurs) sur l'ensemble de la plage utilisée.
La liste:
https://www.c**loudflare.com**/ips/
Personnellement, je bloque de plus en plus complètement ces plages d'adresses Cloud: il y a parfois du bon, mais en majorité, ces sites (et adresses) sont des nids de bricolages A interdire
 
WRInaute impliqué
"les sites sur le cloud n'ont pas d'ip" ... lol.


donc le mec se fait passer pour googlebot

je me demande comment il fait pour utiliser des ips de cloudflare pour faire ses requêtes vu que cloudflare ne fait pas d'hébergement

edit: essaye de regarder les entêtes de la requête, si ça utilise cloudflare, il devrait y avoir un entête X-Forwarded-For qui contient la vraie ip du mec
 
WRInaute impliqué
*facepalm*

tu utilises cloudflare ... et tu n'as rien mit en place pour avoir la vraie ip des visiteurs ...
https://support.cloudflare.com/hc/en-us/articles/200170706-How-do-I-re ... ith-Nginx-

dig zone-telechargement.eu

(...)
;; AUTHORITY SECTION:
zone-telechargement.eu. 63349 IN NS janet.ns.cloudflare.com.
zone-telechargement.eu. 63349 IN NS kip.ns.cloudflare.com.


c'est normal que tout le monde qui se connecte au site ait les ips de cloudflare
 
Nouveau WRInaute
Merci beaucoup a vous tous.
pour les Failles, c'est en cours de correction :9
Pour les Ip, j'utilise déjà la méthode et le gars passait par cloudflare (je pense qu'il devait faire des requêtes via son site caché par cloudflare).
Ils sont bloqués maintenant, mais ça n'a pas été simple...
Amicalement,
Richard
 
WRInaute occasionnel
madri2 a dit:
"les sites sur le cloud n'ont pas d'ip" ... lol.
donc le mec se fait passer pour googlebot

je me demande comment il fait pour utiliser des ips de cloudflare pour faire ses requêtes vu que cloudflare ne fait pas d'hébergement

edit: essaye de regarder les entêtes de la requête, si ça utilise cloudflare, il devrait y avoir un entête X-Forwarded-For qui contient la vraie ip du mec

Petits complémentaires techniques :wink: Si un site est hébergé sur un serveur, une commande PING sous dos te donne l'adresse IP du serveur qui héberge. En mode cloud, l'hébergeur distribue le site sur une multitude de serveurs en fonction de la charge (donc pas d'IP). Cloudfare fait de l'hébergement pas distribue la charge sur plusieurs serveurs.
C'est pas X-forwarded qui existe mais l'adresse IP du visiteur: c'est une adresse IP de la gamme cloudflare qui doit être interdite par htaccess, iptable ou autre
Plages de cloudfare à interdire: https://myip.ms/view/ip_addresses/1746670592/104.28.20.0_104.28.20.255 (les autres aussi).
En deuxième, les user_agent avec 'compatible Google_boot' sont des fake: des robots à interdire.
Pour plus de renseignements sur ces parasites: MP
 
Nouveau WRInaute
Bonjour à toutes et tous,
J'avais trouvé la solution pour le site qui dupliquait mon contenu, mais ça recommence avec un autre domaine: http://grannypornvideos dot net ils ont le même contenu que moi et en live encore une fois.
Si quelqu'un pouvait m'apporter une solution pour les bloquer ce serait génial.
Amicalement,
Rico
 
Nouveau WRInaute
bonsoir Madri2,
J'ai regardé les entêtes et tout mais rien... c'est pour cela que j’hallucine. je ne sais pas comment il fait mais je voudrais bien le stopper.
Et je ne peux pas ban toutes les IP Clouflare car elle forwardent aussi les requêtes de mes "bon visiteurs"...
C'est un vrai casse tête chinois... la seule soluce que je trouve pour le moment est de passer en SSL.
Mais je me demande si ce sera suffisant vu qu'ils reviennent sans cesse à l'attaque.
Rico
 
WRInaute impliqué
tu n'as donc rien compris à mon message par rapport aux ips de cloudflare. Si tu as suivi les instructions pour restaurer la vraie ip tu ne dois avoir aucune ip de cloudflare dans les requêtes
 
WRInaute impliqué
ils font des requêtes basiques sur ton site et transmettent le résultat mais vu que tu ne remplace pas l'ip de cloudflare via une conf apache tu crois qu'ils passent par cloudflare
 
Nouveau WRInaute
Le soucis c'est que mon serveur n'est pas apache, c'est NGINX, donc pas mal de fonctions Apache me sont encore inconnues sur ce serveur.
 
WRInaute occasionnel
madri2 a dit:
donc le mec se fait passer pour googlebot
L'user_agent "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
vient d'a peu prêts de toutes plages d'adresses IP (une méthode comme une autre pour masquer le piratage).
Tu peux sans problème les interdire:
Le script php à mettre en début de toutes tes pages (en l'intégrant dans le header par exemple) est:
<?php
$user_agent=mysql_real_escape_string($_SERVER["HTTP_USER_AGENT"]);
if
{
(strpos(STRTOLOWER($user_agent),"+https://www.google.com/bot.html")!==false)
header("HTTP/1.1 403 Forbidden");
exit();
}
?>
Ca renvoie systématiquement une erreur 403 (interdit) + arrête la suite du chargement de la page.
PS: désolé de ne pas avoir suivi ton post .
 
Discussions similaires
Haut