Le plagiat: quelques méthodes et quelques solutions.

WRInaute accro
Bonjour,

J'ai pas débuté 10 posts sur WRI avec bonjour (donc les anciens comprendront ... les autres ensuite :wink: ). Depuis quelques semaines on retrouve sur ce forum un paquet de sites plagiés. Quelques solutions de bases de détection et de blocage.

1. Petit rappel.
Les copieurs sont de plusieurs types.
a. le copieur le plus courant est un moteur de recherche standard (Google, Bing, Yahoo, ... éventuellement yandex (russe) ou bailu (Chine)): ceux là on va les laisser passer :mrgreen: Sinon: la meta (dans le header de chaque page est https://www.google.fr/search?sourceid=navclient&aq=&oq=liste+balise+me ... .........0. ): <META NAME="ROBOTS" content="noindex, nofollow"> ... lu sur le site ybet.be :oops:
b. les copieurs occasionnels (on va les appelés comme ça) qui utilisent des logiciels particuliers ou des extentions: normalement c'est juste pour récupérer en local: cas typique, le gamin qui doit faire un devoir et qui n'a pas trop envie de se fatiguer ... ou le prof (il y a des fainéants des deux cotés). Plusieurs pays africains sont (peut-être) dans le collimateur: notamment des pays d'Afrique centrale ou Madagascar .... peu de connections Internet (ou chère) et envie d'apprendre ... mes sites reprennent des formations techniques en informatiques: ca peut sinon encourager, sinon comprendre. :wink:
c. la copie plutôt brutale: envoi direct sans page précédente pour pomper un maximum de pages en un minimum de temps.
d. la copie vicieuse: presque l'identique que C. sauf que le logiciel (c'est une programmation) reprend souvent deux fois la même page de suite, soit prend son temps avec quelques dizaines de secondes entre chaque visite pour rester sur le site plusieurs jours.

PS: tout robot qui ne suit pas le robot.txt est d'office nuisible.

2. Les motivations des "robots".
On oublie les copieurs occationnels de type B ci-dessus.
2.1. les plus ou moins faux robots de bonne conscience. ... souvent des essais, un rêve de détrôner Google qui ne vont pas très loins comme Exalead ou même voilà (même plus repris sur WRI). Il y en a un paquet de petit qui sont (ou seront peut-être) intéressants: j'en doute mais je suis plutôt pour la démocratie et le droit d'expression NORMAL de nature.
2.2. Les sites de E-réputations, analyse de liens vers votre site: Marie Aude va pas être d'accord (je m'en excuse à l'avance): ce sont des sites commerciaux qui analysent les pages par des robots pour vérifier le contenu et surtout les liens. Personnellement, je les juge inutile puisque je payerais jamais ces entreprises pour vérifier mes liens entrants.
2.3 COPIE de sites ... toutes les méthodes peuvent être utilisées. Logiquement, ils ne s'occupent que des liens (et des sociétés qui les emploient) mais peuvent très bien modifier le type pour devenir des agrégateurs de contenus.
2.4. les archiveurs. ces robots récupèrent le contenu de vos pages pour les archiver sur leur propre site: Là il y a archvie.rog qui met en no index et no follow et TOUS les autres : ia archiver par exemple est une plaie pour le duplicate content (A interdire)
3. Les méthodes:
1. Déjà les robots qui récupèrent le contenu des pages. Les plus évolués retravaillent les liens dans la page pour supprimer le site de départ: c'est valable pour les liens internes en absolu, récupérer aussi les images (et modifier la référence). On a vu les méthodes: ca ressemble à de simples visiteurs ...
Mais ils passent plus ou moins régulièrement sur le site (parfois une seule fois)
2. la méthode bête: mise en page du site en frame ou équivalent. Petits exemples:

.thetownkindle..com/link/base-en-electricite-et-electronique-magasin-aHR0cDovL3d3dy55YmV0LmJlL2hhcmQxY2gyL2hhcmQxX2NoMi5waHA=
ou
http://rss...persianwet.ir/Les_entreprises_de_la_Province_de_Luxembourg
Iraquiens ... (pas la peine d'expliquer qu'ils doivent être bloqués. Pourtant, il y a un travail manuel: les <title> et <description> sont modifiés (mal, pas en équation avec le contenu) mais modifiés.
3. Redirection des DNS (je pense) mais je suis un peu faible dans cette partie. Dans cette partie (je l'ai bloqué sans savoir comment), c'est sdd.pen.io Plusieurs sites qui se plaignent de copies sur WRI le reprennent en partie sans savoir que c'est lui.


On y est: la méthode C n'est pas de mon niveau (quoique puisqu'on en reparlera). Pour la méthode B, il y a un code à mettre en dans le header de chaque page:

<script language="javascript" type="text/javascript">
if (top != self) {
top.location.href = location.href;
}
</script>

Et pour la méthode A? Plusieurs méthodes mais qui passent toutes par l'analyse des logs (en gros les visiteurs et leurs problèmes). Personnellement j'ai développé en PHP mais des méthodes automatiques (des logiciels) existent: je laisse les spécialistes de LINUX les nommer.

Désolé si je laisse pour l'instant ce post à ce niveau (mais quelques uns comprendront). Il me reste un paquet de trucs à ajouter: les méthodes de blocage (PHP, .htaccess, iptables, ...), les types de visiteurs indésirables pour d'autres raisons (et un petit outils).
Pour l'instant, ce que j'attend de mes collègues, c'est probablement quelques corrections ..
 
WRInaute accro
PS: depuis 10 ans, même problèmes sur le forum de WRI, créer des gros posts qui prennent du temps ... pas de modifs possibles. :wink:
Les blocages possibles (armes des webmasters pour éviter les copies mais aussi d'autres).
Chaque visiteur sur une page reprend plusieurs "signatures".
1. l'adresse IP est lié à sa connexion. Repris dans le parfait technicien réseau ... mais pas vraiment sur Internet: corrompre une adresse IP de départ est faisable ... elle est liée au HOST mais lui aussi bricolable: pourtant, les deux ca devient complexe et plus du niveau copieur - plagiat
2. Le HOST est plus difficile à bricoler puisqu'il est transmis pas les switch Internet (un terme technique qui reprend en fait des routeurs intellignents.
On part du principe que ces deux parties sont difficilement bricolables sauf ...

Désolé pour donner quelques morceaux: les proxy ... Un proxy a plusieurs fonctions et sur Internet, seulement 2:
. une passerelle souvent logicielle entre un réseau d'entreprise et Internet (c'est le technicien informatique qui parle)
. un brol (terme spécifiquement belge connu par les français depuis ce post https://www.webrankinfo.com/forum/t/langage-brol.132664/ :D un peu de belgicisme au cas où vous passer sur un jeu télévisé français).
C'est la deuxième partie qui va nous intéresser ... Pour passer inappercu, on se connecte sur un serveur proxy et l'IP - HOST devient ... celle du proxy. Trois types de proxy (ou même 4).
1. Proxy d'entreprise (en gros toutes les connexions d'un réseau interne même délocalisé passent pas plusieurs adresses externes vers Internet): pas de problèmes et pas à bloquer, notamment en interdisant tout ce qui reprend le mot "Proxy" dans le HOST.)
2. proxy Google et Msn (de nouveau dans le host) .... déjà bloqué quelques plages .... mais pas les adresses proxy: je crois qu'en utilisant ces adresses DNS dans la config de la carte réseau ... le host est repris comme proxy: bricolage ou autre?
et autres ... puisque deux types soit-disant gentils sont repris
3. toute la gamme des méchants qui permettent (payants ou non) de passer via leur sites via un paquet de serveurs disséminés dans le monde: pour la plupart: ce sont des plages de serveurs avec vquelques adresses utilisateurs:
Petit exemple détecté aujoud'hui

##5.62.0.0 -5.62.63.255 vpn: sur deux sites en même temps
iptables -I INPUT -s 5.62.0.0/18 -j DROP

4. Thor ... et quelques autres. Pourquoi les mettre à part? Simplement parce que officiellement ils servent à des journalistes et autres dissidents à communiquer. Probablement ... mais en plus d'un an, toutes ces adresses bricolent sur mes sites dès qu'ils sont détectés. Peut-être utilisés mais sans doute à bloquer

Pour ce soir, on va en rester là :wink: Merci de me rapporter les fôtes d'orthograpes (suis belge, intelligent peut-être, mais pas doué en orthographe) mais aussi ce qui ne semble pas trop compréhensible.
Patrick
 
Discussions similaires
Haut