Détection automatique du contenu illicite/soumis aux droits d'auteur

WRInaute discret
Bonjour,

Je ne sais pas si je suis dans la bonne section, la question étant relativement technique.

Je dispose d'un site qui traite chaque jour près de un million de contenu utilisateur (messages et images) public, que je ne peux bien sûr pas vérifier manuellement. J'ai donc mis en place une procédure extrêmement simplifiée pour le retrait de ce contenu.
Malgré tout, je reçois régulièrement des avis de retrait des résultats de recherche de google, et je sais que beaucoup de contenu reste en ligne trop longtemps avant d'être supprimé. Je voulais donc savoir s'il existait une sorte de base de données/librairie permettant de filtrer sommairement avec plus ou moins de précision le contenu de ma base de données.
Je souhaiterais notamment repérer les contenus pornographiques et relatifs à la propriété intellectuelle. Je pensais donc à un logiciel semblable aux systèmes de contrôle parental, ou à une base de données publique d'images blacklistées (avec une liste de md5 par exemple), ou à un système permettant à mon serveur de directement supprimer les contenus dès que Google reçoit une demande de retrait (car actuellement, je reçois ces notifications par e-mail, ce qui n'est pas très commode). Je sais que Microsoft a des outils pour la recherche de ce genre de contenus, alors je me demandais s'il en existait des versions libres que je puisse utiliser en interne.

Merci d'avance pour votre réponse et vos conseils.

7804j
 
WRInaute accro
A ma connaissance, "non".
Tu dois plus travailler par algo, par détection de mots voir par soft d'analyse d'images pour la partie contrôle parental.

Pour la partie "contenu relatif à la propriété intellectuelle", il existe des systèmes mis en place par les ayant droits, et qui permettent d'identifier extrêmement rapidement les contenus. Youtube utilise ça pour les vidéos, et je sais qu'un système est mis en place en France, pour la presse. J'avais vu ça ici http://www.mondaynote.com/2010/02/14/cashing-in-on-stolen-contents/

Peut être la solution est de te mettre en rapport avec les gros éditeurs ? Je pense qu'ils seront ravis de t'aider gratuitement :)
 
WRInaute passionné
Les seules solutions que je connaisse sont éditées en versions commerciales.
En même temps, si ça te fait gagner des heures de modération chaque semaine ça peut valoir le coup d'investir.
 
WRInaute accro
Je ne sais pas si j'ai bien compris le sujet. Mais en gros vous parlez bien d'outils qui permettraient d'identifier du contenu saisi par nos membres qui ne serait pas le leur? Détection de DC.

Si c'est le cas je suis également intéressé par les réponses et ses outils, étant donné que mes futurs membres pourront poster des articles sur le site et que je voudrais m'éviter un maximum de contrôle manuels. Je souhaites évidemment éviter que mes membres proposent des articles qui sont des copiés collés (ou presque) d'articles d'autres sites.

Je pense pouvoir modérer chaque article manuellement en vérifiant sur google, mais si il s'avère que le site fonctionne pas mal Je pourrais vite perdre beaucoup de temps rien qu'avec la modération.
 
WRInaute passionné
Il veut surtout détecter des contenus inapropriés selon ses critères je crois, pas le contenu dupliqué. Même s'il ne serait pas contre j'imagine :)

@7804j : un message en privé.
 
WRInaute accro
ah avec le terme "soumis aux droits d'auteur" je comprenais également contrôle du DC :mrgreen:

Si quelqu'un sait comment automatiser le contrôle du DC des articles publiés par les membres, je suis preneur :wink:
 
WRInaute discret
Vu qu'il s'agit de discussions entre utilisateurs et non pas d'articles, il y a peu de risques de contenu dupliqué. Par "soumis aux droits d'auteur", je pensais plutôt à des images provenant de bandes dessinées ou éventuellement à des chapitres de livres copiés-collés.
 
WRInaute accro
Ah ok ;)

Cela dit ma question tient toujours, si jamais quelqu'un passe par là et aurait un moyen pour simplifier la tache de la detection de DC des articles de membres :mrgreen:
 
Discussions similaires
Haut