Une problematique ou je tourne en rond ...


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12003
Inscription: 1 Mar 2005

Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:10

A ma droite une liste de nom de domaines en vrac total (pas de rubrique les classant etc). Un nombre trop important pour un traitement manuel bien sur.

A ma gauche cette même liste en deux paquets : les sites adultes d'un coté, les sites non adultes de l'autre ...

Problematique : comment passer de droite à gauche ?

Pour le moment j'en suis a une solution qui ne me satisfait que moyen moyen :

a) Une liste de mots clefs adultes dans un coin (deja premier bleme, fait la constituer)
b) un petit algo de recherche si presence d'un mot adulte dans url et on tri.

Si quelqu'un a déjà eu cette problématique et/ou a d'autres pistes plus pertinentes à proposer.


YoyoS
WRInaute accro
WRInaute accro
 
Messages: 3835
Inscription: 14 Sep 2006

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:12

Zecat a écrit:Problematique : comment passer de droite à gauche ?


Je comprends pas, tu peux être plus clair ? C'est la même chose exactement à droite et à gauche sauf les 2 groupes ? Pourquoi vouloir passer de droite à gauche si tu as déjà la gauche alors ?
Dernière édition par YoyoS le Jeu Juin 10, 2010 17:14, édité 1 fois.


OTP
Modérateur
Modérateur
 
Messages: 19532
Inscription: 16 Déc 2005

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:13

Il tourne en rond dans un sens et veut changer de sens ! :mrgreen:


YoyoS
WRInaute accro
WRInaute accro
 
Messages: 3835
Inscription: 14 Sep 2006

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:15

What's the point Zecat ? =D


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12003
Inscription: 1 Mar 2005

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:17

bon manifestement j'ai pas causé clair :mrgreen: je recapépéte :

j'ai une liste d'url :

-www.toto.com
-www.titi.com
-www.QQ.com
-www.tata.com

et je veux automatiquement identifier les sites "potentiellement" pour adultes pour les sortir de la liste ...


Haroeris
WRInaute impliqué
WRInaute impliqué
 
Messages: 601
Inscription: 13 Avr 2010

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:21

Zecat a écrit:Pour le moment j'en suis a une solution qui ne me satisfait que moyen moyen :

a) Une liste de mots clefs adultes dans un coin (deja premier bleme, fait la constituer)
b) un petit algo de recherche si presence d'un mot adulte dans url et on tri.

Si quelqu'un a déjà eu cette problématique et/ou a d'autres pistes plus pertinentes à proposer.


A part cette solution c'est pas évident.

Tu peux utiliser un algo qui fait un screenshot de la page d'accueil et qui calcul la couleur moyenne des pixels : si la dominante est rose alors c'est un site porno :mrgreen:


gg00xiv
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 43
Inscription: 10 Juin 2010

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:33

Le mieux serait de récupérer (ou constituer) une liste d'url de sites pour Adultes, et comparer tes urls avec ces dernières afin de les bloquer ou non.


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12003
Inscription: 1 Mar 2005

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:35

gg00xiv a écrit:Le mieux serait de récupérer (ou constituer) une liste d'url de sites pour Adultes, et comparer tes urls avec ces dernières afin de les bloquer ou non.

Heu ... oui ... c'est justement l'objet de ce tri !


YoyoS
WRInaute accro
WRInaute accro
 
Messages: 3835
Inscription: 14 Sep 2006

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:37

C'est une liste mise à jour en continu j'imagine ? Avec bcp de ndd adultes j'imagines ? :P


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12003
Inscription: 1 Mar 2005

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:41

YoyoS a écrit:C'est une liste mise à jour en continu j'imagine ? Avec bcp de ndd adultes j'imagines ? :P

oui c'est une liste qui bouge
non pas avec beaucoup de sites adultes (disons la meme proportion probablementq ue dans le web mondial).

A vue de truffe, je dirais que sur 100 sites, dans le tas il doit y en avoir 3 à 5 adultes que je dois identifier.


gg00xiv
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 43
Inscription: 10 Juin 2010

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 17:53

Tu pourrais créer cette liste assez facilement.

1. Tu te rends sur un site qui a un bon pagerank, tu lances un algo de récupération de liens sur ce site, tu fonctionnes par récursions sur les sites enfants.

2. Tu vas répéter cette procédure sur quelques sites.

3. Tu merge les bases d'url (juste le http://xxxx.ext) et tu enregistres le tout dans un fichier plat.

Voilà, tu as ta base.

PS : De nombreux aspirateurs web permettent également de faire ce travail, mais pour être précis, ce serait mieux un simple algo, voir ce lien pour l'extraction d'url : http://codeunivers.com/codes/php/extract_urls_from_page


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12003
Inscription: 1 Mar 2005

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 18:03

heu ... c'est sur le "quelques" que je coince ... :roll:

parce que en prenant le probleme dans ce sens faut que je scan tout le web mondial pour avoir une liste de 30 millions de sites adultes (au pif) qui vont me permettre de sortir les quelues centaines de sites adultes de mes listes ...


ricosound
WRInaute impliqué
WRInaute impliqué
 
Messages: 566
Inscription: 25 Oct 2009

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 18:45

Hello.

Et en comparant avec les résultats de recherches par requêtes spécialisés ; avec une ou deux dizaines d'expressions clé on doit avoir fait un tour raisonnable du sujet. Au besoin, compléter les résultats en interrogeant gogol, yahhouuu, bingue ...

Bien entendu, cela n'est pas une parade absolue mais cela permet de dégrossir pas mal avec les plus fréquentés.

Ensuite, un scan des mots de la page principale des sites restants devrait enlever encore une grosse couche, avec un contrôle final des sites douteux à la patoune.

Pas génial, mais voici des pistes de travail. :wink:

Bonne soirée, Éric.


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12003
Inscription: 1 Mar 2005

Re: Une problematique ou je tourne en rond ...

Message le Jeu Juin 10, 2010 19:02

Le "automatiquement" en prend un coup :wink:


ricosound
WRInaute impliqué
WRInaute impliqué
 
Messages: 566
Inscription: 25 Oct 2009

Re: Une problematique ou je tourne en rond ...

Message le Ven Juin 11, 2010 6:17

Bonjour.

Alors supprime la première étape.

Les sites concernés ont tous dans leur page d'accueil des mots clé comme "réservé aux adultes" ou "XXX" ...

Si un scan de la page ne donne rien de ce genre, tu es probablement tranquille. Pour finir, contrôle manuel des quelques sites repérés comme suspects. L'un d'eux peut avoir un mot clé filtré bien qu'étant tout à fait familial, mais quelques secondes suffisent pour lever l'ambiguïté.

Bon, il y a sans doute des cas avec tout en flash, par exemple, qui pourraient passer à travers, mais dans ce cas c'est un filtre particulier à développer (si flash > suspect).

On est dans le "semi-automatique" mais ce genre de filtre devrait être raisonnable (quelques % de suspects).

Sauf bien entendu s'il s'agit de reprendre un ancien annuaire de 100000 sites ! :mrgreen:

Pas mieux pour le moment, désolé, Éric.

Une problematique ou je tourne en rond ...

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités