Une problematique ou je tourne en rond ...
17 messages
• Page 1 sur 2 • 1, 2
-

Zecat - WRInaute accro

- Messages: 12003
- Inscription: 1 Mar 2005
Une problematique ou je tourne en rond ...
A ma droite une liste de nom de domaines en vrac total (pas de rubrique les classant etc). Un nombre trop important pour un traitement manuel bien sur.
A ma gauche cette même liste en deux paquets : les sites adultes d'un coté, les sites non adultes de l'autre ...
Problematique : comment passer de droite à gauche ?
Pour le moment j'en suis a une solution qui ne me satisfait que moyen moyen :
a) Une liste de mots clefs adultes dans un coin (deja premier bleme, fait la constituer)
b) un petit algo de recherche si presence d'un mot adulte dans url et on tri.
Si quelqu'un a déjà eu cette problématique et/ou a d'autres pistes plus pertinentes à proposer.
A ma gauche cette même liste en deux paquets : les sites adultes d'un coté, les sites non adultes de l'autre ...
Problematique : comment passer de droite à gauche ?
Pour le moment j'en suis a une solution qui ne me satisfait que moyen moyen :
a) Une liste de mots clefs adultes dans un coin (deja premier bleme, fait la constituer)
b) un petit algo de recherche si presence d'un mot adulte dans url et on tri.
Si quelqu'un a déjà eu cette problématique et/ou a d'autres pistes plus pertinentes à proposer.
-

YoyoS - WRInaute accro

- Messages: 3835
- Inscription: 14 Sep 2006
Re: Une problematique ou je tourne en rond ...
Zecat a écrit:Problematique : comment passer de droite à gauche ?
Je comprends pas, tu peux être plus clair ? C'est la même chose exactement à droite et à gauche sauf les 2 groupes ? Pourquoi vouloir passer de droite à gauche si tu as déjà la gauche alors ?
Dernière édition par YoyoS le Jeu Juin 10, 2010 17:14, édité 1 fois.
-

Zecat - WRInaute accro

- Messages: 12003
- Inscription: 1 Mar 2005
Re: Une problematique ou je tourne en rond ...
bon manifestement j'ai pas causé clair
je recapépéte :
j'ai une liste d'url :
-www.toto.com
-www.titi.com
-www.QQ.com
-www.tata.com
et je veux automatiquement identifier les sites "potentiellement" pour adultes pour les sortir de la liste ...
j'ai une liste d'url :
-www.toto.com
-www.titi.com
-www.QQ.com
-www.tata.com
et je veux automatiquement identifier les sites "potentiellement" pour adultes pour les sortir de la liste ...
-

Haroeris - WRInaute impliqué

- Messages: 601
- Inscription: 13 Avr 2010
Re: Une problematique ou je tourne en rond ...
Zecat a écrit:Pour le moment j'en suis a une solution qui ne me satisfait que moyen moyen :
a) Une liste de mots clefs adultes dans un coin (deja premier bleme, fait la constituer)
b) un petit algo de recherche si presence d'un mot adulte dans url et on tri.
Si quelqu'un a déjà eu cette problématique et/ou a d'autres pistes plus pertinentes à proposer.
A part cette solution c'est pas évident.
Tu peux utiliser un algo qui fait un screenshot de la page d'accueil et qui calcul la couleur moyenne des pixels : si la dominante est rose alors c'est un site porno
-

Zecat - WRInaute accro

- Messages: 12003
- Inscription: 1 Mar 2005
Re: Une problematique ou je tourne en rond ...
gg00xiv a écrit:Le mieux serait de récupérer (ou constituer) une liste d'url de sites pour Adultes, et comparer tes urls avec ces dernières afin de les bloquer ou non.
Heu ... oui ... c'est justement l'objet de ce tri !
-

Zecat - WRInaute accro

- Messages: 12003
- Inscription: 1 Mar 2005
Re: Une problematique ou je tourne en rond ...
YoyoS a écrit:C'est une liste mise à jour en continu j'imagine ? Avec bcp de ndd adultes j'imagines ?
oui c'est une liste qui bouge
non pas avec beaucoup de sites adultes (disons la meme proportion probablementq ue dans le web mondial).
A vue de truffe, je dirais que sur 100 sites, dans le tas il doit y en avoir 3 à 5 adultes que je dois identifier.
-

gg00xiv - Nouveau WRInaute

- Messages: 43
- Inscription: 10 Juin 2010
Re: Une problematique ou je tourne en rond ...
Tu pourrais créer cette liste assez facilement.
1. Tu te rends sur un site qui a un bon pagerank, tu lances un algo de récupération de liens sur ce site, tu fonctionnes par récursions sur les sites enfants.
2. Tu vas répéter cette procédure sur quelques sites.
3. Tu merge les bases d'url (juste le http://xxxx.ext) et tu enregistres le tout dans un fichier plat.
Voilà, tu as ta base.
PS : De nombreux aspirateurs web permettent également de faire ce travail, mais pour être précis, ce serait mieux un simple algo, voir ce lien pour l'extraction d'url : http://codeunivers.com/codes/php/extract_urls_from_page
1. Tu te rends sur un site qui a un bon pagerank, tu lances un algo de récupération de liens sur ce site, tu fonctionnes par récursions sur les sites enfants.
2. Tu vas répéter cette procédure sur quelques sites.
3. Tu merge les bases d'url (juste le http://xxxx.ext) et tu enregistres le tout dans un fichier plat.
Voilà, tu as ta base.
PS : De nombreux aspirateurs web permettent également de faire ce travail, mais pour être précis, ce serait mieux un simple algo, voir ce lien pour l'extraction d'url : http://codeunivers.com/codes/php/extract_urls_from_page
-

Zecat - WRInaute accro

- Messages: 12003
- Inscription: 1 Mar 2005
Re: Une problematique ou je tourne en rond ...
heu ... c'est sur le "quelques" que je coince ...
parce que en prenant le probleme dans ce sens faut que je scan tout le web mondial pour avoir une liste de 30 millions de sites adultes (au pif) qui vont me permettre de sortir les quelues centaines de sites adultes de mes listes ...
parce que en prenant le probleme dans ce sens faut que je scan tout le web mondial pour avoir une liste de 30 millions de sites adultes (au pif) qui vont me permettre de sortir les quelues centaines de sites adultes de mes listes ...
-

ricosound - WRInaute impliqué

- Messages: 566
- Inscription: 25 Oct 2009
Re: Une problematique ou je tourne en rond ...
Hello.
Et en comparant avec les résultats de recherches par requêtes spécialisés ; avec une ou deux dizaines d'expressions clé on doit avoir fait un tour raisonnable du sujet. Au besoin, compléter les résultats en interrogeant gogol, yahhouuu, bingue ...
Bien entendu, cela n'est pas une parade absolue mais cela permet de dégrossir pas mal avec les plus fréquentés.
Ensuite, un scan des mots de la page principale des sites restants devrait enlever encore une grosse couche, avec un contrôle final des sites douteux à la patoune.
Pas génial, mais voici des pistes de travail.
Bonne soirée, Éric.
Et en comparant avec les résultats de recherches par requêtes spécialisés ; avec une ou deux dizaines d'expressions clé on doit avoir fait un tour raisonnable du sujet. Au besoin, compléter les résultats en interrogeant gogol, yahhouuu, bingue ...
Bien entendu, cela n'est pas une parade absolue mais cela permet de dégrossir pas mal avec les plus fréquentés.
Ensuite, un scan des mots de la page principale des sites restants devrait enlever encore une grosse couche, avec un contrôle final des sites douteux à la patoune.
Pas génial, mais voici des pistes de travail.
Bonne soirée, Éric.
-

ricosound - WRInaute impliqué

- Messages: 566
- Inscription: 25 Oct 2009
Re: Une problematique ou je tourne en rond ...
Bonjour.
Alors supprime la première étape.
Les sites concernés ont tous dans leur page d'accueil des mots clé comme "réservé aux adultes" ou "XXX" ...
Si un scan de la page ne donne rien de ce genre, tu es probablement tranquille. Pour finir, contrôle manuel des quelques sites repérés comme suspects. L'un d'eux peut avoir un mot clé filtré bien qu'étant tout à fait familial, mais quelques secondes suffisent pour lever l'ambiguïté.
Bon, il y a sans doute des cas avec tout en flash, par exemple, qui pourraient passer à travers, mais dans ce cas c'est un filtre particulier à développer (si flash > suspect).
On est dans le "semi-automatique" mais ce genre de filtre devrait être raisonnable (quelques % de suspects).
Sauf bien entendu s'il s'agit de reprendre un ancien annuaire de 100000 sites !
Pas mieux pour le moment, désolé, Éric.
Alors supprime la première étape.
Les sites concernés ont tous dans leur page d'accueil des mots clé comme "réservé aux adultes" ou "XXX" ...
Si un scan de la page ne donne rien de ce genre, tu es probablement tranquille. Pour finir, contrôle manuel des quelques sites repérés comme suspects. L'un d'eux peut avoir un mot clé filtré bien qu'étant tout à fait familial, mais quelques secondes suffisent pour lever l'ambiguïté.
Bon, il y a sans doute des cas avec tout en flash, par exemple, qui pourraient passer à travers, mais dans ce cas c'est un filtre particulier à développer (si flash > suspect).
On est dans le "semi-automatique" mais ce genre de filtre devrait être raisonnable (quelques % de suspects).
Sauf bien entendu s'il s'agit de reprendre un ancien annuaire de 100000 sites !
Pas mieux pour le moment, désolé, Éric.
17 messages
• Page 1 sur 2 • 1, 2
Lectures recommandées sur ce thème :
- Je tourne en rond !
- Je tourne en rond ou quoi ?
- Purée, je tourne en rond
- Je tourne en rond // un peu d'aide ?
- conserver l'url :Je tourne en rond....
- voila tourne pas rond
- Vivastreet - une page se tourne
- Problématique URL dans une structure portail
- [problematique]couper une page trop longue
- Google et chiffre rond dans l'indexation
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

