Boulette : AOL publie des données privées (Oops trop tard)

WRInaute passionné
AOL a mis à disposition les données de plus de 20 millions de requêtes. de plus de 650.000 utilisateurs.

Elles comprennent les requêtes, les résultats cliqués, en quelle position...

Un zip de plus de 400Mb.

Mais il contient également beaucoup de données privées, on peut suivre toute les recherches d'un utilisateurs, et parmis elles, il y a des noms (ego search), des numéros de sécu ou des "comment assassiner votre femme", "acheter de l'ecstasy"... bref, embarassant.

Sans parler des experts du marketing qui vont décortiquer les requêtes pour voir étudier comportement des utilisateurs...

AOL a du se rendre compte de sa boulette, et a retiré le fichier, mais trop tard, des mirroirs ont été mis en place.

Après les débat autour de la diffusion des données qui ont eu lieu récemment, une telle erreure est incompréhensible.

Source Techcrunch.
http://www.techcrunch.com/2006/08/06/aol-proudly-releases-massive-amounts-of-user-search-data/
 
WRInaute accro
j'ai le fichier >> 2.2 GO de données !

bon, tous les utilisateurs d'AOL sont remplacés par des "anonymous ID" mais bon
je peux savoir qu'une même personne a tapé "pregnancy test" avant de rechercher "card I'm pregnant !"...


ps : c'est bien y'a les sites qui ont été visités suite aux clics, j'apparais plein de fois :D Zorgloob aussi :D
bon par contre j'arrive pas à mettre ça dans une base mysql...
 
WRInaute impliqué
TOMHTML a dit:
j'ai le fichier >> 2.2 GO octets !

bon, tous les utilisateurs d'AOL sont remplacés par des "anonymous ID" mais bon
je peux savoir qu'une même personne a tapé "pregnancy test" avant de rechercher "card I'm pregnant !"...
Je vais essayer de le choper ça ...
ça va bien me faire marrer je crois :lol:
 
WRInaute passionné
Je peux pas le télécharger, je suis en 56k. :(

TOMHTML, tu voudrais pas mettre ça dans une base, une fonction de recherche et l'uploader quelque part ?

Ca ferais un carton. :D
 
WRInaute impliqué
TOMHTML a dit:
attention : ne pas l'ouvrir avec le bloc note de windows > ça l'explose....
m'étonne même pas :lol:

<anecdote>
j'ai souvenir d'une fois où j'avais essayé d'ouvrir une BDD d'un forum de taille moyenne avec cette daube ...

sinon, j'ai remplacé mon notepad Win par notepad2, même la calculatrice n'est plus celle d'origine ...
</anecdote>


Par contre, les débits, c'est pas trop çà, je suis rarement au maximum de ma connexion, donc soit le serveur que j'ai choisi est pourrave, soit y a du succès et ça limite la Bande Passante ; mais ça reste "correct", faut juste pas être trop pressé.

Je le mettrai peut être en download sur le réseau Gnutella après l'avoir reçu.
 
WRInaute accro
vous pouvez ouvrir les fichiers avec WordPad, ça passe
par contre la base de données...
MySql > passe pas (même en virant la limite de tailles des fichiers à importer, c'est encore trop grand)
Excel > une feuille ne peut contenir que 65536 lignes... beaucoup beaucoup moins que le nombre de données dans les fichiers texte...


edit : sous linux ouvrez avec Vi
 
WRInaute accro
TOMHTML a dit:
MySql > passe pas (même en virant la limite de tailles des fichiers à importer, c'est encore trop grand)

en découpant par tranche de 10 lignes... doit pas y en avoir bcp sur un fichier de 2 Go lol
 
WRInaute passionné
Pour les autres qui seraient intéréssés plusieurs mirroirs ici:

-http://www.gregsadetsky.com/aol-data/
 
WRInaute passionné
Très cool ça Monty c'est justement ce que j'allais demander ^^
Sur l'un des mirroirs, je suis à 400 ko/s stable donc ça devrait aller vite :wink:
 
WRInaute accro
Bonjour
Pour décomprsser un fichier *.tgz , on peut utiliser gunzip <fichier.tgz> , ce qui donne un fichier type *.tar , mais ensuite, avec la commande tar sous Linux, quels sont les paramètres qu'il faut mettre ?

J'avais l'habitude de faire:

tar -xvf fichier.tar

C'est bon ou c'est pas bon ?

Merci beaucoup de vos réponses.

Jean-François Ortolo
 
WRInaute passionné
Pour ceux qui auraient des problèmes avec leur éditeurs de texte pour les gros fichiers, il y a ça:

-http://www.swiftgear.com/ltfviewer/features.html

spécialement conçu pour les gros fichiers > 1Gb

Je n'ai pas testé mais en ai eu de bons échos.
 
WRInaute passionné
Le top* des requetes sur AOL.
Ca laisse songeur...

369867 -
47921 google
43598 ebay
28658 internet
26408 yahoo.com
23440 mapquest
20158 http
19976 google.com
17729 myspace.com
16533 yahoo
12968 .com
12719 weather
12569 www.yahoo.com
12419 ebay.com
11442 www.google.com
10152 map quest
9270 american idol
9088 myspace
8378 m
7630 www.google
7300 mycl.cravelyrics.com
7015 com
6982 www.myspace.com
6656 www.
6324 travelocity
5764 im help
5705 www
5561 om
5348 home depot
5302 www.ebay.com
5280 dictionary
5234 g
5129 pogo
5114 my
5062 hotmail.com
5033 sears
4838 porn
4683 white pages
4577 orbitz
4552 mailbox

* uniq|sort|uniq -c
 
WRInaute accro
ortolojf a dit:
J'avais l'habitude de faire:

tar -xvf fichier.tar

C'est bon ou c'est pas bon ?

Merci beaucoup de vos réponses.

Jean-François Ortolo

La honte...

Effectivement, ce sont les bons paramètres, je m'en suis souvenu juste au moment où j'ai rempli ce message.

J'ai testé, j'ai maintenant les dix fichiers de AOL décompressés, mais... Il me semble que ce ne sont que les clients de langue anglophone ? Je peux me tromper...

Bien à vous.

Jean-François Ortolo
 
WRInaute passionné
pounk a dit:
TOMHTML a dit:
ps : c'est bien y'a les sites qui ont été visités suite aux clics, j'apparais plein de fois :D Zorgloob aussi :D

pfiou j'suis déçu je n'ai retrouvé mon site que deux fois

C'est pas ton site qu'il faut chercher, mais celui de tes concurrent afin de trouver pourquoi eux ils sortent et pas toi. :wink:
 
WRInaute passionné
ortolojf a dit:
tar -xvf fichier.tar

Oui mais tu peux aussi decompressr en meme temps.
tar xvzf fichier.tgz
A noter que l'archive contient des fichiers compresses .gz que tu peux lire avec zcat ou decompresser avec ungzip (ou gzip -d)
 
WRInaute accro
Un de mes potes est en train de mettre ça sur une base MySQL... c'est long mais ça marche :)

ps : pour MS-DOS j'ai trouvé cette commande qui marche
Code:
find /i "mot recherché" *.txt
je pensais que ça marchais que sous linux ça :)
mais bon ça reste deux de tension qd même
 
WRInaute accro
ben le truc que j'ai dl est composé de 10 fichiers de 212 Mo donc c facile à ouvrir avec Word :)

j'ai cherché juste sur un fichier, j'ai pas trouvé mon site ouinnnnn
 
WRInaute accro
Une petite recherche sur WebRankInfo...

déjà rien que le premier fichier (le reste viendra après manger :D )
(liste supprimée par WRI : merci de ne pas publier des extraits des données d'AOL sur ce forum)
 
WRInaute impliqué
Grantome a dit:
pounk a dit:
TOMHTML a dit:
ps : c'est bien y'a les sites qui ont été visités suite aux clics, j'apparais plein de fois :D Zorgloob aussi :D

pfiou j'suis déçu je n'ai retrouvé mon site que deux fois

C'est pas ton site qu'il faut chercher, mais celui de tes concurrent afin de trouver pourquoi eux ils sortent et pas toi. :wink:

ils ne sortent pas plus que moi, certainement parcequ'il s'agit d'aol.com et non d'aol.fr
 
Olivier Duffez (admin)
Membre du personnel
si c'est d'aol.com qu'il s'agit, ça veut dire que ce sont les mêmes données (de ranking) que Google.com, non ?
 
WRInaute passionné
WebRankInfo a dit:
si c'est d'aol.com qu'il s'agit, ça veut dire que ce sont les mêmes données (de ranking) que Google.com, non ?

Exact. C'est pour ça qu'après l'épisode "Google refuse de communiquer ses données à la justice", la boulette est de taille.

D'ailleurs s'explique et s'excuse

Les données regroupent environ 1/3 des recherches effectuées aux US avec le client AOL sur une période de 3 mois.
 
Olivier Duffez (admin)
Membre du personnel
ça n'a pas trainé : -http://www.aolsearchdatabase.com/
un nom de domaine et des adsense agrémentent la base de données consultable en entier, y compris les user_id (il aurait dû les virer)
 
WRInaute accro
Rha, il a réussi à fourrer les 2.2Go... Moi je magouille toujours pour uploader tout ça dans ma base... :D
 
WRInaute occasionnel
Y'aurait-t'il d'après vous un rapport entre :
- la fuite de ce fichier de 2,2 Go
et
- le licenciement de 5000 employés annoncés chez AOL ?

-http://www.lexpansion.com/art/32.0.145827.0.html

Un futur licencié qui se venge ?
 
WRInaute passionné
scores a dit:
Y'aurait-t'il d'après vous un rapport ? Un futur licencié qui se venge ?

Non. Il ne s'agit pas d'une fuite mais d'une mise a disposition officielle. Par une equipe de plusieurs personnes (nommees), avec des conditions d'utilisation, ... (et c'est aussi pour ca que ca a pris une telle ampleur)
Par ailleurs, ce fichier et ces personnes relevent de l'activite portail que justement AOL souhaite developper et ne sont pas concernes (directement) par les licenciements.
 
WRInaute impliqué
j'avais cru que AOL n'utilisais plus google mais exalead... enfin je dis ça je dis rien
 
WRInaute passionné
Ca me rappelles le jour ou j'avais trouver un fichier libre d'acces sur dir*ct-st*ts avec tous les noms d'utilisateurs , mots de passe , et e-mail, des comptes utilisateurs sur dir*ct-st*ts...
Ca s'etait une vrai boulette...
 
WRInaute passionné
tenais pour ceux qui veulent
-http://www.aolsearchdatabase.com/
-http://www.askthebrain.com/aol/
-http://www.dontdelete.com/

y'en a qui ont mis les fichiers dans une belle base de donnée

EDIT : en voila d'autre alors audrey :)
 
WRInaute passionné
Merci, mais je suis intervenu dans le topic... ^^

Je me demandais si certains avaient fait d'autres stats succeptibles d'interrresser la communauté...
 
WRInaute discret
merci pour les liens. Quelqu'un a déja commencé à faire une étude détaillée sur les requêtes réelles ? (et ainsi comparer les estimations de traffic via adsense avec les résultats réel chez aol)
 
Nouveau WRInaute
Tout ce que Google touche se transforme en X#N!...Traduction Tout ce que Google touche se transforme en catastrophe.

Google signe le deal avec Aol, Aol met plus de 650 000 donnees prives en ligne.

Google signe un deal avec Dell, la batterie de plus de 4 Millions d'ordinateurs explose.

Y'aurait pas comme un effet de poisse chez Google ??
 
WRInaute occasionnel
Serious a dit:
scores a dit:
Y'aurait-t'il d'après vous un rapport ? Un futur licencié qui se venge ?

Non. Il ne s'agit pas d'une fuite mais d'une mise a disposition officielle. Par une equipe de plusieurs personnes (nommees), avec des conditions d'utilisation, ... (et c'est aussi pour ca que ca a pris une telle ampleur)
Par ailleurs, ce fichier et ces personnes relevent de l'activite portail que justement AOL souhaite developper et ne sont pas concernes (directement) par les licenciements.

Des têtes sont belles et biens tombées !
-http://www.vnunet.fr/fr/vnunet/news/2006/08/23/fuites-chez-aol-t-tomber
 
Discussions similaires
Haut