Big Data - Partie 3 : Pour le meilleur et pour le pire

, Partager

Alors que la révolution Big Data est bel et bien lancée, l’opinion oscille entre enthousiasme et inquiétude. Les promesses sont nombreuses. On parle d’un monde plus intelligent doté d’une médecine personnalisée moins coûteuse et plus efficace, de scientifiques mieux informés et plus alertes, d’entreprises modernes plus réactives, d’un gouvernement mieux informé et plus protecteur… Mais des craintes légitimes font également surface. Notamment sur les questions de la protection de la vie privée (mises en lumière par les révélations sur le programme PRISM) mais pas seulement. Voici deux exemples d’utilisation de données informatiques à avoir en tête avant de se forger une opinion.

Pour le meilleur …

Le Big Data est incontestablement un outil d’avenir. Nous avons vu dans nos précédentes brèves [1,2] à quel point recherche scientifique et Big Data sont étroitement liés. Mais des progrès dans tous les domaines sont possibles : industries, économies d’énergie, politiques publiques… Nous voulons ici présenter l’incroyable potentiel que représentent les archives d’internet à travers l’exemple de Google.

Google est non seulement un acteur majeur du Big Data mais aussi un précurseur. Son algorithme PageRank, qui est à la base du célèbre moteur de recherche, a prouvé qu’un ordinateur, grâce à un algorithme mathématique, pouvait parfaitement aller chercher de l’information précise au sein de gigantesques masses de données. On compte en effet plus de 30.000 milliards de pages internet individuelles [3] et, en moins d’une seconde, Google est capable de les classer pour vous fournir celles qui sont pertinentes à votre recherche. L’algorithme PageRank, basé sur la théorie des graphes et les marches aléatoires, repose sur un seul théorème mathématique qu’est le théorème d’ergodicité appliqué à certaines chaînes de Markov particulières. Ce seul algorithme mériterait qu’on s’y arrête plus longtemps mais ce n’est pas ici le sujet. Google fait actuellement du Big Data avec les archives du moteur de recherche, soit du Big Data avec du Big Data.

Google Flu Trends

En 2009 des chercheurs de Google ont eu l’idée de se servir en temps réel des recherches faites par les utilisateurs américains pour détecter des épidémies de grippe [4]. Il paraît en effet évident qu’un malade est plus enclin qu’un individu en pleine forme à faire des recherches liées à la grippe. Cependant l’état des connaissances en psychologie des utilisateurs ne permettait pas de savoir quels types de requêtes étaient liées à la grippe, ni combien d’entre elles il fallait prendre en compte… Peu importe ! Et c’est toute la beauté du Big Data. S’il existe un lien, laissons l’ordinateur le découvrir ! Ainsi les chercheurs de Google ont fait le test sur les 50 millions de mots clés les plus utilisés aux Etats-Unis durant la période d’enregistrement 2003-2008 (soit plusieurs centaines de milliards de requêtes). Ils ont alors chaque fois comparé les résultats de leur modèle avec les archives du CDC (Centers for Disease Control and Prevention) qui s’occupe de la détection des épidémies aux Etats-Unis pour obtenir les 100 requêtes les plus liées à la grippe. Certaines d’entre elles étaient d’ailleurs surprenantes. "High school basketball" en faisait partie car il s’avère que la saison de basket universitaire coïncide avec les périodes de grippe aux Etats-Unis. Les chercheurs ont ensuite demandé à l’ordinateur combien de requêtes il fallait prendre en compte pour obtenir le meilleur modèle. Au total, l’ordinateur a testé plus de 450 millions de modèles différents. Résultats : 45 requêtes permettent de suivre jour par jour la propagation d’une épidémie de grippe aux Etats-Unis. Les prédictions de Google ont une avance d’une à deux semaines sur celles du CDC et sont tout aussi fiables [4].


Résultats comparés du modèle Google et de celui du CDC
Crédits : Magazine Nature - nature.com


… et pour le pire

Le projet FarOut [5] est tout à fait amusant à première vue. Deux chercheurs de Microsoft travaillent sérieusement à prédire l’avenir à partir de vos données GPS. L’idée étant de pouvoir répondre à la question : "Où vous trouverez-vous dans 152 jours à 14h ?". Les deux chercheurs ont suivi 307 personnes (toutes volontaires, rassurez-vous) et 396 véhicules à l’aide de balises GPS pendant de longues périodes (jusqu’à 1247 jours) et 24h/24 minute par minute. Après avoir découpé la surface du globe en cellules triangulaires de 400m de côté, les chercheurs se sont aperçus que 10 cellules suffisent quasiment de nos jours à couvrir les déplacements d’un individu urbain. Ils ont collecté les données GPS dans une matrice dont la dimension est proportionnelle au nombre de jours de suivi GPS. Après une décomposition en série de Fourier, on fait ce qu’on appelle une Analyse en Composantes Principales (ACP). C’est une méthode mathématique qui permet de mettre en avant les directions privilégiées. Ce sont celles qui détiennent le plus d’information quant à la répartition d’un échantillon statistique. On réduit ainsi la dimension du problème à seulement 10 "jours propres" qui correspondent en fait aux 10 vecteurs propres associés aux 10 composantes principales. Au final, les deux chercheurs sont capables de prédire avec de bonnes chances de réussite (voir [5]) où vous serez dans 152 jours à 14h.

On peut imaginer de nombreuses applications marketing et inoffensives. Comme une application qui aide un groupe d’amis à trouver la meilleure date et le meilleur endroit pour proposer un rendez-vous commun. Ou encore des applications publicitaires du type : "Vous avez besoin d’une nouvelle coupe de cheveux ? Ca tombe bien vous passerez dans 4 jours à 100m d’un coiffeur qui fait une réduction de 15% !".

Au regard de ce qu’il est possible de faire simplement avec des données GPS (et la plupart des téléphones portables fournissent des données GPS) il n’est pas difficile d’imaginer toutes les applications possibles lorsqu’on dispose de plus d’informations. Ainsi le gouvernement américain a misé sur le Big Data pour sa sécurité intérieure. Son budget "Big Data" [6] est de 250 millions de dollars par an, dont 60 millions sont mis à disposition de la recherche. Plus de 22 projets sont officiellement en cours au sein du DOD (Department of Defense), du DHS (Department of Homeland Security), du VA (Department of Veterans Affairs) et de la NSA (National Security Agency). Le Big Data est certainement très utile aux services secrets américains dans la lutte anti-terroriste. Mais en l’absence de transparence sur la manière dont les données personnelles sont collectées et analysées, il parait légitime de se questionner sur le respect de la vie privée des citoyens américains ainsi que celle de tous les honnêtes utilisateurs à travers le monde.



A lire également :

Big Data - Partie 1 : Une révolution en marche
http://www.bulletins-electroniques.com/actualites/73270.htm

Big Data - Partie 2 : Le quatrième paradigme de la science
http://www.bulletins-electroniques.com/actualites/73390.htm

Sources :

[3] Chiffre avancé par Google Inside Search "How search works" - Mars 2013

Pour en savoir plus, contacts :


- [1] "Big Data - Partie 1 : Une révolution en marche" - Sébastien Fischman - BE Etats-Unis - 14/06/13 - http://www.bulletins-electroniques.com/actualites/73270.htm
- [2] "Big Data - Partie 2 : Le quatrième paradigme de la science" - Sébastien Fischman - BE Etats-Unis - 21/06/13 - http://www.bulletins-electroniques.com/actualites/73390.htm
- [4] "Detecting influenza epidemics using search engine query data" - Jeremy Ginsbert, Matthew H.Mohebbi et al. - Nature vol. 457 - Février 2009
- [5] "Far Out : Predicting Long-Term Human Mobility" - Adam Sadilek et John Krumm - AAAI Conference on Artificial Intelligence - 2012.
- [6] "Fact Sheet : Big Data Across the Federal Government" - http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final.pdf - 29/03/12
Code brève
ADIT : 73552

Rédacteurs :


- Sébastien Fischman, sebastien.fischman@ens-cachan.fr ;
- Retrouvez toutes nos activités sur http://france-science.org ;
- Suivre le secteur Nouvelles Technologie de l’Information, Communication, Sécurité sur twitter @MST_USA_NTICS

Voir en ligne : http://www.bulletins-electroniques….