Big Data - Partie 1 : Une révolution en marche

, Partager

A première vue, le "Big Data" est un de ces "buzz words" dont on entend beaucoup parler sans vraiment savoir de quoi il ressort. Les promesses sont légions mais que doit-on espérer du Big Data ? Car le Big Data suscite également des craintes, notamment quant à la protection de la vie privée comme le montre les révélations récentes sur le projet PRISM. La NSA (National Security Agency) collecterait (et bien sûr analyserait) les données personnelles des utilisateurs de grandes compagnies américaines [1,2,8], acteurs majeurs du Big Data, comme Microsoft, Yahoo, Google, Facebook, YouTube, Skype, AOL, PalTalk ou encore Apple.

Nous proposons ici de clarifier les idées à propos du Big Data. Qu’est-ce que c’est ? Comment cela fonctionne t-il ? A quoi et à qui cela peut-il servir ?

Qu’est-ce que le Big Data ?

C’est en quelque sorte une nouvelle discipline, entre mathématique et informatique, dont le champ d’action est extrêmement vaste. On trouve déjà des applications, que nous détaillerons plus tard, aussi bien en astrophysique qu’en sciences politiques (à travers les tendances d’opinion et le text mining). On trouve également des applications en recherche médicale, dans les industries, le marketing, la sécurité intérieure ou les politiques publiques.

L’apparition du Big Data coïncide avec l’explosion du nombre de données informatiques créées et stockées. En effet, 90% des données informatiques de la planète ont été générées durant ces deux dernières années. Ce tsunami de données est à imputer aux nouvelles technologies et à la place toujours grandissante qu’elles prennent dans nos vies : internet, e-mail, smart phones, réseaux sociaux, satellites, photos, vidéos… Pour donner quelques chiffres, chaque jour 540 millions de SMS sont envoyés à travers le monde, 143 milliards de courriels sont échangés, 400 millions de tweets sont postés, 104.000 heures de vidéos sont ajoutées sur Youtube …

Le Big Data consiste donc à stocker, analyser et extraire des informations au sein de masses de données tellement gigantesques et de natures si variées (on parle ici de données hétérogènes et non structurées) qu’aucune méthode "traditionnelle" ne pourrait les traiter. Le Big Data c’est également une nouvelle façon de penser, un nouveau paradigme [3]. On attend aujourd’hui des données stockées qu’elles délivrent de l’information claire, utile et quasi-instantanément. Le champ des possibles ouvert par l’ère du Big Data est donc par essence même original, prometteur voire révolutionnaire.

Comment cela fonctionne t-il ?

Les problèmes "Big Data" font toujours appel dans leur résolution à une partie informatique et une partie mathématique. D’un point de vue informatique le grand outil du Big Data est le MapReduce. Cela permet de mettre en parallèle plusieurs ordinateurs (de quelques dizaines à une centaine de milliers d’ordinateurs [7]) pour un traitement plus rapide du problème. Les algorithmes de type MapReduce utilisent très souvent le logiciel Hadoop. Nous ne nous étendrons pas plus sur le sujet et nous invitons les lecteurs intéressés à consulter les précédentes publications de la MST [4].

Au delà des caractères techniques et informatiques, l’analyse des données nécessite une approche mathématique. L’analyse statistique est en effet au coeur des méthodes de "data mining". Les algorithmes de classification issue des Statistiques Bayesiennes (k-mean clustering, machine learning, tests de Student…) se révèlent indispensables. Mais de nombreux autres domaines de la mathématique entrent en jeu, parmi lesquels :
=> Probabilités (chaînes de Markov, marches aléatoires…)
=> Topologie
=> Algèbre linéaire (décomposition en valeurs singulières, analyse en composantes principales…)
=> Analyse (régressions linéaires, séries de Fourier, méthodes des moindres carrés…)

Data Analyst : le métier d’avenir du Big Data

Cette nouvelle approche demande également de nouvelles compétences. Le data analyst est celui qui sait faire parler les données. Il doit être capable d’évoluer aisément au milieu des données informatiques mais il doit également comprendre les algorithmes mathématiques pour prendre des initiatives. En effet, le data analyst ne sait pas forcément quelles informations sont contenues dans les données brutes. Il doit aussi comprendre l’environnement (marketing, industriel, entreprise, médical, fiscal…) dans lequel il évolue pour repérer les informations intéressantes et valorisables.

Ce type de profil est aujourd’hui assez rare et les universités américaines commencent tout juste à ouvrir des programmes pour "Data analysts". L’université George Washington à Washington, DC ouvre par exemple pour la première fois l’an prochain le Master Science in Business Analytics [5].

La demande est grande. Un rapport de l’institut McKinsey prévoit l’ouverture de 180.000 postes de "data analysts" supplémentaires dans les deux ans à venir aux USA. Trouver autant de gens compétents dans ce domaine ne s’annonce pas gagné d’avance. C’était l’une des interrogations des élus du Congrès Américain lors d’une audition à la Rayburn House le 24 avril 2013. Les Etats-Unis pourraient manquer de deux millions de cerveaux dans le domaine de l’Information Technology d’ici à 2020 [6]. Avis aux amateurs…

Nous détaillerons certaines applications dans 3 prochaines publications.

Sources :


- [1] "NSA spying on Americans"- Electronic Frontier Fondation - https://www.eff.org/nsa-spying/timeline
- [2] "What the NSA can do with "Big Data"" - Sean Gallagher - Ars tecnica - 11/06/13 - http://goo.gl/VLWNR
- [3] "The Fourth Paradigm : Data-intensive Scientific Discovery" - Tony Hey - 2009
- [4] BE Etats-Unis numéro 328 - Basile Bouquet -12/04/2013 - http://goo.gl/Jk5HM
- [5] George Washington University - http://www.gwanalytics.org/
- [6] Chiffre avancé par les trois experts entendus pendant l’audition du 24 avril à la Rayburn House, Washington, DC : Dr David McQueeney, Dr Michael Rappa et Dr Farnam Jahanian.
- [7] Le supercalculateur IBM Sequoia, actuellement le plus puissant du monde, qui fonctionne avec 98.000 ordinateurs connectés - http://en.wikipedia.org/wiki/IBM_Sequoia
- [8] "U.S. confirmes that it gathers data overseas"- Charlie Savage, Edwar Wyatt & Peter Baker - NewYork Times - 06/06/13 - http://goo.gl/BuRMq

Pour en savoir plus, contacts :


- "Big Data : A revolution that will transform how we live, work and think."- Viktor Mayer-Schönberger & Kenneth Cukier- HMV,2013.
- "MapReduce : Simplified Data Processing on Large Clusters" - Dean & Ghemawat - 2004
- "Probability with Martingales" - David Williams - Cambridge Mathematical Textbooks - 1991
Code brève
ADIT : 73270

Rédacteurs :


- Sébastien Fischman (sebastien.fischman@ens-cachan.fr) ;
- Retrouvez toutes nos activités sur http://france-science.org ;
- Suivre le secteur Nouvelles Technologies de l’Information, Communication, Sécurité sur twitter @MST_USA_NTICS.

Voir en ligne : http://www.bulletins-electroniques….