Recherche, Innovation et Formations sur le Big Data aux Etats-Unis

, Partager

Publié le 1/09/2013 - 45 pages - pdf 4,9 Mo

Auteurs : FISCHMAN Sébastien

Télécharger le rapport au format PDF :

L’évolution récente des technologies (Internet, smart phones, appareils photos, caméras, satellites…) a fait exploser la quantité de données créées et stockées. Chaque jour, 540 millions de SMS sont envoyés dans le monde, 143 milliards de courriels sont échangés, 40 000 giga-octets de données sont produites au LHC (Large Hadron Collider), 400 millions de tweets sont postés, 104.000 heures de vidéos sont ajoutées sur Youtube, etc. Le Big Data va certainement trouver des applications dans tous les domaines imaginables. La médecine, l’astrophysique, les sciences sociales ou la recherche scientifique en général voient s’ouvrir les portes d’un univers différent.

Cependant, au delà de toutes les promesses du Big Data, cette révolution amène également de nombreuses interrogations. Il est primordial de ne pas tomber dans ce que certains appellent déjà "la dictature des données". Faire des prédictions ou prendre des décisions en suivant aveuglément des schémas que l’on entrevoit dans un amas de données non pertinentes est une grossière erreur. Former des "data scientists" compétents et capables de tirer profit du Big Data tout en sensibilisant l’ensemble de la société, y compris nos responsables politiques, à ce changement profond et à ses conséquences : voici le nouveau défi du Big Data.

Au sommaire de ce document :

Idées et principes fondamentaux du Big Data :

1. MapReduce, l’outil informatique omniprésent

2. Comment fonctionne l’algorithme PageRank de Google
2.1 Explorer le Web et stocker les informations
2.2 Trouver les pages correspondantes
2.3 Classer les pages de manière pertinente
2.4 Comment utiliser les notes attribuées ?
- Représentation par graphe
- La marche aléatoire
- Un peu de mathématiques
- Théorèmes du point fixe
- Les chaînes de Markov

3. Méthodes pratiques de calcul
3.1 Un algorithme naïf
3.2 L’algorithme de Google

4. Le Big Data ne s’arrête pas là pour Google
4.1 Google Flu Trend

Domaines d’application :

5. Le quatrième paradigme de la science
5.1 La recherche biomédicale
- Trouver automatiquement des liens insoupçonnés : le projet brainSCANr
- Applications dans la génomique
5.2 La recherche en astrophysique
- Le programme LSST
- Le programme SKA

6. Des applications innovantes
6.1 Prédire l’avenir grâce aux données GPS : Far Out
6.2 Améliorer la sécurité aérienne
6.3 Prévenir des complications chez les bébés prématurés

7. Le Big Data et le gouvernement américain
7.1 Lutte contre la fraude
7.2 La défense
- La sécurité intérieure
7.3 La santé
7.4 La recherche
- La NASA
- L’énergie
- La NSF (National Science Foundation) 37

Quelles formations pour devenir "Data scientist" ? :

8. Les connaissances requises

9. Les formations proposées