Big Data - Partie 2 : Le quatrième paradigme de la science

, Partager

La Science est probablement le domaine dans lequel le Big Data aura entraîné le plus de bouleversements. Les projets de recherche scientifique mettent aujourd’hui en jeu des quantités gigantesques de données. L’accélérateur européen de particules LHC (Large Hadron Collider) produit chaque jour 40.000 Go de données. La bibliothèque médicale PubMed [1] contient plus de 22 millions de publications accessibles gratuitement en ligne, et 40.000 à 50.000 de plus viennent s’y ajouter chaque mois. Les chercheurs doivent donc repenser leurs méthodes de travail.

Un nouveau paradigme :

Le livre de Tony Hey "The fourth paradigm : Data-intensive scientific discovery" [2] raconte comment le Big Data a fait entrer la science dans une nouvelle ère.

=> 1. Le premier paradigme de la science fut celui de l’empirisme : l’observation au service du savoir.

=> 2. Le deuxième paradigme apparut grâce aux avancées dans ce qu’on appelle les "sciences dures". Depuis quelques siècles, la théorie permet d’expliquer les observations expérimentales.

=> 3. Vint ensuite les ordinateurs et le troisième paradigme, il y a quelques décennies. Les nouvelles capacités de calcul permettent de simuler les expérimentations. Une théorie peut être validée ou réfutée grâce aux simulations numériques.

=> 4. Le Big Data amène le quatrième paradigme. La quantité de données qui est aujourd’hui mise à disposition des chercheurs est trop grande et trop complexe pour un travail "à la main". Il est aujourd’hui possible de se servir de l’ordinateur pour qu’il fasse des découvertes "par lui-même". Uniquement en cherchant des liens statistiques au sein de milliards de données, l’ordinateur découvre des corrélations. C’est alors au chercheur d’évaluer leur pertinence, mais il n’est plus forcément nécessaire de partir d’une théorie pour faire une découverte [3].

Quelques exemples :

=> Dans la génomique :

Alors qu’il a fallu plus de 10 ans et 3 milliards de dollars pour réaliser le premier séquençage humain complet [4], il est aujourd’hui possible d’en réaliser un en quelques jours pour moins de $1000. Ainsi, la taille des bases de données génétique a explosé. GenBank propose une bibliothèque de plus de 150 milliards de nucléotides pour 162 millions de séquences (1 séquence correspond à 6 Go) . Afin de détecter quels gènes sont spécifiques à quelles maladies, les chercheurs utilisent des logiciels spécialisés comme BLAST (Basic Local Alignment Search Tool) [5]. C’est une sorte de moteur de recherche pour généticiens. Vous entrez une séquence de nucléotides que vous désirez étudier et l’ordinateur la compare avec l’ensemble de la banque de données. Il vous renvoie alors les séquences qui sont susceptibles de vous intéresser (à cause de leurs similarités avec la requête). Les méthodes utilisées pour comparer les séquences doivent être rapides et efficaces. L’un des grands algorithmes qui a permis une recherche rapide de séquences identiques est l’algorithme d’Ukkonen [6] qui, à l’aide des arbres des suffixes [7], permet un algorithme linéaire en la taille de la séquence utilisée dans la recherche et indépendant de la taille de la base de données ! Cependant l’algorithme pour fabriquer les arbres des suffixes a une compléxité en O(nlog(n)) si n est la taille de la base de données à mettre sous forme d’arbre. Le logiciel BLAST utilise des matrices de similarités, obtenues par des calculs statistiques empiriques et un petit peu d’algèbre linéaire (itération de matrices), pour obtenir des scores d’alignement. Les chercheurs utilisent la matrice BLOSSUM 62. Elle représente la 62ème puissance de la matrice BLOSSUM, qui serait empiriquement la plus efficace. Les modèles plus complexes (PSI-BLAST) font appels aux chaînes de Markov et HMM (Hidden Markov Model) [8,9], qui servent à modéliser les transformations aléatoires (mutations, délitions, ajout…) qui apparaissent avec le temps. Les états cachés des HMM représentant le type de transformations possibles et les poids associés correspondant à leur fréquence d’apparition.

Le projet BrainSCANr (Brain Systems, Connections, Associations, and Network Relationships) [10,11] est également un bel exemple de recherche Big Data. En s’appuyant sur 3,5 millions de résumés d’articles scientifiques de la bibliothèque PubMed, deux chercheurs de l’université de San Francisco (UCSF) ont fabriqué un logiciel qui fait automatiquement un lien entre une partie du cerveau et une maladie. Avec un léxique prédeterminé par les chercheurs, l’ordinateur comptabilise toutes les apparitions communes des mots dans un même résumé puis forme un graphe des corrélations. Les corrélations intéressantes sont les liens "faibles", des liens au deuxième degré. Ces liens représentent en effet ceux qui n’ont pas réellement fait l’objet de recherche mais dont la véracité (ou du moins l’intéret scientifique) est "probable". Ainsi un lien entre "migraine" et "stratium" a été mis à jour. L’ordinateur a donc proposé par lui même une nouvelle piste de recherche ! L’algorithme utilisé même s’il ne fait appel à aucun calcul statistique ni probabilistique (les liens "forts" et "faibles" sont simplement trouvés à partir d’un décompte basique et d’un seuil choisi) présente l’avantage d’avoir une complexité linéaire en la taille des textes utilisés et donc de s’exécuter plutôt rapidement. Affaire à suivre …

=> En astrophysique :

Le LST (Large Synoptic Survey Telescope) [12] devrait voir le jour en 2020 et enregistrera avec sa caméra de 3200 Mégapixels (ce qui en fera l’appareil photo numérique le plus puissant au monde) plus de 30 Téraoctets d’images de la totalité du ciel chaque nuit. Les astrophysiciens doivent programmer l’ordinateur pour qu’il analyse lui-même les images et indiquent aux chercheurs où ils doivent regarder. L’ordinateur calcule en temps réel et pour chaque objet céleste sa vitesse, sa luminosité, sa longueur d’onde, sa rotation apparente… Lorsqu’une variation "inhabituelle" se produit, l’ordinateur alerte les chercheurs qui s’attarderont à comprendre les raisons de cette variation. Mais, pour gérer d’aussi grandes quantités de données, les chercheurs doivent constamment tenter de diminuer la dimension des vecteurs avec lesquels ils travaillent et donc la taille des données à stocker et à analyser. C’est-à-dire que plus ils ont des données indépendantes à calculer, plus le calcul sera long. Etant donné le très grand nombre d’astres visibles par le telescope, parvenir à diminuer la dimension des vecteurs (ceux qui contiennent les propriétés des astres) permet un gain de temps considérable. On peut le réaliser en corrélant par exemple la brillance de surface moyenne, le rayon effectif et la dispersion des vitesses centrales. Et il existe bien une relation entre ces quantités [13] !

Ces trois exemples sont significatifs de la nouvelle ère dans laquelle se trouve la science. Les machines sont devenues indispensables pour permettre de mettre en relation l’ensemble des travaux de recherches et des études pratiquées simultanément dans le monde entier. Le partage des connaissances et l’avancée du savoir passe par le Big Data.



A lire également :

Big Data - Partie 1 : Une révolution en marche
http://www.bulletins-electroniques.com/actualites/73270.htm

Sources :


- [1] Bibliothèque du NCBI (National Center for Biotechnology Information) - http://www.ncbi.nlm.nih.gov/
- [3] "Google : le nouvel Einstein" - Science & Vie - numéro 1138 - Juillet 2012
- [4] Projet génome humain - http://fr.wikipedia.org/wiki/Projet_g%C3%A9nome_humain - Wikipédia
- [6] Algorithme d’Ukkonen - http://en.wikipedia.org/wiki/Ukkonen’s_algorithm
- [11] Projet BrainSCANr - http://www.brainscanr.com/
- [12] Projet LSST - http://www.lsst.org/lsst/
- [13] Plan fondamental des galaxies elliptiques - http://fr.wikipedia.org/wiki/Plan_fondamental

Pour en savoir plus, contacts :


- [2] "The fourth paradigm : Data-intensive scientific discovery" - Tony Hey - 2009.
- [5] "The BLAST sequence analysis tool. The NCBI Handbook" - Tom Madden - 2003.
- [7] "On-line construction of suffix trees" - Esko Ukkonen - ALGORITHMICA
- [8] "Methods for big data in medical genomics : Parallel Hidden Markov Models in Population Genetics" - Chris Holmes, Peter Kecskemethy et Chris Gamble - 2013.
- [9] "Hidden markov models : fundamentals and applications." - Valery A. Petrushin - Online Symposium for Electronics Engineer - 2000.
- [10] "Automated cognome construction and semi automated hypothesis generation" - Jessica Voytek and Bradley Voytek - Journal of Neuroscience Methods - 2010
Code brève
ADIT : 73390

Rédacteurs :


- Sébastien Fischman (sebastien.fischman@ens-cachan.fr) ;
- Retrouvez toutes nos activités sur http://france-science.org ;
- Suivre le secteur Nouvelles Technologie de l’Information, Communication, Sécurité sur twitter @MST_USA_NTICS.

Voir en ligne : http://www.bulletins-electroniques….