La Data Science Machine du MIT

, Partager

Le MIT, a présenté un nouveau logiciel, baptisé the Data Science Machine, permettant d’aider à analyser de manière intuitive de grands volumes de données [1]. L’objectif de ces analyses qui s’inscrivent dans le domaine du big data est de découvrir des corrélations fréquentes et souvent non intuitives entre différents types de données qui peuvent ensuite être utilisées pour prédire des comportements.

L’exemple des couches culottes et de la bière sert souvent à illustrer le principe des comportements d’achats associés. L’analyse des tickets de caisse a permis d’établir une corrélation inattendue entre ces deux produits, les clients qui achètent des couches ont une tendance à acheter également de la bière. Cette corrélation surprenante peut permettre de faire évoluer la stratégie commerciale d’une entreprise et notamment la stratégie de placement des produits pour favoriser ce comportement [2].

Un des problèmes majeurs dans ce type de recherche est de déterminer les bons facteurs à analyser et l’on s’en remet souvent à l’intuition humaine pour faire ce travail en amont de l’analyse. L’objectif du MIT avec la Data Science Machine est d’ignorer le facteur humain et d’automatiser l’ensemble du processus.

Pour tester leur premier prototype, les chercheurs ont organisé une compétition regroupant 906 équipes. Sur ce total, le logiciel a réussi à battre 615 équipes au cours de trois manches, parmi lesquelles les prédictions se sont avérées justes à 94%, 96% et 87%. Mais tandis que les équipes ont travaillé sur ces analyses pendant plusieurs mois, le prototype a seulement eu besoin de quelques heures pour accomplir le travail. Cette approche a notamment permis au MIT de mettre en évidence les deux facteurs principaux pour déterminer les probabilités d’échecs à un cours en ligne : la date du premier accès par rapport à la deadline et le temps passé à naviguer dans les ressources pédagogiques par rapport aux autres étudiants.

La description disponible sur l’algorithme montre qu’il y a de nombreuses connaissances qui peuvent être induites à partir d’un traitement avancé sur certains types de données en appliquant des opérateurs d’agrégation ou de classification. On peut penser que la prise en compte de types complexes comme le temps ou l’espace permettrait d’aller encore plus loin dans cette approche prometteuse.


Rédacteurs :
- Hervé Martin, Attaché pour la Science et la Technologie, attache-ntics@ambascience-usa.org
- Marie Letoret, Attachée adjointe pour la Science et la Technologie, deputy-ntics@ambascience-usa.org