Big Data : Kaggle en pointe sur l’analyse prédictive

, Partager

L’essor du big data a redonné un fort intérêt au traitement et à l’analyse de ces grandes masses d’information notamment à des fins d’analyses prédictives. Dans ce contexte, la comparaison des algorithmes et programmes utilisés représente un enjeu important pour mesurer l’impact des avancées dans le domaine.

Créée en 2010 par Anthony Goldbloom, la société Kaggle propose différentes compétitions en science des données [1]. Cette plateforme rassemble à ce jour une communauté d’environ 440 600 data scientists, qui s’attachent à résoudre différents problèmes dans le but de définir une modélisation prédictive sur un champ scientifique, financier, énergétique ou encore commercial.

Les données proviennent principalement d’institutions ou d’entreprises, tout comme l’énoncé de la problématique, ce qui permet de garantir le caractère réaliste du cas d’étude. Néanmoins, certaines compétitions relêvent uniquement d’un caractère ludique (comme la prévision des survivants sur le Titanic [2] ou encore la distinction entre les chats et les chiens [3]) mais pédagogique.

Les compétitions sur des données du monde réel sont le plus souvent assorties d’une récompense financière. En avril 2013, une somme de trois millions de dollars a été allouée à un lauréat, qui permettait de prédire le nombre de jours d’hospitalisation d’un patient l’année suivante. Ce concours, sponsorisé par The Heritage Foundation, avait été lancé dans le but de développer de nouvelles initiatives pour intervenir auprès d’une personne malade le plus rapidement possible et donc de réduire les coûts associés à des hospitalisations inutiles [4].

Le concours se veut très interactif et permet aux candidats de voir les propositions des autres candidats et de modifier leur propre proposition jusqu’à la date limite du concours. Ceci permet de faire évoluer les différents programmes proposés par les membres de la communauté tout au long de la compétition. Chaque scientifique est classé en fonction de l’ensemble de ses résultats aux concours Kaggle [5]. Au 1er janvier 2016 ; c’est un brésilien qui détient la première place.

La question sur la confidentialité des données utilisées peut être problématique pour certaines entreprises. Des tournois privés, comme celui de Deloitte en 2015 [6], sont donc parfois organisés, auxquels seuls certains candidats sont invités à participer.

Kaggle organise également des compétitions pour de nombreuses universités (Stanford, Harvard, ou encore Oxford parmi bien d’autres) afin de permettre à des étudiants de découvrir de manière pédagogique la science des données [7].

Sur un autre plan, ces compétitions ont également permis aux meilleurs lauréats d’obtenir de nouvelles opportunités de carrière ; le score Kaggle représentant un réel atout qui commence à être reconnu dans la communauté des sciences des données.


Rédacteurs :
- Hervé Martin, Attaché pour la Science et la Technologie, attache-ntics@ambascience-usa.org
- Marie Letoret, Attachée adjointe pour la Science et la Technologie, deputy-ntics@ambascience-usa.org