Renseignement : l’IARPA dévoile son programme MATERIAL pour faciliter la recherche de documents multilingues

, Partager

L’IARPA (Intelligence Advanced Research Projects Activity) a lancé le mois dernier son programme de recherche en traduction automatique MATERIAL (Machine Translation for English Retrieval of Information in Any Language). Rattaché au directeur du renseignement national américain, l’IARPA est une organisation en charge de la recherche de pointe sur les principaux défis qui se posent à la communauté du renseignement des Etats-Unis.

L’IARPA et la communauté du renseignement

La communauté du renseignement (Intelligence Community – IC), créée en 1981 par le Président Ronald Reagan, rassemble 17 services de renseignement des Etats-Unis, notamment la Central Intelligence Agency (CIA), le Federal Bureau of Investigation (FBI), la Defense Intelligence Agency (DIA) et la National Security Agency (NSA). La communauté du renseignement est coordonnée par le directeur du renseignement national.

L’IARPA a pour mission d’imaginer et de conduire des activités de recherche à risque et potentiel élevés, qui pourraient conduire à la mise en place de technologies innovantes apportant un avantage significatif à la communauté du renseignement américain. L’IARPA investit dans des programmes de recherche de plusieurs années, au cours desquelles des équipes d’experts venus du monde académique ou industriel s’affrontent pour résoudre une série de problèmes techniques bien définis. Lorsqu’un programme réussit, l’IARPA transfère les résultats ou technologies en question aux services de renseignement.

Le programme MATERIAL de l’IARPA

Même si le budget de l’IARPA est tenu secret, la plupart des travaux de recherche de l’IARPA sont non-confidentiels et rendus publics. Près de 40 programmes sont actuellement en cours, relevant d’un large éventail de disciplines techniques (informatique quantique, neuroscience, linguistique, science des données, etc.). Parmi eux, le programme MATERIAL a récemment été dévoilé. Les compétiteurs doivent développer un système de récupération d’informations multilingues, que l’utilisateur active par une requête en anglais et qui lui présente les résultats pertinents également en anglais. Le système doit donc être capable de trouver des documents pertinents sur un certain thème dans toutes langues à partir d’une requête en anglais puis de synthétiser les résultats en anglais à l’utilisateur.

Alors que les méthodes actuelles requièrent une quantité importante de données d’entraînement et des développements spécifiques pour chaque langue, le but de ce programme est d’établir une solution de type « English-in, English-out » qui soit plus rapide et nécessite moins de données. Plusieurs domaines techniques sont ainsi concernés : traitement du langage naturel, traduction automatique, analyse de corpus, linguistique informatique, reconnaissance vocale, sémantique, récupération d’informations, machine learning.

MATERIAL devra permettre de déployer un système entièrement automatisé pour que les utilisateurs parlant seulement anglais puissent identifier rapidement et efficacement des documents pertinents dans des langues étrangères et dans une variété de formats (presse, émissions radio et TV, réseaux sociaux). La plupart des tâches de collecte et d’analyse d’informations dans le renseignement nécessitent en effet de travailler avec des contenus multilingues.

Quatre équipes sélectionnées pour travailler sur MATERIAL

Après la phase d’appels à proposition début 2017, quatre équipes ont finalement été sélectionnées pour travailler sur MATERIAL : une équipe de l’université Johns Hopkins à Baltimore, une équipe de l’entreprise Raytheon BBN Technologies basée dans le Massachusetts, une équipe de l’université Columbia à New York et une équipe de l’Information Sciences Institute de l’université de Californie du Sud.

Un pas de plus vers l’« Anticipatory Intelligence »

Ce traducteur universel capable de scanner des documents venus de tous types de médias et d’en retranscrire le sens pour des analystes parlant anglais représenterait un atout précieux pour les renseignements préventifs (« Anticipatory Intelligence »), un domaine dans lequel l’IARPA concentre ses efforts. Il s’agit de réduire l’incertitude en fournissant à temps aux décideurs des prédictions les plus justes possibles. Les programmes conduits par l’IARPA explorent ainsi le potentiel de nouvelles technologies dans différents domaines (cybersécurité, interception de signaux, analyse de gros volumes de données) pour apporter en temps réel des indications et des alertes contextualisées aux agents du renseignement.


Rédacteur
- Clémentine Désigaud, Attachée adjointe pour la Science et la Technologie, Washington DC, deputy-ntics@ambascience-usa.org

Sources
- Federal Technology Watch, Weekly Report on Federal Science, Technology and Innovation Policies, Vol. 2 Issue 2, January 8, 2018.
- IARPA, Machine Translation for English Retrieval of Information in Any Language (MATERIAL), https://www.iarpa.gov/index.php/research-programs/material
- MeriTalk, Intelligence Community working on a Universal Translator, January 5, 2018 : https://www.meritalk.com/articles/intelligence-community-working-on-a-universal-translator/