Une super-recherche ?

, Partager

Des chercheurs de VirginiaTech travaillent à développer un système qui emprunte autant à la fouille de données qu’aux mécanismes de recherche habituels tels que mis en oeuvre par les moteurs de recherche du Web. En effet, si leur système recours, comme par exemple Google, à un super-calculateur de type cluster (dans leur cas un 1100 Apple Xserve G5), il ne se limite pas à chercher des mots dans un ensemble de texte, fût-ce en considérant des mots proches. Par exemple, dans les expériences en cours, le système analyse les résumés de 140.000 publications consacrés aux levures (comme systèmes métaboliques) et aux stress cellulaire, pour trouver des liens non triviaux entre publications.
Cette analyse repose sur un algorithme de fouille de données appelé storytelling, qui est une généralisation des algorithmes de redescription. Au lieu de chercher des similarités exactes (deux ensemble de concepts du vocabulaire déterminent le même sous-ensemble d’exemples), cet algorithme cherche des similarités successives de la forme seuil < card (A B) / card (A B) < 1 (en cherchant bien sûr des valeurs plus ou moins proches de 1, un seuil minimal étant donné au départ). Une suite de similarités plus ou moins fortes peut être indicatrice d’un lien entre les concepts. Par un algorithme de parcours classique dans le graphe des possibles (A*), en partant des deux concepts à relier (par exemple stress et levure) dans un algorithme de type CARTwheels, appuyé sur des heuristiques pour guider le choix du prochain noeud. Le système a été testé sur le jeu classique de morphing des mots (à partir d’un vocabulaire anglais de 160.000 mots, puis sur le jeu d’articles de biologie. Dans ce dernier cas le système a mis en évidence un lien entre une publication sur le stress chimique sur les gènes de levure et une autre sur les facteurs de transcription de stress calorique dans les gènes de tomates, par un chemin qui parcourt 7 autres publications.
L’objectif est de développer ainsi un mécanisme de recherche qui aidera les chercheurs à exploiter la masse considérable de publications portant sur des sujets proches des leurs.

Source :


- Communiqué de presse de VirginiaTech
http://www.newswise.com/articles/view/523583/
- Article dans ACM SIGKDD 2006
http://people.cs.vt.edu/%7Eramakris/papers/kdd06-storytelling.pdf

Pour en savoir plus, contacts :

Turning CARTwheels : An Alternating Algorithm for Mining Redescriptions KDD’04
http://www.cs.unc.edu/Courses/comp290-090-f05/Papers/p266-ramakrishnan.pdf#search=%22cartwheels%20algorithm%22
Code brève
ADIT : 39180

Rédacteur :

Jean-Philippe Lagrange attache-stic.mst@ambafrance-us.org

Voir en ligne : http://www.bulletins-electroniques….