
Research projects
Connected objects, and specifically conversational agents like Google Home, bring a new dimension to interaction, namely speech, and could become a means of influencing individuals. For the moment, they are neither regulated nor evaluated, and are highly opaque.
Based on the study of "nudges", techniques for modifying people's behavior, Laurence Devillers' team "Affective and social dimensions in spoken interactions" with Ioana Vasilescu, Gilles Adda from LIMSI - CNRS, and the "Digital economy" team from the RITM laboratory; Grazia Cecere, Fabrice Le Guel and Serge Pajak, Université Paris-Sud, decided to collaborate to highlight the importance of ethics in the creation of these objects.
Nudging: a new concept
In 2008, Richard Thaler, winner of the Nobel Prize in Economics, brought to light the concept of nudge, a technique that consists of encouraging individuals to change their behavior without coercion, by using their cognitive biases. Laurence Devillers, who works on nudging at an international level within IEEE, the world's largest association whose main objective is to develop technology for the benefit of humanity, and Serge Pajak, an economist specializing in the economics of innovation, began working together as part of the development of the Transalgo platform before deciding to set up this project dedicated to the study of nudges in human-machine verbal interaction. "In behavioral economics, the vocal dimension of interactions has never before been studied", stresses the team of economists.
Raising awareness of the dangers of nudges
With the development of connected objects, nudges are everywhere, without the user even realizing it. Apple's iMessage application, for example, frames a message in blue when exchanged with another Apple user, and in green when exchanged with a "foreign" user. "In behavioral economics, we know very well that blue is a much more pleasant color than green," explains the team of economists. "If they are often used to good effect for health, for example, the use of voice-assisted objects could amplify these manipulative phenomena if they are used for commercial purposes, with less ethics" states Laurence Devillers, who has conducted numerous voice interaction experiments between elderly people and empathetic robots in the PSPC ROMEO2 and CHIST-ERA JOKER projects (find out more). The Bad Nudge - Bad Robots project aims to highlight the danger that these techniques can represent for vulnerable people such as children and the elderly. Translated with www.DeepL.com/Translator (free version)
The importance of ethics
In concrete terms, the team will set up experiments in the form of vocal interactions with a robot capable of nudging several types of more or less vulnerable population, in order to develop nudge evaluation tools to show their impact. At laboratory level, and then in the field, the two teams will study whether fragile people are more sensitive to nudges. This is an innovative line of research: it's important to understand the impact of these new tools on society, and to take this subject of ethics and manipulation by machines international. "Objects will talk to us. We need to better understand our relationship with these chatty objects, which have no conscience, no emotions and no intentions of their own. Today's users are unaware of how these systems work, and tend to anthropomorphize them. To avoid this confusion between living beings and artifacts, designers need to be more transparent and explain the capabilities of machines," explains Laurence Devillers. The ultimate aim of the project is to create "ethic-by-design" objects and to reflect on an international dynamic on this subject. For this research project, two theses - one in computer science, the other in economics - will be supervised in parallel, on the one hand by Laurence Devillers, Ioana Vasilescu and Gilles Adda, and on the other by Grazia Cecere, Fabrice Le Guel and Serge Pajak.
The results of the project's experiments will be used to produce measures for monitoring these tools, as well as economic (in terms of regulation), ethical and legal recommendations for public decision-makers. The subject of nudges has not yet been the subject of any transversal legal analysis. Alexandra Bensamoun and Julie Groffe from CERDI will provide their expertise on the legal aspects. Testing the capacity for empowerment (encapacitation) also seems fundamental at a time when surveillance and regulatory authorities will not have sufficient means to ensure the ethical behavior of the many connected objects and robots that will be arriving in the home. In particular, we need to think about how to protect the most vulnerable populations, while ensuring the economic development of the ICT sector in Europe. According to Laurence Devillers, "It's urgent to start working on these ethical issues, and DATAIA is an institute of excellence, the first in France to bring them to the fore".
The "Bad Nudge - Bad Robot?" project was part of the context linked to the AI HUMAAINE Chair, headed by Laurence Devillers, which started in September 2020.
Contact : Laurence Devillers | Serge Pajak
Alors que se profile un monde bouleversé par l’intelligence artificielle et l’exploitation des données personnelles, la place des individus et la maîtrise de leurs données se sont imposées comme des questions centrales dans le nouveau règlement général sur la protection des données (RGPD) et la loi pour une République numérique. Célia Zolynski, professeur de droit privé à l’Université de Versailles - Saint-Quentin-en-Yvelines (UVSQ), et Nicolas Anciaux, chercheur chez Inria, ont saisi l’opportunité offerte par l’Institut DATAIA pour continuer à faire collaborer informaticiens et juristes pour analyser les architectures de Cloud Personnel proposées aujourd’hui et établir les responsabilités de chacun avec comme objectif central la protection de l’individu.
Qui est responsable de quoi ?
Le RGPD remplace une directive datant de 1995 et devient ainsi le nouveau cadre européen concernant le traitement et la circulation des données à caractère personnel, ces informations sur lesquelles les entreprises s’appuient pour proposer des services et des produits. La législation européenne devenait en effet vétuste au regard de l’explosion du numérique, l’apparition de nouveaux usages ainsi que la mise en place de nouveaux modèles économiques.
Entré en application le 25 mai dernier, le RGPD porte un autre regard sur le droit à la portabilité des données : chacun peut aujourd’hui récupérer les données personnelles qu’un fournisseur de services aura stockées. « Mais à partir du moment où je récupère mes données, que je veux en faire usage, qui devient responsable de quoi ? » souligne Nicolas. « Des solutions de Cloud Personnel émergent actuellement avec des architectures très différentes. Il devrait donc y avoir un niveau de responsabilité gradué en fonction du niveau de responsabilité ou de souveraineté que l’individu veut exercer sur ses données et selon l’architecture technique. »
Le projet GDP-ERE se propose d’analyser l’impact des architectures de Cloud Personnel sur les enjeux de responsabilité, de confronter cette analyse aux règles édictées par le RGPD et d’envisager des évolutions législatives et technologiques pour mieux capturer le partage de responsabilité nécessaire entre les différentes parties en apportant à chacune d’elles les outils appropriés pour les endosser.
Une collaboration née il y a plusieurs années déjà
« Célia et moi nous sommes rencontrés dans le cadre de l’ISN, l’Institut de la Société Numérique créé par Nozha Boujemaa qui avait déjà à l’époque discerné l’intérêt de faire se croiser des scientifiques avec des économistes et des juristes. Cela nous a donné l’occasion de nous rendre compte que nous utilisions des concepts assez similaires dans différentes disciplines et que nos expertises pouvaient se nourrir mutuellement », constate Nicolas. « Chez Inria, dans l’équipe Petrus, nous nous intéressons au Cloud Personnel et au patrimoine numérique des individus. Au Laboratoire Dante de l’UVSQ, Célia s’intéresse à la notion de propriété des données personnelles et à l’autodétermination informationnelle. Nous avons vite trouvé des points de convergences et commencé à monter un groupe de travail. »
Une nouvelle chaîne des responsabilités
Avec la réforme du RGPD, une nouvelle chaîne des responsabilités a été pensée, selon une logique de compliance : l’opérateur est responsable du traitement des données mais également ses sous-traitants. Dans le cadre des outils de Cloud Personnel, en fonction des architectures, c’est l’utilisateur qui peut être qualifié de responsable du traitement de ses données. Le projet GDP-ERE s’interroge sur la répartition de la responsabilité entre l’individu et le fournisseur. « Sur le plan juridique, nous allons essayer d’étudier comment appliquer le RGPD à des cas comme le Cloud Personnel sachant que la législation n’a pas été conçue pour ce type de modèle de traitement de données où l’utilisateur est actif » nous explique Célia. D’autant qu’en termes de responsabilité, le régime classique qui s’applique en dehors de toute législation spéciale, est le droit commun qui prend en compte la part active d’une personne pour engager sa responsabilité. Il en résulte le risque d’une responsabilisation disproportionnée de l’individu au regard de ses capacités et celui d’un flou sur l’étendue des responsabilités associées aux fournisseurs de plateforme, à même de limiter le déploiement de ces dernières.
Les recherches menées dans le cadre du projet GDP-ERE conduiront donc à vérifier si l’individu est en capacité d’assumer le nouveau pouvoir qui lui est ainsi conféré. Célia souligne qu’il s’agit là d’une condition essentielle pour que l’empowerment annoncé tienne ses promesses et ne produise pas un « effet boomerang », c’est à dire qu’il ne conduise pas à départir l’individu de la protection que la loi lui confère aujourd’hui sur ses données personnelles. Cela revient à vérifier l’équation selon laquelle « portabilité des données + responsabilité = empowerment », pour garantir l’effectivité de la souveraineté numérique de l’individu.
Collaborer pour faire émerger des solutions qui fonctionnent dans plusieurs disciplines
Célia et Nicolas se sont fixés un double objectif. D’une part, il s’agit d’analyser l’impact des architectures actuelles de Cloud Personnel sur la responsabilité des utilisateurs et de confronter cette analyse à la législation et aux règles édictées par le RGPD. Et d’autre part, il sera question de formuler des préconisations en matière législative et technologique, sur la base d’un niveau de responsabilités gradué variant en fonction du niveau de souveraineté que l’individu entend conserver sur ses données, afin de préserver son autonomie et de se prémunir contre les risques d’effet boomerang liés à ce nouvel empowerment. Pour cela, ils comptent recruter un doctorant en thèse côté juridique puis un post-doc côté informatique. « Un objectif complémentaire, selon Nicolas, sera d’analyser les solutions techniques « compliantes » et « transparentes by design » visant à garantir que la responsabilité incombe bien à la bonne personne : l’hébergeur, l’éditeur, l’utilisateur etc… ». Afin de permettre à chaque acteur d’exercer ses prérogatives de façon éclairée et d’endosser ses responsabilités avec des outils adéquats, tous deux comptent sur les relations tissées par leurs équipes respectives avec des acteurs industriels du Cloud Personnel comme Cozy Cloud ou Hippocad, pour partager leurs analyses et à terme envisager leur mise en œuvre dans des cas réels.
Contacts : Célia Zolynski | Nicolas Anciaux
Depuis le développement des méthodes big data et leur arrivée dans les sciences sociales, plusieurs initiatives très ambitieuses ont vu le jour se fixant pour objectif de changer la manière de faire de la recherche en histoire. Pourtant, le déploiement de ces nouvelles approches se heurte à de nombreuses réticences des historiens, qui, confrontés à la difficulté du dialogue interdisciplinaire, sont souvent sceptiques sur les fins mêmes d'une collaboration dans laquelle ils craignent, parfois à raison, d'être dépossédés d'un matériau qu'ils ont le sentiment de ne plus maîtriser lorsqu'il est transformé pour être intégré dans des bases de données. Tout autant ces procédures de transformation que celles d'analyse suscitent des doutes méthodologiques voire épistémologiques profonds, d'autant plus que les outils mis en œuvre sont souvent novateurs et n'ont donc pas pu bénéficier de nombreux retours d’expérience.
L'objectif est de développer des grandes bases de données historiques en y appliquant des méthodes de fouille de données, notamment autour de l'analyse des réseaux de relations.
Le développement sera effectué en mettant en œuvre une approche itérative du processus d’exploration, fondée sur l'appropriation par les utilisateurs des procédures et outils mobilisés ainsi que des résultats des analyses. Pour cela, l'accent sera mis sur l'explicabilité des algorithmes et sur l’analyse progressive des données progressive et l’interaction humain-machine.
Contacts : Jean-Daniel Fekete | Christophe Prieur
Le projet Horapest vise à étudier l'impact de l'exposition résidentielle aux pesticides sur les résultats sanitaires en France, en exploitant conjointement les précieuses données sensibles du Système National des Données de Santé (SNDS) et les nouvelles données disponibles de l'Institut National de l'Environnement Industriel et des Risques (INERIS), rapportant l'exposition aux pesticides à un niveau sans précédent de précision temporelle et spatiale en 2018-2019.
Les données sur l'exposition aux pesticides seront confrontées au détail des soins de santé maternelle et infantile, dans le but d'évaluer et de quantifier l'ensemble des connaissances sur le développement cognitif et physique de l'enfant et leur altération en raison de l'exposition aux pesticides pendant la grossesse. L'impact de l'étude concerne donc l'évaluation d'un risque critique au carrefour des priorités épidémiologiques, politiques et économiques : l'impact des pesticides dans les zones résidentielles.
Le défi méthodologique consiste à établir un modèle causal qui tienne compte de la nature spatio-temporelle du phénomène considéré et des (nombreux) facteurs de confusion non observés.
Durée du projet : 3 ans (2021-2024)
Contacts :
INRAE, laboratoire ALISS, UR 1303
Université Paris Saclay, laboratoire LISN, CNRS UMR 9015, INRIA (équipe TAU)
L'apprentissage automatique est un moyen puissant d'acquérir des connaissances à partir de données et d'identifier des relations entre des variables permettant de prédire des résultats futurs. L’apprentissage profond, en particulier, s’est révélé être capable de découvrir des structures dans des données complexes. Dans de nombreuses applications du monde réel, les données utilisées pour l'apprentissage comprennent des informations potentiellement sensibles, qui doivent rester confidentielles. Cependant, une fois l’apprentissage terminé, le logiciel est généralement mis à la disposition d’un tiers, soit directement soit indirectement, en permettant de l’interroger. Cet accès peut être utilisé pour extraire des informations sensibles sur les données d'apprentissage, qui sont toujours présentes, bien que cachées dans les paramètres déterminants le modèle traité. Cela soulève la question fondamentale de la quantité d'information qu'un attaquant peut extraire d'un réseau neuronal.
L’objectif général du projet est de développer une compréhension fondamentale avec une validation expérimentale de la fuite d’information des données d’apprentissage à partir des réseaux d’apprentissage profonds.
Le projet est porté par Pablo Piantanida, professeur à CentraleSupélec, et Catuscia Palamidessi, directrice de recherche chez Inria. Avec la collaboration de Georg Pichler (post-doc TU Wien), Marco Romanelli et Ganesh del Grosso (doctorants chez Inria), ils visent à :
- Analyser les attaques contre la vie privée dans les systèmes d’apprentissage. En particulier, les attaques par "model inversion", les attaques "attribute inference" et les attaques "membership inference".
- Sur la base des attaques considérées, développer des mesures appropriées pour quantifier la quantité d’information sensible qui peut être extraite d'un réseau neuronal. Les mesures de fuite d'information résultantes serviront de base à l'analyse formelle des attaques et au développement de techniques de protection robustes.
- Explorer des stratégies pour réduire les menaces à la vie privée et minimiser la fuite potentielle d'informations d'un réseau neuronal tout en préservant son utilité autant que possible. Stratégies de formation appropriées ainsi que des critères adaptés pour l'architecture seront aussi explorées.
« Nous proposons une analyse de modèles d’apprentissage automatique afin de détecter les attaques possibles et de quantifier les fuites d’informations. Nous allons utiliser les résultats récents sur les attaques à l'apprentissage profond, pour lesquels aucun outil ni technique standard n’est encore disponible. Notre objectif est à la fois de développer ces outils et de les utiliser pour analyser des modèles de menace de type boîte blanche ou noire. » précise Pablo.
Contacts : Pablo Piantanida | Catuscia Palamidessi
INTERTOX réunit l’excellence et l’expertise de plusieurs équipes de CentraleSupélec et de Gustave Roussy dans les domaines de la modélisation prédictive complexe et innovante, de la survie au cancer du sein, de l’éthique, de la sociologie et de la psychologie. Son objectif est d’améliorer la qualité de vie (QDV) après le cancer, en particulier de comprendre le risque de toxicités liées au traitement et la façon dont elles affectent la vie des patientes, mais aussi de communiquer avec les patientes sur ces risques. Objectif 1 : Identifier les trajectoires et les facteurs de risques biocomportementaux de toxicité et de dégradation de QDV après le cancer du sein; Objectif 2 : Déterminer comment mieux communiquer sur le risque de toxicités et de dégradation de la QDV des patientes afin d’ouvrir la voie à l’utilisation des modèles développés au cours de l’objectif 1 dans la pratique clinique. Pour l’objectif 1, a) une stratégie quantitative consiste à construire des modèles de risque prédictif en s’appuyant sur les données cliniques, biologiques et des ‘patient-reported outcomes’ de la cohorte CANcer TOxicities (CANTO), mais aussi sur b) l’apport itératif d’experts en sciences humaines et sociales. Pour l’objectif 2, une étude qualitative visant à comprendre comment communiquer aux patientes les résultats des modèles développés dans l’Objectif 1 sera mise en œuvre, en utilisant une infrastructure numérique de pointe, weSHARE.
Partenaires liés à Paris-Saclay
- CentraleSupélec, Lab MICS
- INSERM Unit 981, Gustave Roussy
- CESP (Inserm, UPSay, UVSQ)
- Gustave Roussy
Autres partenaires et partenaires étrangers
- Shoshana Rosenberg, BA, MPH, ScD, Harvard Medical School, axée sur la survie au cancer du sein, la qualité de vie et la prise de décision en matière de traitement, y compris les aides à la décision ;
- Le Dr Rosenberg a co-encadré l'un des chercheurs post-doctoraux (N. 2) : expertise dans la recherche dédiée à l'amélioration des soins pour les femmes atteintes d'un cancer du sein (par exemple, analyses qualitatives dans les études psychosociales, axées sur la qualité de vie et le cancer) contribuant au développement de l'objectif 2.
Contacts : Paul-Henry COURNEDE | Antonio DI MEGLIO
Julie Josse, Professeur de Statistiques au Centre de mathématiques appliquées de l'École polytechnique (CMAP), et Gaël Varoquaux, chercheur au sein de l’équipe Parietal du centre Inria Saclay - Île-de-France, ont décidé d’unir leurs compétences pour s’attaquer ensemble aux problèmes des données manquantes et proposer de nouvelles méthodes d’aide à la décision. Le projet MissingBigData a été sélectionné par l’Institut DATAIA dans le cadre de son premier appel à projets recherche. Comment est née cette collaboration ? Quels sont les enjeux de leur recherche interdisciplinaire ? Julie et Gaël nous présentent MissingBigData.
Deux sujets mais une même problématique
Julie Josse travaille avec le groupe Traumabase qui recense les données de plus de 15 000 patients admis pour traumatisme grave, de la prise en charge hospitalière jusqu’à la sortie de réanimation. Les traumatismes graves représentent la cause principale de décès des sujets jeunes et une cause importante de handicaps lourds. L’impact socioéconomique est majeur. La prise en charge de ces patients est donc un réel enjeu de santé publique. L’objectif de la recherche de Julie est d’analyser les données collectées par Traumabase pour fournir des outils d’aide à la décision aux urgentistes, de prévoir par exemple les chocs hémorragiques dès la prise en charge du patient par le SAMU pour qu’une équipe médicale adaptée l’accueille à son arrivée à l’hôpital. Mais Julie est confrontée à un problème de données manquantes : « A partir des données, je regarde si je peux créer des modèles pour prévoir correctement un choc hémorragique. Sauf que mes données proviennent de plein de sources différentes, de plusieurs hôpitaux, qui n’ont pas forcément les mêmes pratiques. »
De son côté, Gaël Varoquaux travaille sur l’imagerie médicale et son utilisation notamment en épidémiologie. Dans ce cadre, Gaël analyse de grands volumes de données de différents types (imagerie médicale, état de santé, qualité de vie de la personne…) dont la qualité n’est pas uniforme. Il utilise en particulier les données collectées par UK Biobank qui suit la santé et le bien-être de 500 000 participants volontaires dans le but d’améliorer la prévention, le diagnostic et le traitement d'un large éventail de maladies graves et potentiellement mortelles. Gaël s’intéresse particulièrement à la neuropsychiatrie et les facteurs de risque d’une maladie mentale (schizophrénie, autisme, dépression, etc…). Là aussi, se pose le problème de données manquantes qui freinent le développement de modèles prédictifs de confiance.
Comment répondre à des questions causales quand il nous manque des données ?
Gaël nous explique : « Si on compare les gens qui meurent à l’hôpital et ceux qui ne meurent pas à l’hôpital on peut conclure que l’hôpital est très dangereux car il y a beaucoup de gens qui meurent là-bas. On se rend bien compte qu’il y a là une erreur. Il faut mathématiquement compenser ce biais de sélection. Le problème c’est qu’on ne sait plus faire ça quand il y a des données manquantes notamment informatives. » En effet, l’omission d’une mesure peut être « informative », c’est à dire qu’elle cache un effet systématique. Le projet MissingBigData a pour objectif d’aborder le problème sous un autre angle et de proposer de nouveaux modèles plus puissants à partir de plus grands échantillons de données pour imputer des valeurs manquantes. « Pour éviter de biaiser les conclusions, nous étudierons l'imputation multiple et les conditions sur la dépendance dans les données. Notre projet vise à diminuer les facteurs de risque en matière de santé notamment avec la prédiction de meilleurs résultats et l'identification des facteurs de risque de résultats indésirables. Nous recherchons une solution opérationnelle, de la méthodologie à la mise en œuvre, qui intègre la diversité et le volume des données […] en considérant plusieurs types de données manquantes. » (extrait du projet MissingBigData)
Des applications dans le domaine de la santé mais pas seulement
L’objectif de ces deux chercheurs est de produire un modèle générique, des méthodes applicables dans d’autres champs que celui de la santé. « Pour valoriser notre travail nous ferons du développement logiciel mis à disposition de la communauté. Notre problématique de recherche est motivée par l’application, dans un but pédagogique, que tout le monde pourra répliquer » souligne Gaël.
Des compétences complémentaires
L’interdisciplinarité de cette équipe va permettre à un étudiant en thèse financé par l’Institut DATAIA de partager deux cultures d’équipes, de faire des présentations devant des publics différents, de communiquer avec des gens qui ont des langages différents : les mathématiciens de l’École polytechnique et les informaticiens en Machine Learning chez Inria. « Les communautés ont du mal à se comprendre alors que nous avons les mêmes problèmes et des outils complémentaires » remarque Julie. Cet appel à projet va permettre à ces communautés d’avancer avec un but commun : la réutilisabilité et le transfert de bonnes pratiques pour faire de la science participative. Pour accompagner Julie et Gaël, l’équipe MissingBigData sera composée de Nicolas Prost, étudiant en thèse, d’un ingénieur dont le recrutement est en cours, d’Erwan Scornet, maitre de conférence au département de mathématiques de l’École polytechnique et responsable du Master IA, d’Alexandre Gramfort, chercheur au centre Inria – Saclay-Île-de-France et de Balázs Kégl, chercheur au CNRS et responsable du Center for Data Science Paris-Saclay.
Contacts : Gael Varoquaux | Julie Josse
Ce projet est le résultat d’une longue collaboration entre IFPEN et l’équipe TAU d’Inria. L'IFPEN est un institut de recherche français dédié aux nouvelles technologies de l'énergie et de l'environnement. Il a lancé un nouveau projet, appelé ACAI (Acceleration of Computations through Artificial Intelligence), qui coordonne plusieurs chercheurs en sciences des données et en recherche appliquée afin de combiner l'état de l’art de l’apprentissage statistique avec le calcul haute performance en CFD, en mécanique computationnelle ou en simulations de transport réactif souterrain.
L'équipe TAU (TAckling the Underspecified) d’Inria est connue pour ses activités dans le domaine de l'apprentissage statistique, de l’optimisation stochastique, et plus généralement de l'intelligence artificielle. L'un de ses principaux thèmes est l'application des méthodes d'apprentissage automatique aux problèmes de calcul scientifique.
L’objectif du projet est d’accélérer de manière conséquente les simulations de flux multiphasiques en y introduisant des approches basées sur l'apprentissage statistique.
L'utilisation de modèles d’apprentissage automatique dans les simulations CFD avec physique complexe (par exemple, combustion, phénomènes réactifs, écoulements multiphasiques, etc.), peut aider à accélérer les algorithmes existants, par exemple en créant des modèles de substitution pour des phénomènes complexes. L'objectif de ce projet est d'étudier deux approches :
- améliorer les schémas spatio-temporels, pré conditionner les solveurs linéaires et prévoir les dynamiques contraignantes ;
- remplacer les calculs exigeants en présence de discontinuités spatiales, de phénomènes à petite échelle ou d'événements extrêmement rapides.
Ces approches par apprentissage pourraient permettre d’adapter de manière plus adéquate les tailles des pas d’évolution spatio-temporelle en prenant en compte l’estimation des l’interactions futures.
Contacts : Jean-Marc Gratien (IFPEN) | Thibault Faney (IFPEN) | Michèle Alessandro Bucci (Inria) | Guillaume Charpiat (Inria) | Marc Schoenauer (Inria)
La langue, qu’il s’agisse de sa variété écrite ou orale, est intrinsèquement ambiguë et polysémique. Les linguistes aspirent à rendre compte de cette ambiguïté dans le but de comprendre son fonctionnement. Les chercheurs en sciences et technologies de l’information sont également concernés par la formalisation de la variation linguistique dans des buts applicatifs. Les travaux qui s’intéressent à une description exhaustive de la langue sont rares car ils impliquent des démarches venant de plusieurs communautés scientifiques. Lauréat de l’appel à projets excellence lancé par l’Institut DATAIA et la MSH Paris-Saclay en 2020, OTELO propose une analyse multi-niveaux de la langue parlée à partir de grands corpus oraux, segmentés et annotés automatiquement.
Segmentées en phones et mots, ces données seront ensuite enrichies avec des connaissances concernant le statut grammatical des mots, leurs relations syntaxiques et sémantiques en contexte. Les résultats attendus concernent :
- le rôle de l’information phonétique dans la désambiguïsation des homophonies contextuelles impliquant des entités ;
- l’impact des connaissances linguistiques de « haut niveau » (grammaticales, syntaxiques, sémantiques) dans la diffusion des motifs de variation phonétique au sein des mots d’une langue.
OTELO est porté par Ioana Vasilescu, chercheuse en linguistique au LIMSI, et Fabian Suchanek, chercheur en informatique à Télécom Paris. Le travail de F. Suchanek, est internationalement connu pour la création de la base de connaissances YAGO, qui est utilisée entre autres dans le système IBM Watson. Sa recherche se focalise sur l’extraction des entités et faits du texte en langage naturel, et sur la structuration de ces données dans une base de connaissances. Un des aspects abordés est l’analyse de ces bases de connaissances, la fouille de règles, et la détermination de complétude. Ses travaux sont soutenus par une Chaire IA financée par l’ANR
Au LIMSI l’analyse de la langue écrite et orale est au cœur du Département Sciences et Technologies des langues. Au sein de ce département, I. Vasilescu et ses collègues du groupe « Traitement du Langage Parlé » sont à l’origine de nombreuses initiatives SHS portant sur l’analyse de la variation sonore à partir de grands corpus multilingues. Les analyses s’appuient sur des données massives explorées avec des outils automatiques. Les travaux de I. Vasilescu, soutenus par la MSH Paris-Saclay, ont mis en avant l’intérêt de cette méthodologie et des grands corpus, pour l’étude de la variation synchronique en lien avec l’histoire des langues. Les chercheurs du LIMSI sont également à l’origine d’une première démarche conjointe impliquant une analyse multi-niveaux des données orales en lien avec les erreurs des systèmes automatiques, dans le cadre du projet ANR VERA (adVanced ERror Analysis) (Santiago et al., 2015 ; Goryainova et al., 2014).
Contacts : Fabian Suchanek (Télécom Paris) | Ioana Vasilescu (LIMSI)
Le monde de l’énergie électrique fait face à des changements structurels importants : les usages de l’électricité sont en constante augmentation et les enjeux climatiques imposent une augmentation de la part des énergies renouvelables dans la production (solaire et éolien).
Florence Ossart, professeure au Laboratoire de Génie Electrique de Paris (CNRS, CentraleSupélec, Université Paris-Sud, Sorbonne Université), Hossam Afifi, professeur à Télécom SudParis et Jordi Badosa, chef de projet à l’École polytechnique au sein du Laboratoire de Météorologie Dynamique (CNRS, École polytechnique, ENS Paris-Saclay, Sorbonne Université) ont décidé d’unir leurs disciplines (énergie, télécom et météo) dans le but d’introduire les systèmes d’information dans les réseaux électriques pour faire communiquer ces deux mondes entre eux. L’Institut DATAIA leur offre un espace de travail pour concrétiser ce projet.
La « prosommation » : adapter les comportements des consommateurs à la ressource disponible au moment où elle est disponible
Le projet PEPER va étudier 3 notions qu’il va falloir faire collaborer pour créer un système équilibré pour une gestion efficace des énergies renouvelables : la production, la consommation et le stockage. Un premier objectif est de prédire la production d’énergie électrique d’origine renouvelable à partir de prévisions météorologiques, qui donnent par exemple le taux d’ensoleillement, la température, le vent… et évaluer la qualité de ces prévisions. Ensuite, il faut étudier le comportement des utilisateurs pour parvenir à prédire leur consommation : « À partir de données issues des téléphones portables par exemple, nous allons étudier la présence humaine dans un endroit donné pour prévoir leur comportement et leur consommation d’énergie, » nous explique Florence. Enfin, il s’agit de compenser en temps réel la différence entre production et consommation grâce à des moyens de stockage adaptés d’une part, mais aussi grâce à l’adaptation de la consommation à la production quand cela est possible. C’est ce que l’on appelle « prosommation ».
Production, consommation et stockage forment un réseau
« Il y a beaucoup de données, souligne Jordi, de sources différentes (météo, consommation, mobilité, production…) avec des résolutions temporelles et spatiales différentes. L’idée est de comprendre comment nous pouvons les combiner pour connaitre l’état d’un réseau électrique à un moment donné et prendre des décisions sur la gestion collaborative de cette énergie. ». L’objectif du projet PEPER est de rassembler des données sur les différents acteurs de ce réseau, et d’exploiter les techniques d’apprentissage et de Deep Reinforcement Learning pour développer des algorithmes de prévision de la production et de la consommation de chaque acteur, puis de coopération entre eux. « Pour ce projet, nous disposons de données relevées sur des bâtiments de nos campus. La Communauté d’Agglomération Paris-Saclay va également mettre à notre disposition un bâtiment à câbler pour étudier les différentes consommations. L’objectif est de créer un algorithme qui utilisera les données collectées afin de gérer mieux l’économie d’énergie sans gâcher le confort des utilisateurs » précise Hossam.
Un projet de collaboration né il y a un an
« Cela fait un an que nous nous réunissons et tentons de monter un projet, raconte Jordi. Nous nous sommes rendu compte que, sur le plateau de Saclay, plusieurs laboratoires de disciplines différentes traitent du sujet des énergies renouvelables, des notions de micro-réseaux (autoproduire et consommer son énergie) ... etc. Il nous a paru nécessaire de les aborder de manière interdisciplinaire. ». Inspiré par des collaborations comme au sein d’Allistene (1) ou Ancre (2), le projet PEPER va concrétiser cette volonté de rassembler les disciplines autour du thème de l’énergie.
(1)Allistene : alliance qui a pour but d’assurer une coordination des différents acteurs de la recherche dans les sciences et technologies du numérique, afin d’élaborer un programme cohérent et ambitieux de recherche et de développement technologique.
(2)Ancre : alliance nationale de coordination de la recherche pour l’énergie qui rassemble 19 organismes de recherche et innovation et conférences d’établissements d’enseignement supérieur dans le domaine de l’énergie.
Article publié
Septembre 2021 - A Novel Deep Reinforcement Approach for IIoTMicrogrid Energy Management Systems
Contacts : Florence Ossart | Hossam Afifi | Jordi Badosa
Le 11 mai 2017, la Cour de cassation a reconnu l'importance des services en ligne et des plateformes d'évaluation comparative des avocats et des cabinets d'avocats, notamment par des classements et des notations, pour la protection des consommateurs de services juridiques. Toutefois, la Cour a également affirmé que de tels services doivent assurer un certain niveau de qualité. Le manque d'informations fiables sur la qualité des services juridiques fournis par les avocats dans les salles d'audience est un phénomène inquiétant et généralisé dans toutes les juridictions de l'Union européenne, mais aussi aux États-Unis et au Canada. Ce projet vise à combler cette lacune en combinant l'expertise juridique et la recherche en science des données.
L'objectif est de développer un outil de mesure significatif et fiable de la performance juridique dans les salles d'audience qui peut contribuer à améliorer l'accès à la justice et la qualité des services juridiques, tout en aidant les cabinets d'avocats à évaluer la performance des avocats et la qualité des juridictions.
Ce projet de recherche part du constat que l'expansion et la mondialisation des services juridiques contrastent fortement avec le manque de sophistication de ses outils de mesure des performances et la forte asymétrie d'information existant entre les prestataires et les consommateurs de ces services.
Les mesures de performance existantes - qui comprennent plusieurs types de perception et de notations, d'indicateurs et de classements basés sur des experts - ne sont généralement pas appropriées pour évaluer les services juridiques. La mise en place d'un projet de collaboration entre juristes et spécialistes des données pour élaborer des mesures fiables et plus objectives constituerait un bond en avant dans ce domaine. En termes de résultats, le projet fournira des données originales et un concept de preuve d'une évaluation des services juridiques dans les salles d'audience, qui seront testés et diffusés parmi les acteurs du marché.
L'objectif principal de ce projet est de développer un système automatisé d'exploitation de la jurisprudence en France, en Belgique et au Canada dans le but d'évaluer la qualité et la performance des services juridiques dans les salles d'audience, et en particulier des avocats et des cabinets d'avocats.
Le projet cherchera à créer des mesures basées principalement sur l'analyse des décisions de justice et, le cas échéant, sur d'autres données extraites de réseaux sociaux (tels que twitter, linked-in et blogs) dans le domaine du droit administratif et commercial.
Ce projet visera en particulier à :
- mesurer le taux de réussite des avocats par rapport au domaine et à la difficulté de la question traitée ;
- évaluer leur préférence ou leur aversion pour les méthodes transactionnelles ou alternatives de règlement des litiges ;
- si possible, identifier la moyenne des dommages obtenus par rapport aux dommages demandés ;
- mesurer leur taux de réussite dans chaque juridiction et par rapport à des juges spécifiques.
Contacts : David Restrepo-Amariles | Michalis Vazirgiannis
Le but du projet est de construire des modèles innovants, expressifs et flexibles pour l'analyse computationnelle de la structure musicale des signaux audio pour l'exploration et l'interaction avec de grandes bases de données audio, et pour une meilleure compréhension de la capacité des êtres humains à avoir une idée de la façon dont la musique est organisée.
Ce projet est fortement interdisciplinaire et rassemble les efforts de différents domaines scientifiques (signal
informatique, apprentissage relationnel statistique, apprentissage profond, analyse de données de grande dimension), mais aussi des connaissances issues de disciplines humanistes telles que l'analyse musicale, la musicologie et les études de musique jazz. Il bénéficie de la combinaison des divers champs d'expertise des différents membres impliqués dans l'équipe. Outre le développement de modèles innovants pour le traitement de la musique, il répond aux problèmes méthodologiques IA et il contribue également à l'interaction avec les disciplines connexes des humanités numériques.
Un article accepté dans la conférence ISMIR, la plus importante du domaine Music Information Retrieval MIR : Morgan Buisson, Brian McFee, Slim Essid, Hélène-Camille Crayencour, Learning Multi-Level Representations for Hierarchical Music Structure Analysis, 2022
Responsables du projet
- Hélène-Camille Crayencour (L2S - CNRS) - Expert en apprentissage statistique relationnel et en recherche d'information musicale ;
Slim Essid (LTCI, Télécom Paris, Institut Polytechnique de Paris) - Expert en prédiction structurée, apprentissage de représentation et traitement du signal audio ;
Matthieu Kowalski (L2S - Université Paris-Saclay) - Expert en approximations sparse structurées et en méthodes de décomposition des données.
Karine Zeitouni, Yehia Taher (Laboratoire DAVID, Université Versailles Saint-Quentin-en-Yvelines) et Cédric Gouy-Pailler (Laboratoire d’Analyse de Données et Intelligence des Systèmes, CEA List) ont décidé d’unir leurs compétences pour proposer à la communauté scientifique un nouvel outil simple pour développer des algorithmes puissants capables de gérer les problèmes de flux de données. Cet outil s’appliquera notamment dans le domaine médical en collaboration avec Philippe Aegerter (Inserm UMR 1168) et Marc Fischler (Hôpital Foch, Université Versailles Saint-Quentin-en-Yvelines).
Une plateforme de streaming générique mais à la pointe
La communauté scientifique développe des algorithmes pour gérer des flux de données. Les industriels, eux, cherchent à analyser le sujet d’une manière plus applicative. En informatique, des outils extrêmement puissants en termes de débit de données et de robustesse sont développés. « Avec le projet StreamOps, nous voulons nous positionner à l’interface des aspects algorithmiques, métiers et logiciels pour proposer à l’ensemble des acteurs une plateforme de streaming générique mais à la pointe au niveau des algorithmes », nous explique Cédric. En effet, l’ambition de StreamOps est de répondre simultanément aux objectifs suivants :
- Performances en détection (réactivité, précision), performance en compression d’information, prise en compte de la confidentialité des données ;
- Prise en considération des problèmes liés aux données réelles (données manquantes, problèmes capteurs) ;
- Facilité d’intégration de nouveaux algorithmes ;
- Robustesse opérationnelle (débit de données important, robustesse aux pannes de nœuds).
Des flux de données issues de capteurs environnementaux et de capteurs de santé
Karine travaille avec Yehia depuis quelques années sur le projet Polluscope (ANR) et avec Philippe dans le cadre de ACE-ICSEN, projet IRS de l’Université Paris-Saclay. Ils ont rencontré Cédric au sein du Center for Data Science et ont décidé de soulever ensemble cette question de gestion de données, d’analyse de données et de Machine Learning sur les données issues de l’IoT.
D’une part, StreamOps va se baser sur un échantillon des données de Polluscope récupérées par des boitiers multi-capteurs portatifs dans le cadre d’une collecte participative. L’objectif de Polluscope est d’analyser, dans toutes les dimensions, l’ensemble des informations de pollution pour caractériser l’exposition d’un individu à la pollution de l’air. Le projet SteamOps contribuera à faire de l’analyse et du Machine Learning sur ces flux de données. D’autre part, un capteur multi-signaux physiologiques (patch) connecté est en parallèle sur le point d’être testé par Philippe et Marc sur le suivi médical en pré-opératoire et surtout post-opératoire. L’idée est de coller sur le thorax du patient opéré un patch multi-capteurs pour le suivre à distance et en permanence pendant les jours qui suivent l'intervention, afin d'anticiper les risques de complications et de déclencher l'alerte à bon escient grâce à un système d'aide à la décision intelligent, sans devoir bloquer le patient dans une unité médicale spécialisée. L’objectif dans StreamOps est de partir de ces deux types de données pour ensuite créer une application générique.
Se positionner à l’interface
Karine précise : « Nous allons développer de nouveaux algorithmes qui feront l’interface entre une communauté qui voit les données comme des séries temporelles et qui les analyse d’un point de vue historique, et une autre qui voit l’IoT comme un flux de données et analyse l’ensemble de ces données de manière dynamique, au fur et à mesure de leur enregistrement. » L’objectif de StreamOps est de développer des méthodes et des algorithmes pour considérer l’ordre temporel dans les flux de données. Cédric travaille régulièrement avec des industriels également intéressés par la possibilité d’avoir des outils automatiques pour traiter les données qui viennent en flux. « Il ne s’agit pas de proposer une plate-forme de plus, explique Karine, mais une plate-forme intégratrice. » L’équipe StreamOps compte notamment collaborer avec Albert Bifet, Telecom ParisTech, qui a développé la plate-forme MOA (Massive Online Analysis) afin de créer une plateforme compatible et arriver à établir des synergies.
Contacts : Karine Zeitouni | Cédric Gouy-Pailler | Yehia Taher
L’apprentissage automatique pour les applications médicales, et en particulier l’apprentissage profond supervisé, impose des contraintes qui sont difficiles à vérifier : les résultats doivent être interprétables, de bonne qualité, reproductibles et auditables. On sait également que les performances dépendent de la qualité de base d’apprentissage et des annotations. Au même temps, l’apprentissage sur des données médicales impose de respecter la vie privée des patients. En Europe, les données médicales sont en accès restreint. La combination de ces facteurs rend l’utilisation de l’apprentissage profond pour l’imagerie difficile dans la pratique.
Ce projet de recherche se propose de trouver des solutions innovantes à ces questions, en ajoutant en plus un contexte applicatif important: l’utilisation de ces techniques au contexte de l’immunothérapie en cancérologie.
L’objectif de ce projet est de proposer une approche basée sur la structure même des architectures employées permettant la régularisation a priori des réseaux entraînés afin de permettre une convergence plus rapide, plus sûre et plus efficace des réseaux génératifs antagonistes proposés. En matière d’application, le projet propose de mettre ces réseaux en œuvre dans la classification des lésions tumorales en échographie et en tomodensitométrie, afin d’obtenir une appréciation rapide et objective de la réponse des patients à un traitement immunothérapique en cancérologie.
Le projet est donc ambitieux car dans ce domaine, les données et les annotations sont difficiles à obtenir. Une collaboration CVN-LR4M permettra de produire une quantité suffisante de ces données pour pouvoir initier un entraînement et démontrer que l’approche est réalisable, au travers de la collaboration des deux équipes au sein de l’Institut Gustave-Roussy. Au niveau applicatif, l’objectif sera de démontrer les bonnes propriétés des réseaux obtenus, en les appliquant au problème d’obtenir (1) des segmentations de lésions en échographie et en TDM ; (2) des caractérisations de ces lésions dans le contexte de l’immunothérapie. Une extension conditionnelle de l’architecture d’apprentissage profond proposée pourra permettre ce type d’application.
Contacts : Hugues Talbot | Fragkiskos Malliaros | Nathalie Lassau
Valorisation des DOnnées pour la Recherche d'Emploi
Le chômage est un phénomène multi-causes, dépendant notamment des facteurs limitant l’offre et la demande de travail. Ce projet se focalise sur le chômage frictionnel, lié aux imperfections informationnelles, dues aux coûts de collecte, de traitement et diffusion de l’information, ainsi qu’à l’asymétrie d’information entre fournisseurs et demandeurs d’emploi (DE), et aux limitations cognitives des individus. Ces imperfections sont une des raisons pour laquelle certains emplois restent inoccupés alors même qu’une demande d’emploi importante est observée dans les mêmes secteurs d’emploi.
L’idée centrale du projet est de mobiliser l’ensemble des informations disponibles pour améliorer l’appariement des DE et des emplois vacants.
Le projet s’appuie sur la mobilisation de l’ensemble considérable des informations sur les DE et les entreprises, parmi lesquelles certaines (les données textuelles notamment) sont encore inexploitées. Ces informations seront exploitées pour élaborer deux fonctionnalités, de nature technique et d’inspiration économique différentes, les évaluer et les comparer rigoureusement. La première fonctionnalité consiste à émettre des recommandations formalisées à destination tant des DE (sur les entreprises où candidater) que des entreprises (sur les DEs à inviter en interview de recrutement) en utilisant les précédents travaux (Schmitt et al., 2016, 2017). La seconde fonctionnalité consiste à mettre à la disposition des DEs et des entreprises une carte interactive de l’emploi, leur permettant de visualiser de manière agrégée les offres et demandes d’emploi dans un bassin géographique et répondant à une requête donnée. L’originalité de cette fonctionnalité est de permettre aux utilisateurs d’accéder au paysage global en fonction de leur requête − et de voir comment le paysage change en fonction des modifications éventuelles de la requête, leur permettant de faire non seulement des choix mais aussi des demandes de manière mieux informée.
Contacts : Michèle Sebag | Marco Cuturi | Bruno Crepon | Christophe Gaillac | Philippe Caillou
Ce projet de recherche porte sur la détection des liens de causalité dans les graphiques de connaissances représentant des problèmes multi-échelles et multi-objectifs, particulièrement présents dans les sciences de la vie. Plusieurs questions doivent être abordées. Tout d'abord, les ontologies des sciences de la vie impliquent de nombreux concepts et attributs, ce qui conduit à un espace de recherche particulièrement vaste dans ces domaines. Deuxièmement, les ensembles de données des sciences de la vie peuvent contenir de nombreuses données quantitatives imprécises et manquantes, et l'incertitude des données et des connaissances scientifiques doit être prise en compte. La troisième préoccupation principale repose sur la possibilité d'interpréter les résultats. Une attention particulière sera accordée dans le projet pour aider les utilisateurs finaux (c'est-à-dire les experts du domaine) à comprendre, évaluer et exploiter les liens de causalité détectés. Ces défis seront appliqués dans deux domaines distincts des sciences de la vie qui sont liés aux questions environnementales dans le développement des plantes. La croissance et le développement des plantes sont étroitement contrôlés par le génotype, les indices environnementaux et l'interaction entre les deux (GxE). Les phénotypes mesurés sur le même génotype dans différents environnements montrent souvent des effets significatifs de l'environnement révélant une plasticité phénotypique. À l'inverse, un phénotype robuste peut être considéré comme insensible à l'environnement. Dans un contexte de changement climatique, la plasticité phénotypique ou la robustesse peuvent conférer des valeurs d'adaptation aux organismes. Il s'agit là d'un défi majeur compte tenu de la préoccupation du réchauffement climatique qui a d'énormes impacts socio-économiques, industriels et politiques.
Ce projet de recherche vise à développer une nouvelle approche pour la détection automatique des règles causales graduelles qui expriment la causalité entre différentes variables dans les graphiques de connaissance.
L'approche développée exploitera les dépendances temporelles, les liens d'identité contextuelle et les méthodes statistiques. Les applications ciblées sont considérées comme des systèmes d'aide à la décision dans les domaines suivants : (i) le domaine du maïs, où les experts du domaine s'intéressent à la manière dont les signaux climatiques ont un impact différent sur le développement des différents génotypes et abordent donc la question de l'adaptation des organismes au changement climatique ; (ii) le domaine du riz, où les experts du domaine s'intéressent à la détermination des interactions gène-gène et de leurs interactions avec les environnements.
Contacts : Juliette Barthélemy | Fatiha Saïs
Un sujet essentiel : l’industrie des jeux en ligne pour enfants
- Une approche pluridisciplinaire qui combine économie, droit et informatique ;
- Une recherche innovante avec une approche multiple et l’utilisation de données multiples
- Des contenus au potentiel éducatif mais aussi addictifs et qui peuvent avoir des implications sur l’apprentissage.
Un défi sociétal majeur
Collecte massive de données (profilage) et faiblement supervisée (intensification et précocité des usages) des mineurs moins conscients du risque et plus exposés et des problèmes de santé liés à des contenus addictifs.
Des initiatives multiples au niveau international
ONU : Observation générale n° 25 (2021) sur les droits de l’enfant en relation avec l’environnement numérique
Initiatives de toutes les autorités DP européennes (Code de l’âge de l’ICO britannique, les 14 principes fondamentaux pour une approche du traitement des données centrée sur l’enfant de la DPC irlandaise…).
Collecte des données personnelles chez les enfants
La collecte de données personnelles chez les enfants est régulée en Europe par le RGPD (droit à l’oubli renforcé, consentement spécifique), aux Etats-Unis par la COPPA (régulation spécifique pour protéger la vie privée des enfants). Les entreprises qui opèrent dans ce secteur sont très variées (éditeurs de jeux, maisons d’édition, développeurs d’application pour l’éducation…).
Analyse du consentement
- Qu’est-ce que le consentement d’un mineur ?
- Comment appliquer le RGPD au jeu en ligne ?
- Que disent les législations étrangères ?
- Quelles sont les solutions actuellement mises en œuvre et en quoi sont-elles perfectibles ?
Analyse des traitements
- Quelles sont les données recueillies ?
- Quel est le fondement légal ?
- Quelles sont les finalités ?
- Comment accompagner les acteurs du secteur dans une mise en œuvre raisonnée du RGPD ?
- Au-delà : est-ce que le contenu offert aux enfants est addictif ?
L'objectif et la méthode
Comprendre les mécanismes économiques, juridiques et techniques afin de permettre une protection efficace de ce public vulnérable tout en continuant à stimuler l’innovation dans ce secteur, une approche pluridisciplinaire, une équipe pluridisciplinaire qui a l'habitude de travailler en collaboration en combinant les forces pour une recherche juridique, économique et informatique qui débouchera sur de véritables préconisations.
Evènements liés
- 7 avril 2022 - Présentation du projet à la conférence bisannuelle de DATAIA
- 6 avril 2022 - 18h Conférence inaugurale avec l'intervention de Denis Masséglia (député -- président du groupe d'étude jeux vidéo) et la CNIL (en ligne)
- 15 mars 2022 - Réunion de travail (en ligne)
- 16 janvier 2022 - Réunion de travail (en ligne)
- 7 janvier 2022 - Réunion kick-off (En ligne)
- 24 juin 2021 - Présentation du projet à l'ESSI par Grazia Cecere et Alexandra Bensamoun
Chiffres-clés
94% des enfants jouent aux jeux vidéo
52% des enfants jouent tous les jours
60% des 10-17 ans jouent en ligne
Contacts : Alexandra Bensamoun | Benjamin Nguyen
Les données cérébrales sont couramment collectées et analysées dans le cadre de travaux cliniques et de recherche est un exercice fastidieux qui nécessite de l'argent et du temps de la part d'experts qualifiés. L'analyse des images médicales, et donc l'imagerie cérébrale, est notoirement une tâche de savoir-faire qui la rend difficile mais possible à automatiser. Malgré des techniques d'enregistrement avancées permettant de faire correspondre les mesures du sujet, l'interprétation automatique de l'imagerie médicale a connu un tournant avec l'apprentissage profond, permettant la croissance d'entreprises dérivées avec des produits validés médicalement comme Avicenna.ai ou Therapixel. Pour l'électroencéphalographie (EEG), qui est par exemple cliniquement pertinente pour surveiller les patients dans le coma ou l'anesthésie, mais aussi pour la médecine du sommeil, mais aussi pour la médecine du sommeil, ce tournant est encore attendu malgré une communauté de recherche très active.
"Les données cliniques telles que les signaux physiologiques recueillis sur le cerveau sont intrinsèquement non traitées, bruyantes et désordonnées par rapport aux données de laboratoire. Le projet YARN s'attaquera à ce problème grâce à des statistiques robustes et à l'apprentissage par transfert, pour aboutir à un pipeline de traitement automatique des données intégré dans initiative d'open science."
L'analyse automatisée de l'EEG se heurte à des problèmes majeurs : mauvaise qualité du signal avec des données manquantes (électrodes déconnectées déconnectées, artefacts musculaires, etc.), la rareté des données en raison des temps d'acquisition limités, la d'acquisition limités, la variabilité intra et inter-sujet (à la fois pour le signal d'heure en heure chez un sujet et entre différents sujets). En dehors des contextes cliniques et dans des environnements de recherche très contrôlés, les techniques avancées de machine learning pour les données EEG sont déjà disponibles et permettent d'obtenir une classification de haute précision et une prédiction précise. Ces approches d'apprentissage automatique ont toutes été entraînées sur des ensembles de données propres, acquis dans des expériences de laboratoire contrôlées avec une sélection manuelle. Ces approches ne sont pas encore adaptées au traitement de données données cliniques brutes, soit en raison de limitations intrinsèques (incapacité à traiter des matrices d'entrée mal conditionnées), soit en raison d'un manque de généralisation (décalage de la distribution des jeux de données, valeurs aberrantes et bruit des étiquettes).
Problématiques
Pour que les outils de ML EEG sortent du laboratoire et soient capables de traiter efficacement les données cliniques, qui sont par nature désordonnées et rares, certains problèmes doivent encore être résolus :
- Mauvaise qualité du signal : les signaux EEG d'intérêt sont mélangés à divers bruits. Ils sont mélangés à d'autres signaux cérébraux non pertinents, à des artefacts oculaires et musculaires, à du bruit instrumental, etc. De plus, l'étiquetage précis des données cliniques est assez compliqué et les données mal étiquetées sont fréquentes ;
- Grande variabilité intra et inter-sujet : entre les sujets et entre les sessions, les signaux d'intérêt souffrent d'une grande variabilité ;
- La reproductibilité et la disponibilité des logiciels : la littérature sur le traitement des signaux cérébraux est dense et l'évaluation des algorithmes de ML est souvent obscurcie par des benchmarks partiels et des ensembles de données triés sur le volet. Les sources de code, lorsqu'elles sont disponibles, sont enchevêtrées avec des aspects spécifiques à la tâche et aux données, ce qui limite leur réutilisation.
Objectifs
Sur la base des questions clés identifiées, les objectifs suivants sont considérés dans ce projet :
- Récupérer l'information d'intérêt : plusieurs contributions théoriques pour le SRS s'appuyant sur des estimateurs robustes et la géométrie pour caractériser le signal du bruit : étendre les modèles géométriques, exploiter les statistiques robustes et concevoir le SRS basé à la fois sur la robustesse et la géométrie ;
- Réduire la dépendance aux données : en utilisant peu ou pas de données cataloguées pour résoudre les problèmes de variabilité intra et inter-sujet : définir une nouvelle méthode d'enregistrement pour différents sujets et équipements, construire un espace de caractéristiques adéquat basé sur les similitudes entre les ondes cérébrales du sujet et les coordonnées barycentriques, utiliser l'apprentissage par transfert pour déduire un modèle pour les sujets avec des données étiquetées limitées ;
- Plate-forme scientifique ouverte : l'aspect applicatif consiste à développer des outils pour augmenter la reproductibilité et simplifier l'utilisation du traitement automatisé des données EEG brutes. Réduire autant que possible le besoin de paramétrer le modèle, automatiser les étapes de traitement et renforcer l'explicabilité du modèle et les visualisations explicatives.
Contacts : Sylvain Chevallier | Florent Bouchard | Frédéric Pascal | Alexandre Gramfort