4 chaires DataIA Modulaires

Chaires DataIA Modulaires

Une chaire de recherche rassemble des chercheurs, des partenaires socio-économiques et des moyens dédiés autour d'une problématique commune. Pendant environ 3 ans, elle vise à développer des travaux scientifiques de haut niveau, tout en favorisant l'innovation, la formation et le transfert de connaissances. Les chaires Synergie sont par ailleurs pensées comme un véritable espace de collaboration entre le monde académique et les acteurs publics ou privés.

La première vague de chaires Modulaires sélectionnées par l'Institut DataIA rassemble aujourd'hui 4 projets, portés par 9 chercheurs et chercheuses au sein de plusieurs laboratoires et équipes de recherche.

« [CentOrIA] Mathematical Principles of Learning and Communication in Attention‑Based Models »

Claire Boyer Professeure au Laboratoire de Mathématiques d'Orsay

Pablo Piantanida Professeur à CentraleSupélec. Directeur du ILLS

Etienne Boursier Chercheur de l'équipe CÉLESTE (Inria Saclay)

Avec la participation du Laboratoire de Mathématiques d'Orsay (Université Paris-Saclay – CNRS), l'équipe Céleste (statistique mathématique et apprentissage) de l'Inria Saclay Île-de-France et de l'ILLS (International Laboratory on Learning Systems).

Ce projet vise à développer une compréhension mathématique rigoureuse du fonctionnement des systèmes d'intelligence artificielle fondés sur les mécanismes d'attention, tels que les grands modèles de langage (LLMs).

Bien que ces architectures soient au cœur des avancées récentes en IA, leurs fondements théoriques restent encore partiellement compris. Nous mobilisons des outils issus des probabilités, de l'optimisation et de la théorie de l'information afin d'identifier les principes qui gouvernent :

La manière dont les mécanismes d'attention traitent et structurent l'information.
La façon dont les modèles apprennent des structures séquentielles via la prédiction autoregressive et l'apprentissage en contexte.
La manière dont plusieurs agents d'IA peuvent communiquer de façon efficace et coopérative.

En unifiant ces perspectives, le projet ambitionne de poser les bases d'une théorie générale de l'apprentissage par attention, afin de contribuer à la conception de systèmes d'IA plus interprétables, fiables et robustes.

« DEEP-CH : Deep Learning Exploration of the Effects of Clonal Hematopoiesis on Solid Tumor Progression »

Elsa Bernard Cheffe d'équipe au laboratoire d'oncologie clinique computationnelle de Gustave Roussy

Stergios Christodoulidis Maître de conférences au département mathématiques de CentraleSupélec et membre du MICS

Avec la participation de Gustave Roussy et du MICS (laboratoire Mathématiques et Informatique pour la Complexité et les Systèmes) de CentraleSupélec.

DEEP-CH vise à faire progresser le diagnostic de l'hématopoïèse clonale (CH) et à élucider son rôle mécanistique dans la progression tumorale grâce à l'intelligence artificielle et à l'intégration de données multimodales.

Ce projet développera des outils d'apprentissage profond pour améliorer la détection de la CH et la prédiction de l'origine des mutations, en introduisant de nouvelles méthodes d'apprentissage profond pour l'analyse automatisée des frottis sanguins et des données de séquençage de l'ADN acellulaire.

De plus, nous intégrerons une IA explicable à l'histologie et à la transcriptomique spatiale afin de révéler comment les cellules immunitaires porteuses de mutations de l'HCl modulent le microenvironnement tumoral. Organisé en quatre lots de travail synergiques, DEEP-CH fournira de nouveaux outils diagnostiques et des connaissances mécanistiques sur les interactions tumeur-système immunitaire induites par l'HCl, dans le but ultime d'améliorer l'oncologie de précision.

« MULTI-OBJECTIVE OPTIMIZATION : a fresh perspective on the old problem »

Evgenii Chzhen Chercheur au CNRS

Antonio Silveti-Falls Maître de conférences à CentraleSupélec

Avec la participation du Laboratoire de Mathématiques d'Orsay (Université Paris-Saclay – CNRS), du CVN (Centre de Vision Numérique) et de l'équipe OPIS (OPtimisation Imagerie et Santé) d'Inria Saclay Île-de-France.

Ce projet porte sur l'optimisation multi-objectifs, un cadre permettant de comprendre les compromis entre plusieurs objectifs concurrents qui se présentent dans les systèmes modernes d'apprentissage et de prise de décision.

Plutôt que de regrouper ces objectifs en une seule valeur, le projet explore des méthodes permettant d'étudier la frontière de Pareto, qui rend compte de l'ensemble des compromis optimaux entre eux.

La recherche développe des approches algorithmiques pour identifier et approximer ces compromis tout en tirant parti de la structure géométrique des problèmes d'optimisation afin de concevoir des méthodes efficaces. Les applications incluent des contextes tels que l'équité algorithmique, où la performance prédictive doit être équilibrée avec l'équité entre les groupes.

Un aspect distinctif du projet est son utilisation de la géométrie o-minimale comme point de vue central : en exploitant la structure géométrique simple de nombreux problèmes d'apprentissage, nous visons à mieux comprendre la structure des ensembles de Pareto et à guider la conception d'algorithmes d'optimisation.

« THERAPI : THEoRy and Applications of Physics Informed learning models »

Cyril Furtlehner Chercheur et scientifique Inria

Pierfranceso Urbani Chercheur permanent au CNRS

Avec la participation du LISN (Laboratoire Interdisciplinaire des Sciences du Numérique - Université Paris-Saclay / Inria Saclay Île-de-France / CNRS / Centrale Supélec) et du CEA (Commissariat à l'énergie atomique).

Le projet vise à développer et mettre en œuvre des solutions fondées sur l’intelligence artificielle afin d’accompagner la recherche et l’innovation. Il consiste notamment à concevoir des algorithmes, les adapter à des problématiques scientifiques concrètes et faciliter leur déploiement sur des infrastructures de calcul intensif. L’objectif est d’accélérer les avancées scientifiques et de favoriser l’émergence de nouvelles collaborations.

L'application de l'apprentissage automatique (ML) à la physique pose un certain nombre de défis en raison des propriétés intrinsèques des données physiques. Contrairement aux ensembles de données génériques, les données physiques sont soumises à des contraintes liées aux symétries, aux lois de conservation et aux relations causales, et impliquent souvent des événements rares et hautement non linéaires qui sont essentiels à la compréhension des systèmes complexes.

L'apprentissage automatique fondé sur la physique (PIML) relève ces défis en intégrant des connaissances physiques a priori dans les modèles d'apprentissage automatique. Les cadres PIML existants tels que les réseaux neuronaux fondés sur la physique (PINN) ou les opérateurs neuronaux offrent des pistes prometteuses pour intégrer l'expertise métier dans les architectures d'apprentissage automatique.

Ce projet vise à s'appuyer sur deux avancées récentes :

L'entraînement à la haute précision des PINN.
Le modèle de paysage Canyon, un outil théorique particulièrement efficace pour analyser les dynamiques d'apprentissage.

Guidés par la dialectique entre théorie et pratique, nous nous concentrerons sur le développement de fondements théoriques pour des modèles PIML économes en données et physiquement significatifs.

Nous cherchons à faire progresser le domaine du PIML d'un point de vue théorique en développant des modèles simplifiés à partir desquels de nouveaux algorithmes peuvent être dérivés, et d'un point de vue pratique en fournissant des solutions concrètes — notamment dans les domaines de la turbulence et des applications géophysiques.