[👥 WORKSHOP] "Fondements Mathématiques de l'IA" - 6ème édition
Inscriptions clôturées !
La journée “Fondements Mathématiques de l’IA”, organisée conjointement par l'Institut DataIA et SCAI, en association avec les sociétés scientifiques : la Fondation Mathématique Jacques Hadamard (FMJH), la Fondation Sciences Mathématiques de Paris-FSMP, le groupe MALIA de la Société Française de Statistique et la Société Savante Francophone d'Apprentissage Machine (SSFAM) vise à proposer un panorama de quelques directions de recherche prometteuses à l’interface entre l’apprentissage statistique et l’IA.
Elle s'inscrit dans la dynamique du réseau Maths & IA d'Ile-de-France, dont la FMJH et DataIA sont parties prenantes.
Cette nouvelle édition sera consacrée aux questions d'identifiabilité, que ce soit pour l'analyse tensorielle, les réseaux de neurones ou en IA générative. La journée est consacrée à trois exposés pléniers ainsi qu'un exposé "spotlight", donnés par des chercheurs renommés et spécialistes du sujet :
-
François Malgouyres (Université de Toulouse), spécialiste des tenseurs et des questions d'identifiabilité de tenseurs ;
-
Elisabeth Gassiat (Laboratoire de Mathématiques d'Orsay), professeure, statisticienne de tout premier plan, qui a mené des travaux autour des questions d'identifiabilité des VAEs ;
-
Pavlo Mozharovskyi (Télécom ParisTech), professeur, expert reconnu sur la question de l'explicabilité, avec des travaux menés sur le concept-based learning.
-
Konstantin Usevich (CRAN, CNRS)
Cette journée est aussi l'opportunité pour de jeunes chercheurs de présenter leurs travaux via des exposés courts.
Comité d'organisation
- Marianne Clausel (Université de Lorraine)
- Emilie Chouzenoux (INRIA Saclay, Institut DataIA)
Comité scientifique
- Ricardo Borsoi (CNRS, CRAN)
- Stéphane Chrétien (Univ. Lyon 2)
- Sylvain Le Corff (Sorbonne Université)
- Myriam Tami (CentraleSupélec)
Geometry-induced regularization and identifiability of deep ReLU networks
Résumé : La première partie de l’exposé présentera, à l’aide d’un exemple simple et didactique, les résultats mathématiques développés dans la seconde partie, de manière à en rendre l’intuition accessible au plus grand nombre. Du fait d’une régularisation implicite qui favorise les « bons » réseaux, les réseaux de neurones avec un grand nombre de paramètres ne surapprennent généralement pas. Parmi les phénomènes connexes et encore mal compris figurent les propriétés des minima plats, les dynamiques de type saddle-to-saddle et l’alignement des neurones. Pour analyser ces phénomènes, nous étudions la géométrie locale des réseaux de neurones ReLU profonds. Nous montrons que, pour une architecture fixée, lorsque les poids varient, l’image d’un échantillon X forme un ensemble dont la dimension locale change. L’espace des paramètres est ainsi partitionné en régions où cette dimension locale demeure constante. La dimension locale est invariante par rapport aux symétries naturelles des réseaux ReLU (c’est-à-dire les changements d’échelle positifs et les permutations de neurones). Nous établissons ensuite que la géométrie du réseau induit une régularisation, la dimension locale constituant une mesure clé de régularité. De plus, nous relions la dimension locale à une nouvelle notion de platitude des minima ainsi qu’aux dynamiques saddle-to-saddle. Pour les réseaux à une couche cachée, nous montrons également que la dimension locale est liée au nombre de régions linéaires perçues par $X$, ce qui éclaire sur l'effet de la régularisation. Ce résultat est étayé par des expériences et mis en relation avec l’alignement des neurones. Enfin, je présenterai des expériences sur la base MNIST, qui mettent en évidence la régularisation induite par la géométrie dans ce contexte. Finalement, je ferai le lien entre des propriétés sur la dimension locale et l'identifiabilité locale des paramètres du réseau.
Biographie : François Malgouyres est professeur des universités à l’Université de Toulouse (France). Ses recherches portent sur les fondements théoriques et méthodologiques du deep learning, avec un intérêt particulier pour la compréhension de la structure mathématique des réseaux de neurones. Il a notamment travaillé sur la géométrie des réseaux, l’identifiabilité de leurs paramètres, l’approximation de fonctions par réseaux de neurones, ainsi que sur la quantification des poids dans les réseaux récurrents et la conception de couches convolutives orthogonales. Il s’est également intéressé au straight-through estimator — l’algorithme de référence pour l’optimisation de poids quantifiés — et à ses applications à la reconstruction de signaux parcimonieux. Avant de rejoindre l’Université de Toulouse, François Malgouyres a été maître de conférences à l’Université Paris Nord, postdoctorant à l’Université de Californie à Los Angeles (UCLA), puis doctorant à l’ENS Paris-Saclay (alors située à Cachan).
10h - 10h30 | Pause café
Identifiability of Deep Polynomial Neural Networks
Résumé : Polynomial Neural Networks (PNNs) possess a rich algebraic and geometric structure. However, their identifiability -- a key property for ensuring interpretability -- remains poorly understood. In this work, we present a comprehensive analysis of the identifiability of deep PNNs, including architectures with and without bias terms. Our results reveal an intricate interplay between activation degrees and layer widths in achieving identifiability. As special cases, we show that architectures with non-increasing layer widths are generically identifiable under mild conditions, while encoder-decoder networks are identifiable when the decoder widths do not grow too rapidly compared to the activation degrees. Our proofs are constructive and center on a connection between deep PNNs and low-rank tensor decompositions, and Kruskal-type uniqueness theorems. We also settle an open conjecture on the dimension of PNN's neurovarieties, and provide new bounds on the activation degrees required for it to reach the expected dimension.
Biographie : Konstantin Usevich is a CNRS researcher (chargé de recherche) at CRAN (Centre de Recherche en Automatique de Nancy), member of the SiMul group. His research interests are in linear and multilinear algebra, optimization, focused on tensor decompositions, low-rank approximations and their applications in statistics, signal processing and machine learning. He got my PhD from St. Petersburg University (Russia) in 2011. Prior to joining the CNRS in 2017, he was a postdoc at University of Southampton (UK), Vrije Universiteit Brussel (Belgium) and GIPSA-lab (Grenoble, France).
Titre (TBA)
Résumé :
Biographie :
Rémi VAUCHER (Halias Technology)
Signatures, and Quiver Representations: don't be afraid to use Algebra in Causality
Understanding and testing causal relationships is a central challenge in modern artificial intelligence. In this talk, we introduce a mathematical perspective on causality based on two theoretical tools: path signatures and quiver representations. Signatures provide a hierarchical and universal description of temporal data, enabling the detection of differential causality. Quiver representations then offer an algebraic framework in which these relations can be encoded and tested in a structured and interpretable way. This approach bridges algebra, geometry and machine learning, suggesting new avenues for causal inference in dynamic settings. We will present the core mathematical ideas and illustrate their potential through examples. The Quiver Representations part is a joint work with Antoine Caradot.
Manal BENHAMZA (CentraleSupélec)
Counterfactual Robustness: a framework to analyze the robustness of Causal Generative Models across interventions
Data generation using generative models is one of the most impressive growing field of artificial intelligence. However, such models are black boxes trained on huge datasets lacking interpretability properties. Causality is a natural framework to include expert knowledge into deep generative models. Other expected beneficial properties of causal generative models are fairness, transparency and robustness of the generation process. Up to our best knowledge, while many works have analyzed general generative models’ robustness, surprisingly none have focused on their causal counterpart even if their robustness is a common claim. In the present paper, we introduce the fundamental concept of counterfactual robustness, which evaluates how sensitive causal generative models are to interventions with respect to distribution shifts. Through a series of experiments on synthetic and real-life datasets, we demonstrate that all the studied causal generative models are not equal with respect to counterfactual robustness. More surprisingly, we show that all causal interventions are also not equally robust. We provide a simple explanation based on the causal mechanisms between the variables, that is theoretically grounded in the case of an extended CausalVAE. Our in-depth analysis also yields an efficient way to identify the most robust intervention based on prior knowledge on the causal graph.
Ali AGHABABAEI (Université Grenoble Alpes)
Unified Framework for Pre-trained Neural Network Compression via Decomposition and Optimized Rank Selection
Modern deep neural networks often contain millions of parameters, making them impractical for deployment on resource-constrained devices. In this talk, I present RENE (Rank adapt tENsor dEcomposition), a unified framework that combines tensor decomposition with automatic rank selection to efficiently compress pre-trained neural networks. Unlike traditional approaches that rely on manually chosen or grid-searched ranks, RENE performs continuous rank optimization through a multi-step search strategy, exploring large rank spaces while keeping memory and computation manageable. The method identifies layer-wise optimal ranks without requiring training data and subsequently fine-tunes the decomposed model through a lightweight distillation process. Experiments on benchmark datasets, covering both convolutional and transformer architectures, demonstrate superior compression rates with strong accuracy preservation.
12h45 - 13h45 | Pause déjeuner
Titre (TBA)
Résumé :
Biographie :
14h45 - 15h30 | Pause goûter
Sonia MAZELET (Polytechnique)
Unsupervised Learning for Optimal Transport plan prediction between unbalanced graphs
Optimal transport between graphs, based on Gromov-Wasserstein and other extensions, is a powerful tool for comparing and aligning graph structures. However, solving the associated non-convex optimization problems is computationally expensive, which limits the scalability of these methods to large graphs. In this work, we present Unbalanced Learning of Optimal Transport (ULOT), a deep learning method that predicts optimal transport plans between two graphs. Our method is trained by minimizing the fused unbalanced Gromov-Wasserstein (FUGW) loss. We propose a novel neural architecture with cross-attention that is conditioned on the FUGW tradeoff hyperparameters. We evaluate ULOT on synthetic stochastic block model (SBM) graphs and on real cortical surface data obtained from fMRI. ULOT predicts transport plans with competitive loss up to two orders of magnitude faster than classical solvers. Furthermore, the predicted plan can be used as a warm start for classical solvers to accelerate their convergence. Finally, the predicted transport plan is fully differentiable with respect to the graph inputs and FUGW hyperparameters, enabling the optimization of functionals of the ULOT plan.
Alexandre Chaussard (LPSM, Sorbonne Université)
Identifiabilité de VAEs
When studying ecosystems, hierarchical trees are often used to organize entities based on proximity criteria, such as the taxonomy in microbiology, social classes in geography, or product types in retail businesses, offering valuable insights into entity relationships. Despite their significance, current count-data models do not leverage this structured information. In particular, the widely used Poisson log-normal (PLN) model, known for its ability to model interactions between entities from count data, lacks the possibility to incorporate such hierarchical tree structures, limiting its applicability in domains characterized by such complexities. To address this matter, we introduce the PLN-Tree model as an extension of the PLN model, specifically designed for modeling hierarchical count data. By integrating structured deep variational inference techniques, we propose an adapted training procedure and establish identifiability results in the Poisson Log-Normal framework, enhancing both theoretical foundations and practical interpretability. Additionally, we present a proof-of-concept implication of identifiability by illustrating the practical benefits of using identifiable features for classification tasks.
Chuong LUONG (Université de Lorraine)
New Conditions for the Identifiability of Block-Term Tensor Decompositions
Tensor decompositions have become an important tool in machine learning and data analysis, as they can exploit the multidimensional structure of data. In particular, identifiability guarantees provide essential theoretical support to various latent variable modelling and source separation (e.g., unmixing) methods. However, for decompositions in block terms - which enjoy increased flexibility compared to the classical canonical polyadic decomposition, since each component is a block of multilinear ranks (L_r, M_r, N_r) -fewer results are available. In this ongoing work, we study the identifiability of general block-term decompositions of three-dimensional tensors from an algebraic-geometric viewpoint. Our current results provide new sufficient conditions for the identifiability of generic tensors based on the tensor dimensions, the shape of each block, and the number of components in the model (i.e., the tensor rank). Compared to previous results available in the literature, our conditions show that identifiability can hold for a larger number of components in certain regimes.
Mélissa ABIDER (Université Paris-Saclay)
Entre identifiabilité et explicabilité : une exploration mathématique et empirique des modèles variationnels
Les modèles génératifs profonds, comme les autoencodeurs variationnels (VAEs), apprennent à représenter des données complexes dans un espace latent caché. Cependant, cette représentation n’est pas toujours unique : plusieurs structures internes peuvent produire les mêmes résultats observés. Ce problème d’identifiabilité soulève des questions fondamentales sur la compréhension et l’interprétation des modèles d’IA. Dans cette présentation, je proposerai une exploration à la fois théorique et visuelle de ce phénomène. Je rappellerai brièvement le cadre probabiliste des VAEs, avant de montrer, à travers une petite expérience, comment la régularisation (β) et le bruit des données influencent la forme et la stabilité de l’espace latent. Ces observations illustrent le compromis entre la fidélité du modèle et la clarté de la représentation interne. Ce travail vise à relier les aspects mathématiques de l’identifiabilité aux enjeux d’explicabilité en IA, et à ouvrir la discussion sur la manière dont ces propriétés pourraient guider la conception de modèles plus interprétables.