Workshop | "Fondements Mathématiques de l'IA"

Conferences / Workshops

Workshop | "Fondements Mathématiques de l'IA"

02.10.23

Sorbonne Center for AI (SCAI), 4 place Jussieu, 75005 Paris - Tour 44-54, salle 107

Rendez-vous le 2 octobre prochain dans les locaux de SCAI (Paris), pour une journée consacrée aux fondements des mathématiques de l'IA !

Contexte

La journée “Fondements Mathématiques de l’IA”, organisée conjointement par l'Institut DATAIA, SCAI et le groupe MALIA de la Société Française de Statistique, vise à proposer un panorama de quelques directions de recherche prometteuses à l’interface entre l’apprentissage statistique et l’IA. Les mathématiques du deep learning (théorie d’approximation, analyse de stabilité/robustesse) et l’optimisation pour l’apprentissage, ou les modèles génératifs seront autant de thèmes abordés durant cette journée.

La matinée sera consacrée à des exposés pléniers donnés par des chercheurs de renommée mondiale, tandis que l’après-midi sera l’opportunité pour de jeunes chercheurs de présenter leur travaux via des posters ou des exposés courts.

Comité d'organisation

Marianne Clausel (Univ. Lorraine)
Emilie Chouzenoux (INRIA Saclay, Institut DATAIA)
Groupe MALIA de la Société Française de Statistique

Comité scientifique

Stéphan Chrétien (Univ. Lyon 2)
Sylvain Le Corff (Sorbonne Université)
Konstantin Usevich (CNRS)
Myriam Tami (CentraleSupélec)

Salle du workshop : Tour 44-54, salle 107
Salle des pauses (café, déjeuner) : Tour 2400 (Zamansky)

Programme

9-10h | Keynote I : Arnaud Doucet (Université d'Oxford & Google DeepMind) | "From Denoising Diffusion Models to Dynamic Transport Models – Generative Modeling and Inference"

Les modèles de diffusion débruiteurs constituent une nouvelle classe de techniques puissantes pour la modélisation générative et l'inférence. Ces modèles ont supplanté les réseaux adversaires génératifs au cours des deux dernières années, car ils sont flexibles, faciles à entraîner et fournissent des résultats de pointe dans de nombreux domaines d'application tels que la synthèse d'images et la conception de protéines. Ils sont par exemple au cœur de modèles populaires de conversion de texte en images tels que Dalle2, Imagen, Midjourney et Stable Diffusion. Dans cet exposé, nous passerons en revue ces méthodes, nous les illustrerons sur une variété d'applications et nous discuterons de leurs limites. Nous montrerons ensuite comment des techniques alternatives récentes basées sur des idées de transport de masse dynamique peuvent résoudre certaines de ces limitations peuvent résoudre certaines de ces limitations. En particulier, nous nous concentrerons sur les ponts de Schrödinger, une version régularisée par l'entropie du transport optimal dynamique, et présentons une une nouvelle méthode simple pour les approcher numériquement.

Biographie

Arnaud Doucet a obtenu son doctorat en ingénierie de l'information à l'université de Paris-XI en 1997. Depuis, il a occupé des postes de professeur à l'Université de Cambridge, à l'Université de Melbourne, à l'Université de Colombie Britannique et à l'Institut de mathématiques statistiques de Tokyo. Il a rejoint le département de statistiques de l'Université d'Oxford en 2011 où il est actuellement Statutory Professor (Oxford parle pour la chaire). Depuis 2019, il est également chercheur principal chez Google DeepMind. Il a été conférencier médaillé de l'Institute of Mathematical Statistics (IMS) en 2016, a été élu membre de l'IMS en 2017 et a reçu la médaille d'argent Guy de la Royal Statistical Society en 2020.

10h-10h40 | Session 1 : 2 interventions des participants

Ségolène Martin (CVN, CentraleSupélec) | "Adressing class unbalance in transductive few-shot learning"

Dans cet exposé, nous explorerons les défis et les limites des benchmarks existants pour l'apprentissage à court terme et nous introduirons une approche plus flexible et plus réaliste. Les repères traditionnels reposent souvent sur des hypothèses qui ne correspondent pas toujours aux scénarios du monde réel, comme l'équilibre des classes, ce qui limite leur efficacité. Pour y remédier, nous présentons une nouvelle formulation, la PrimAl Dual Minimum Description LEngth (PADDLE), qui offre une approche composite basée sur l'optimisation pour gérer la précision des données et la complexité du modèle. Cette méthode favorise la concurrence entre une vaste gamme de classes possibles, garantissant que seules les plus pertinentes sont retenues pour une tâche. PADDLE est notamment dépourvu d'hyperparamètres et s'adapte très bien à diverses bases d'apprentissage. Nous discuterons également d'un algorithme développé pour minimiser la fonction de perte, qui garantit la convergence et offre une efficacité de calcul. Enfin, des expériences complètes démontrent l'efficacité de la méthode.

Raphaël Mignot (Université de Lorraine) | "Averaging time series, a new approach with the signature method"

Le but de notre travail est de moyenner des séries temporelles multidimensionnelles. Nous codons les séries temporelles avec des intégrales de différents ordres de moments, constituant leur signature. Nous calculons la moyenne dans cet espace de caractéristiques, qui a une structure de groupe de Lie. Cela nous permet d'exploiter les propriétés bénéfiques des signatures pour des tâches d'apprentissage automatique omniprésentes : regroupement, augmentation des données, réduction des dimensions.

10h40-10h55 | Pause café

11-12h | Keynote II : Cordelia Schmidt (INRIA) | "Multimodal video representations and their extension to visual language navigation"

Dans cet exposé, nous présentons les progrès récents en matière d'apprentissage à grande échelle de représentations vidéo multimodales. Nous commençons par présenter VideoBert, un modèle conjoint pour la vidéo et le langage, qui adapte le modèle Bert aux données multimodales. Ce modèle permet d'obtenir des résultats de pointe pour la prédiction zéro-coup et le sous-titrage vidéo. Ensuite, nous présentons Vid2Seq, un modèle de sous-titrage vidéo dense qui prend en entrée la vidéo et la parole et prédit simultanément les limites temporelles et les descriptions textuelles. Nous présentons ensuite une approche pour la réponse aux questions vidéo et le sous-titrage d'images qui s'appuie sur un modèle de langage visuel augmenté par la récupération qui apprend à encoder la connaissance du monde dans une mémoire à grande échelle et à la récupérer pour répondre à des requêtes à forte intensité de connaissances. Nous montrons que notre approche permet d'obtenir des résultats de pointe en matière de réponse à des questions visuelles et de sous-titrage d'images. Nous concluons la présentation par des travaux récents sur la navigation guidée par la vision et la manipulation de robots à partir d'instructions linguistiques. Ces travaux s'appuient sur les transformateurs vision-langage et les étendent en intégrant l'historique des actions et la prédiction des actions. Nos performances sont supérieures à celles de l'état de l'art sur différents bancs d'essai de navigation guidée par la vision et le langage et sur RLBench, un banc d'essai pour la manipulation de robots.

Biographie

Cordelia Schmidt est titulaire d'une maîtrise en informatique de l'université de Karlsruhe et d'un doctorat en informatique de l'Institut national polytechnique de Grenoble (INPG). Sa thèse de doctorat, intitulée "Local Greyvalue Invariants for Image Matching and Retrieval", a reçu le prix de la meilleure thèse de l'INPG en 1996. Elle a reçu le diplôme d'habilitation en 2001 pour sa thèse intitulée "From Image Matching to Learning Visual Models". Le Dr Schmidt a été assistante de recherche post-doctorale au sein du groupe de recherche en robotique de l'Université d'Oxford en 1996--1997. Depuis 1997, elle occupe un poste de recherche permanent à l'Inria, où elle est directrice de recherche. Le Dr Schmidt est membre de l'Académie nationale allemande des sciences, de la Leopoldina et membre de l'IEEE et de la société ELLIS. Elle a reçu le prix Longuet-Higgins en 2006, 2014 et 2016 et le prix Koenderink en 2018, tous deux pour des contributions fondamentales en vision par ordinateur qui ont résisté à l'épreuve du temps. Elle a reçu une bourse avancée de l'ERC en 2013, le prix de recherche Humbolt en 2015, le Grand Prix Inria & Académie des sciences de France en 2016, le prix Milner de la Royal Society en 2020, le prix PAMI distinguished researcher award en 2021 et le prix Körber European Science Price en 2023. Mme Schmid a été rédactrice en chef adjointe de l'IEEE PAMI (2001--2005) et de l'IJCV (2004--2012), rédactrice en chef de l'IJCV (2013--2018), présidente du programme de l'IEEE CVPR 2005 et de l'ECCV 2012, ainsi que présidente générale de l'IEEE CVPR 2015, de l'ECCV 2020 et de l'ICCV 2023. Depuis 2018, elle occupe un poste conjoint avec Google Research.

12h15-13h45 | Pause déjeuner

13h45-14h45 | Keynote III : Rémi Flamary (CMAP)
"Optimal Transport for Machine Learning : 10 years of least effort"

Le transport optimal (OT) est devenu ces dernières années un outil important dans la communauté de l'apprentissage automatique. Cela a été rendu possible grâce à de nouvelles formulations et à des algorithmes d'optimisation tels que la distance de Sinkhorn, proposée il y a 10 ans. Dans cette présentation, nous ferons une brève introduction au transport optimal numérique et à ses algorithmes d'optimisation. Nous discuterons ensuite de deux aspects importants du transport optimal, à savoir la distance de Wasserstein et la correspondance OT entre les distributions. Enfin, nous présenterons les différentes façons dont le transport optimal numérique a été utilisé dans les applications d'apprentissage automatique, qu'il s'agisse de méthodes d'apprentissage supervisé ou non supervisé.

Biographie

Remi Flamary est professeur à l'École Polytechnique au Centre de Mathématiques Appliquées (CMAP) et titulaire d'une Chaire en Intelligence Artificielle de 3IA Côte d'Azur. Il était auparavant MCF à l'Université Côte d'Azur (UCA) et membre du Laboratoire Lagrange de l'Observatoire de la Côte d'Azur. Il a obtenu un diplôme d'ingénieur en génie électrique et une maîtrise en traitement d'images de l'Institut National de Sciences Appliquées de Lyon en 2008, un doctorat de l'Université de Rouen en 2011, et une habilitation à diriger des recherches (HDR) de l'Université Côte d'Azur en 2019. Ses recherches actuelles portent sur le traitement du signal et de l'image, et sur l'apprentissage automatique, avec un intérêt récent pour les applications de la théorie du transport optimal à des problèmes d'apprentissage automatique tels que le traitement des graphes et l'adaptation de domaine.

14h50-15h50 | Keynote IV : Liva Ralaivola (Criteo)

16h-16h15 | Pause café

16h20-17h20 | Session 2 : 2 interventions des participants

Nathan Buskulic (GREYC, Université de Caen) | "Garanties de convergence des réseaux de neurones non supervisés appliqués aux problèmes inverses"

Les réseaux de neurones sont devenus depuis quelques années un outil majeur pour la résolution de problèmes inverses. Cependant, la compréhension théorique de ces modèles reste assez lacunaire. Cette présentation permettra de montrer des garanties théoriques de convergence pour ces réseaux entraînés par flot de gradient. Nous discuterons d'abord d'un premier résultat indiquant que pour n'importe quelle fonction de coût respectant l'inégalité de Kurdyka-Lojasiewicz, l'entraînement d'un réseau sous certaines conditions sur sa Jacobienne produira une solution de coût nul. Puis nous présenterons un second résultat permettant d'obtenir des garanties déterministes sur la reconstruction du signal sous-jacent sous une condition d'injectivité restreinte de l'opérateur. Nous montrerons ensuite comment utiliser la notion de surparamétrisation sur un réseau à deux couches pour contrôler la Jacobienne du réseau de la façon voulue et ainsi obtenir avec grande probabilité les garanties discutées auparavant.

El Mehdi Achour (Université RWTH Aachen) | "The loss landscape of deep linear networks: A second-order analysis"

Nous étudions le paysage d'optimisation du risque empirique des réseaux de neurones linéaires profonds avec la perte des moindres carrées. Il est connu que, sous des hypothèses faibles, il n'y a pas de minimiseurs locaux non-globaux et pas de maximiseurs locaux. Cependant, l'existence et la diversité des points selle non-stricts, qui peuvent jouer un rôle dans la dynamique des algorithmes du premier ordre, n'ont été que peu étudiées. Nous fournissons une analyse complète du paysage d'optimisation à l'ordre 2. Nous caractérisons, parmi tous les points critiques, les minimiseurs globaux, les points-selles stricts et les points-selles non stricts. Nous énumérons toutes les valeurs critiques associées. La caractérisation est simple, elle implique des conditions sur les rangs des produits partiels de matrices, et éclaire la convergence globale ou la régularisation implicite qui ont été prouvées ou observées lors de l'optimisation de réseaux de neurones linéaires. Au passage, nous fournissons une paramétrisation explicite de l'ensemble de tous les minimiseurs globaux et exposons de grands ensembles de points selle stricts et non stricts.

Arnaud Doucet - "From Denoising Diffusion Models to Dynamic Transport Models ; Generative Modeling and Inference"

Cordelia Schmidt - "Multimodal video representations and their extension to visual language navigation"

Rémi Flamary - "Optimal Transport for Machine Learning: 10 years of least effort"

Liva Ralaivola

Workshop | "Fondements Mathématiques de l'IA"

Restez informés !