Learning Methods for Safe-against-Uncertainty Control (postdoc)
Learning Methods for Safe-against-Uncertainty Control (postdoc)
- contexte
- L2S, Université Paris-Saclay
- Informations, compétences requises et procédure
- Contexte de l'offre
- Approche scientifique
- Références
Postuler à l'offre
Informations générales
Dr. Riccardo Bonalli - riccardo.bonalli@centralesupelec.fr
Le Laboratoire Signaux et Systèmes (L2S) est une unité mixte de recherche (UMR 8506) du CNRS, de CentraleSupélec et de l'Université Paris-Saclay, créée en 1974. Les recherches du L2S portent sur les mathématiques fondamentales et appliquées en théorie du contrôle, traitement du signal et des images, et théorie de l'information et de la communication.
CentraleSupélec, bât. Bréguet, 3, rue Joliot Curie
91190 Gif-sur-Yvette
France
Le poste proposé consiste en un postdoc de 18 mois, financé par le projet ANR JCJC ROCH du Dr. Riccardo BONALLI.
- CV, lettre de motivation, et déclaration de recherche ;
- Transcriptions des cours avec les notes et les diplômes obtenus, et liste des publications ;
- Coordonnées de trois références académiques ;
- Jusqu'à 3 documents orientés vers la recherche (par exemple, thèse de doctorat, publication dans une conférence/journal).
Le candidat travaillera au L2S (Laboratoire des Signaux et Systèmes) à Gif-sur-Yvette, l'un des principaux laboratoires de systèmes et de contrôle de l'Université Paris-Saclay, sous la supervision conjointe du Dr Brandon AMOS (New York), du Dr Riccardo BONALLI (L2S, Gif-sur-Yvette) et du Dr Alessandro RUDI (SIERRA, Paris). En outre, une période de visite dans le laboratoire du Prof. Marco PAVONE à l'Université de Stanford peut être envisagée pour tester les algorithmes sur des avions libres réalistes. Dans ce dernier cas, le professeur Marco PAVONE assurera la supervision en tant que collaborateur externe.
Le sujet requiert principalement des compétences qui sont souvent associées à un doctorat en apprentissage automatique statistique et/ou en mathématiques (les candidats qui obtiendront leur doctorat avant la date de début du poste seront également pris en considération). Une expertise dans les domaines du contrôle et des équations différentielles stochastiques, ainsi que des compétences de codage en Julia, Matlab ou Python constitueront des atouts précieux. Le sujet proposé conduira à l'acquisition de solides compétences théoriques et numériques en modélisation basée sur l'apprentissage des systèmes de contrôle décrits par des équations différentielles stochastiques. La date de début coïncide avec la première convenance du candidat à partir du 1er février 2023. Le salaire et les avantages sont conformes à la convention ANR française (indication de salaire : 3100-3300 e par mois brut). Une vérification des antécédents du candidat, conformément au HFDS français, voir ce site web, fait partie du processus de recrutement. Pour postuler, veuillez envoyer les documents suivants au Dr. Riccardo Bonalli.
Des réseaux énergétiques aux systèmes spatiaux, les systèmes autonomes (SA) complexes sont devenus omniprésents dans notre société :
[1] Dans ce contexte, la conception de méthodes de plus en plus sophistiquées pour la modélisation des SA est de la plus haute importance, étant donné qu'ils fonctionnent régulièrement dans des circonstances incertaines et dynamiques. Plus précisément, pour atténuer les perturbations incertaines dangereuses et éventuellement catastrophiques pendant le processus de prise de décision, on est amené à infuser de manière fiable des modèles basés sur l'apprentissage (LM) dans le pipeline de contrôle [2].
[2] Les LM offrent de nombreux avantages, notamment des représentations précises de systèmes sophistiqués qui accomplissent des tâches complexes.
[3, 4] Néanmoins, en raison du haut degré d'incertitude dans lequel les SA opèrent, il faut concevoir des LM capables d'offrir des garanties de fiabilité. Par exemple, les chirurgiens robotiques doivent être conscients de manière fiable des perturbations incertaines causées par les chirurgiens humains qui perturbent accidentellement le robot, afin que des manœuvres d'évitement sûres puissent être planifiées en conséquence.
Objectif du post-doc : développer de nouvelles techniques d'apprentissage pour concevoir des LM offrant des garanties de fiabilité pour le contrôle et le déploiement efficaces et sûrs, contre l'incertitude, des AS dans des environnements complexes.
Le candidat poursuivra l'objectif susmentionné en étendant et en combinant les avancées récentes et prometteuses respectivement dans les espaces hilbertiens à noyau reproducteur (RKHS)
[5] et dans l'apprentissage par renforcement basé sur un modèle (MBRL)
[2] qui ont jusqu'à présent été développés indépendamment. D'une part, les RKHS ont été utilisés pour apprendre des densités de probabilité à partir d'échantillons avec de fortes garanties théoriques de représentabilité.
[6] En particulier, des résultats prometteurs ont été obtenus récemment grâce à l'utilisation de cette technique pour la modélisation fiable des équations différentielles stochastiques (EDS).
[7] D'autre part, des techniques récentes d'inégalités matricielles linéaires de dimension infinie et de métriques de contraction de contrôle ont permis de concevoir des LM de contrôle déterministe qui capturent les propriétés théoriques de contrôle inhérentes au système de contrôle à apprendre, par exemple, la contrôlabilité et la stabilité (sous des contrôles appropriés).
[8] Sur la base de ces résultats, la principale direction de recherche du candidat consistera à étendre et à combiner des méthodes prouvables basées sur les RKHS avec des LM basées sur la théorie du contrôle pour apprendre des SDE contrôlés qui capturent des propriétés inhérentes à la théorie du contrôle de la dynamique du SA complexe à apprendre, qui peuvent ensuite être exploitées pour améliorer les stratégies de contrôle.
[1] J. A. Starek et al. Spacecraft Autonomy Challenges for Next-Generation Space Missions. In E. Feron, editor, Adv. in Control System Technology for Aerospace Applications, pages 1–48. Springer, 2016.
[2] B. Recht. A Tour of Reinforcement Learning: The View from Continuous Control. Annual Review of Control, Robotics, and Autonomous Systems, 2:253–279, 2019.
[3] R. S. Sutton, A. G. Barto, and R. J. Williams. Reinforcement Learning is Direct Adaptive Optimal Control. IEEE Control Systems Magazine, 12(2):19–22, 1992.
[4] Assessment, Standards Division Office of Transportation, and Air Quality U.S. Environmental Protection Agency. Cost Reduction through Learning in Manufacturing Industries and in the Manufacture of Mobile Sources. Final Report and Peer Review Report, 2016.
[5] U. Marteau-Ferey, F. Bach, and A. Rudi. Non-parametric Models for Non-negative Functions. arXiv preprint arXiv:2007.03926, 2020.
[6] A. Rudi and C. Ciliberto. PSD Representations for Effective Probability Models. In Advances in Neural Information Processing Systems, pages 19411–19422, 2021. 1New York, USA. Email: bda@meta.com. 2L2S (CNRS) and Université Paris-Saclay, Gif-sur-Yvette, France. Email: riccardo.bonalli@centralesupelec.fr. 3SIERRA (INRIA) and Ecole Normale Supérieure, Paris, France. Email: alessandro.rudi@inria.fr.
[7] R. Bonalli and A. Rudi. Learning Drifts and Diffusions for Reliable Modeling of Stochastic Differential Equations. Work in progress.
[8] S. Singh et al. Learning Stabilizable Nonlinear Dynamics with Contraction-Based Regularization. The Int. Journal of Robotics Research, 40(10–11):1123–1150, 2021.