L'Institut DATAIA Paris-Saclay

Bandeau image
L'Institut DATAIA Paris-Saclay
Chapo
L’Institut DATAIA Paris-Saclay est l’institut d'intelligence artificielle de l'Université Paris-Saclay.
Body

Lauréat de l’appel à projets « Instituts Convergences » lancé par l’Agence nationale de la recherche (ANR) en 2017, l’Institut DATAIA a rassemblé les expertises en intelligence artificielle (IA) de l’écosystème de Paris-Saclay afin de renforcer la collaboration interdisciplinaire des établissements en science des données et en IA. En janvier 2021, l'Institut a recentré ses activités sur le pôle d’excellence de l’Université Paris-Saclay en devenant porteur de la stratégie de l'Université en intelligence artificielle, recherche et formation.

 

Premier écosystème français en intelligence artificielle, DATAIA a pour objectif de fédérer et de structurer des expertises pluridisciplinaires pour développer une recherche de pointe en sciences des données en lien avec d'autres disciplines, comme les sciences humaines et sociales. Il mobilise désormais plus de 1 000 chercheurs et enseignants-chercheurs issus de 46 laboratoires (dont 15% à l'international) du périmètre de l’Université Paris-Saclay.

Label Résumé
Résumé d'activités
Label Video
L'Institut en vidéo
Video youtube
Université Texte

L'Université Paris-Saclay

L’Université Paris-Saclay regroupe dix composantes universitaires, quatre grandes écoles, l’Institut des Hautes Etudes Scientifiques, deux universités membres associées et des laboratoires partagés avec de grands organismes de recherche. Elle offre aux étudiants des formations prestigieuses permettant d’accéder à un emploi et de valoriser leurs connaissances dans des secteurs scientifiques et économiques variés. L'Université Paris-Saclay et ses membres se distinguent sur un grand nombre de disciplines propulsant l’université à la 1ère place des universités françaises dans 12 domaines, à la 1ère place en Europe dans le domaine de la physique et à la 1ère place au monde en Mathématiques, et à la 14e place mondiale toutes disciplines confondues.

Université Photo
Université Photo
Les objectifs

Les objectifs

L'objectif de l'Institut DATAIA Paris-Saclay est de rassembler des compétences pluridisciplinaires et de dynamiser la puissance des partenaires académiques et industriels du périmètre de Paris-Saclay pour développer des recherches disruptives en IA, sciences des données et leurs impacts sociétaux.

  1. Développer une recherche de pointe en science des données : faire progresser de manière concertée l’état de l’art en sciences des données préparant l’émergence des services d’intelligence artificielle innovants (des algorithmes aux preuves de concepts), et la jonction des sciences humaines et de la révolution numérique. L’Institut DATAIA doit permettre aux différentes disciplines concernées de s’emparer d’une question en prenant en compte l’ensemble de ses dimensions et impacts ;

  2. Promouvoir des formations d'excellence : développer et promouvoir des formations d’excellence en soutenant des programmes innovants au niveau de master et doctorat, et en s'activant dans l'animation scientifique, pour la formation de la prochaine génération des data scientists.

  3. Booster les relations entre le monde académique et industriel : renforcer le dialogue entre la communauté académique et la communauté industrielle et consolider la visibilité internationale et l’expertise de la communauté de science des données de Saclay notamment par l’accueil de personnalités scientifiques majeures.

  4. Regrouper des expertises pluridisciplinaires : rassembler des compétences de recherche diversifiées visant à produire des savoirs nouveaux par la mobilisation conjointe de différentes compétences disciplinaires. L’Université Paris-Saclay réunit des experts du meilleur niveau international dans les diverses disciplines : mathématiques, sciences informatiques, physique, sciences de la vie, économie et gestion, sciences humaines et sociales. Cette richesse disciplinaire constitue une opportunité sans égale en France couvrant tout le spectre des sciences des données et de l’intelligence artificielle ainsi que les enjeux sociétaux.

Contenu
Nom de l'accordéon
Apprentissage et intelligence artificielle
Texte dans l'accordéon

Récemment, la recherche en apprentissage profond a réalisé des avancées spectaculaires en vision par ordinateur et en traitement du langage naturel. Au-delà de l'arrivée des données massives, de l'accroissement de la puissance de calcul et des efforts de conception, les causes de ces progrès, encore mal connues, soulèvent au moins trois questions : quelle théorie de l'apprentissage permettra d'analyser les architectures profondes ? Comment gérer la compositionnalité de ces architectures et leur capacité à appréhender des objets plus complexes ? Comment ouvrir la boîte noire pour mettre à jour les représentations apprises ?

Challenges

  • Apprentissage automatique innovant et IA : sens commun, adaptabilité, généralisation ;

  • Apprentissage profond et apprentissage adversarial ;

  • Apprentissage automatique et hyper-optimisation ;

  • Optimisation pour l’apprentissage, e.g. améliorations des méthodes de gradient stochastiques, optimisation Bayésienne), optimisation combinatoire ;

  • Lien apprentissage-modélisation, intégration d’à priori dans l’apprentissage ;

  • Reproductibilité et apprentissage robuste ;

  • Inférence statistique et validation ;

  • Compositionnalité des architectures profondes.

Nom de l'accordéon
Des données aux connaissances, des données à la décision
Texte dans l'accordéon

La disponibilité croissante de données massives repousse les frontières techniques dans de nombreux champs. D'une part, la nature hétérogène, semi-structurée, incomplète ou incertaine des données remet en cause les modèles statistiques usuels ainsi que les algorithmes dédiés à la décision. D'autre part, la gestion des données soulève de nouvelles contraintes d'opérabilité telles que la sécurité, l'intégrité et la traçabilité. En outre, produire de la connaissance nécessite de construire des modèles qui fournissent des décisions explicables, statistiquement valides et calculables. L'acceptation des résultats requiert aussi que la confidentialité et la loyauté soient renforcées. En parallèle, de nouveaux développements en optimisation doivent permettre d'améliorer les procédures d’estimation.

Challenges

  • Données hétérogènes, complexes, incomplètes, semi-structurées et/ou incertaines ;

  • Fast big data : structuration de la donnée pour pouvoir l’exploiter ;

  • Apprentissage en ligne, méthodologie pour les données massives, méthodes efficientes ;

  • Amélioration du stockage, calcul et estimation pour la science des données ;

  • Modélisation des interactions entre agents (humains ou artificiels) par théorie des jeux ;

  • Représentation et algorithmes multi-échelle et multimodaux ;

  • Analyse théorique de méthodes heuristiques (théorie de la complexité, géométrie de l’information, théorie des chaînes de Markov) ;

  • Coévolution Humain-Machine dans les systèmes autonomes : agents conversationnels, voitures, robots sociaux.

Nom de l'accordéon
Transparence, IA responsable et éthique
Texte dans l'accordéon

La confiance numérique s'instaure à partir de l'implantation de méthodologies éthiquement responsables à travers la transparence et la redevabilité des systèmes algorithmiques ; de la régulation de la collecte, de l'usage et du traitement de données personnelles ; du renforcement de la régulation au travers de procédures numériques appropriées. La confidentialité par conception est une forme de régulation qui inclut la protection des données personnelles dans toutes les étapes de la collecte et du traitement. Le traçage des outils appliqués aux données doit également être développé de manière à faciliter l'explication du modèle pour les experts comme pour les utilisateurs rendant les systèmes algorithmiques auditables. Les principes de confidentialité, bien que faciles à formuler, nécessitent de modifier les infrastructures de stockage et de traitement, avec d'importants impacts législatifs, sociologiques et économiques. Les techniques de transparence des systèmes algorithmiques seront développés en focalisant sur : l'équité, la loyauté et la non-discrimination et la redevabilité-par-construction.

Challenges

  • Responsabilité-by-design, Explicabilité-by-design ;

  • Transparence-by-design, équité-by-design ;

  • Audit des systèmes algorithmiques : non-discrimination , loyauté, biais techniques, neutralité, équité ;

  • Mesure de la confiance et de l’appropriation du numérique ;

  • « Progressive user-centric-analytics » (monitoring interactif des systèmes de décisions : dataviz dashboards, IHM) ;

  • Responsabilité du traitement de l’information et de la prise de décision : contrôle d’usage des données et fact-checking ;

  • Découverte causale, traçabilité des inférences à partir des données sources, interprétabilité des architectures profondes.

Nom de l'accordéon
Protection, régulation et économie de la donnée
Texte dans l'accordéon

Les entreprises impliquées dans l'économie de la donnée ont continuellement besoin de repenser leur structuration : elles doivent adopter une organisation orientée-projet avec des changements rapides dans l'allocation de ressources. L'économie de la donnée soulève aussi des problèmes de concentration et de monopole. Un petit nombre d'entreprises (GAFAM) détiennent la plupart des données. Cette concentration de marché peut conduire à une compétition déloyale dont l'innovation dans les petites et moyennes entreprises risque de pâtir. Les citoyens attendent des gouvernements qu'ils interviennent dans l'économie digitale pour éviter trop de concentration et de monopole. Les gouvernements doivent empêcher la fuite des informations pour préserver la souveraineté des états et le respect des régulations.   

Challenges

  • Privacy-by-design, RGPD ;

  • Apprentissage respectueux de la vie privée (differential privacy) ;

  • Développement de méthodologies éthiquement responsables, et de technologies pour réguler la collection, l’usage et le traitement des données personnelles, et l’exploitation des connaissances tirées de ces données ;

  • Sécurité informatique des chaînes de traitement de données ;

  • Sécurité/crypto : block-chain et tiers de confiance.