WP2

L’objectif de ce lot est de coordonner la création de modèles multimodaux en réalisant les tâches suivantes : (i) mener une réflexion sur les architectures les plus pertinentes à utiliser/développer, (ii) implémenter et réaliser l’apprentissage des modèles, et (iii) rendre les modèles facilement disponibles pour leurs diffusion.

Lot 2.1 Réflexion sur les architectures neuronales auto-supervisées multimodales – Ce projet vise à créer des modèles multimodaux sans préjuger d’un type de modèle particulier. Au contraire, notre objectif est de développer les différents types de modèles dans une perspective multimodale afin d’étudier leurs propriétés respectives et de mieux comprendre leurs forces et faiblesses dans cette configuration.

QR1 – Quelle que soit l’architecture étudiée, une solution envisagée pour produire des modèles multimodaux est l’adaptation de l’architecture multitâches de (Collobert et al., 2011). Les différentes modalités des données seront considérées comme des tâches différentes dans cette solution. L’adaptation sera faite en étapes, nécessaires pour traiter les modalités dans la même architecture et apprendre des représentations multimodales. Tout d’abord nous allons utiliser un modèle Transformer (Vaswani et al., 2017) au lieu du réseau feed-forward de la solution originelle.

QR2 – L’utilisation de modalités aussi différentes que la parole, le texte et les pictogrammes par le même modèle, imposent l’utilisation d’un encodeur spécifique à chaque modalité, mais capable de produire un encodage indépendant de la modalité. Par ailleurs, texte, parole et pictogrammes nécessitent des fonctions de coût différentes, il serait donc opportun de concevoir une fonction de coût unifiée. Ces deux aspects peuvent être résolus en s’inspirant de Data2Vec (Baevski et al., 2022). En effet, bien que ce modèle ait été entraîné séparément pour différentes modalités, il constitue un excellent candidat pour une adaptation à une architecture multimodale. Non seulement il dispose d’un front-end d’encodage répondant à nos besoins mais il introduit également des unités pour la fonction de coût qui transcendent les modalités, permettant ainsi un apprentissage multimodal. Ces unités sont par ailleurs similaires aux soft-target utilisés pour la distillation de gros modèles (Sanh et al., 2020), ce qui pourra nous faciliter le travail en perspective de la génération de modèles plus petits, distillés des gros modèles, pour satisfaire, par exemple, des contraintes de traitement en temps-réel.

Une autre solution envisagée pour l’apprentissage de représentation multimodales est inspirée d’approches non-supervisées pour la traduction neuronale (Üstün et al., 2021; Artexte et al., 2018). Idéalement, une fois qu’une séquence dans une modalité a été encodée, et ce indépendamment de la modalité, sa représentation peut être utilisée pour reconstruire la séquence elle-même, comme proposé dans (Polyak et al., 2021) dans le cadre de la synthèse vocale, éventuellement après une forme de bruitage comme le masking comme dans l’apprentissage d’auto-encodeurs, mais elle peut être aussi utilisée pour générer n’importe quelle autre modalité. Pour que le modèle puisse apprendre à générer des bonnes séquences dans toutes les modalités, il doit être équipé d’un décodeur pour chacune des modalités envisagées. Cette dernière solution, bien qu’efficace dans la traduction neuronale sur une échelle absolue, mène à des performances moindres par rapport à la traduction supervisée, elle présente donc plus de risques par rapport à la première solution, et nous l’étudierons donc en parallèle comme solution alternative.

Lot 2.2 Apprentissage des modèles (QR3 et QR4) – Afin de réduire le coût environnemental de l’apprentissage des modèles, après une phase d’étude préliminaire visant à valider le bon fonctionnement de nos architectures sur des quantités réduites de données, nous envisageons des modifications permettant d’en réduire le coût en termes de temps et de puissance de calcul. L’ensemble de ces expériences se fera bien entendu en lien avec le comité déontologique (voir lot 0). Les modifications envisagées visent à réduire la complexité des couches d’attention de l’architecture Transformer en les remplaçant par des couches plus efficaces tels que utilisées dans LUNA (Ma et al., 2021), Linformer (Wang et al., 2020) ou par des couches de transformées de Fourier (Lee-Thorp et al., 2022). Comme nous l’avons déjà mentionné, nous envisageons également de produire des modèles distillés à partir de modèles de grosse taille, surtout pour respecter des contraintes de calcul en temps réel sur des dispositifs avec capacités limitées, mais également pour mettre à disposition de la communauté des modèles plus parcimonieux. L’entraînement des modèles a plusieurs objectifs, internes (réponse aux questions de recherches posées par les différents lots) et externes (diffusions et promotions des meilleurs modèles entraînés) au projet. Pour les objectifs internes, nous veillerons à contrôler les conditions d’apprentissage en faisant varier indépendamment certains paramètres cibles de manière à évaluer leur effet sur les tâches d’évaluation et les comportements des modèles. En particulier, nous prévoyons d’étudier les variables cibles suivantes: domaine d’apprentissage (multi-domaines vs modèles spécialisés), taille des modèles, taille des données de préapprentissage, distribution des données d’apprentissage.

Concernant les objectifs externes, les modèles préliminaires nous permettront d’estimer quels facteurs sont les plus importants pour leur entraînement et nous proposerons de réentraîner quelques modèles polyvalents destinés à la diffusion publique, ainsi que des versions distillées de ces modèles.