L’objectif premier de ce lot est de développer divers types de modèles multimodaux afin d’étudier leurs propriétés respectives et de comprendre leurs forces et faiblesses.
Ainsi, dans un premier temps, nous étudions l’utilisation d’une architecture nous permettant de répondre aux contraintes d’encodage et de fonction de coût. En effet, les différentes modalités imposent d’utiliser des encodeurs spécifiques par modalité qui soient capables de produire des encodages indépendants de la modalité. Par ailleurs, ces modalités nécessitent des fonctions de coût différentes, ce qui nous amènera à la réflexion autour d’une fonction de coût unifiée.
Une autre solution envisagée pour l’apprentissage de représentations multimodales, inspirée des approches non-supervisées en traduction neuronale, consiste à encoder une séquence indépendamment de sa modalité pour la reconstruire ou générer d’autres modalités. Chaque modalité aurait ainsi son propre décodeur. Bien que moins performante que la traduction supervisée, cette méthode est étudiée en parallèle de la première, comme alternative.
Au cours du projet, nous veillerons à étudier diverses options afin de réduire le coût environnemental de l’apprentissage de nos modèles. De plus, nous envisageons également de produire des modèles distillés à partir de modèles de grosse taille afin de répondre à des contraintes de calcul en temps réel et mettre à disposition des modèles plus parcimonieux.