WP1

Dans les cadres respectivement de FlauBERT, LeBenchmark et Propicto, une étude intensive des données disponibles pour l’écrit, pour l’oral et pour les pictogrammes a déjà été réalisée. Les informations récoltées permettent d’identifier le genre textuel et le domaine des données écrites, audio et pictographiques ou bien encore le genre des locuteurs et locutrices. En collaboration avec le comité déontologique, ces informations seront utilisées pour sélectionner différentes versions de données d’entraînement, par exemple en faisant varier les ratios du genre de l’auteur·ice. Cela permettra d’une part d’éviter d’amplifier ou déformer les biais et stéréotypes qui existent dans la société et donc dans les productions langagières, et d’autre part d’étudier en aval l’impact sur les modèles résultants, et l’impact de modèles biaisés sur des tâches aval (lot 3).

Au-delà de la collecte de ressources d’apprentissage et d’évaluation isolée, l’apprentissage d’un modèle multimodal nécessite des données multimodales synchronisées que l’on appellera abusivement corpus parallèles (emprunt au domaine de la traduction). Bien que des modèles multimodaux puissent être appris à partir de données multimodales, ces corpus parallèles dans l’apprentissage assurent une cohérence de l’espace latent joint et peuvent également être utilisés en évaluation pour étudier la cohérence des inférences.

Ce Lot 1 consistera à collecter des données multimodales synchronisées. La pratique montre que ces données sont en nombre très restreint. C’est pourquoi le lot s’intéressera également à effectuer des conversions entre différents modes de données (par exemple, de l’audio vers du texte, du texte vers de l’audio, du texte vers des pictogrammes, etc.) afin d’augmenter le volume des données et d’évaluer la valeur ajoutée de chaque modalité.

Lot 1.1 Collecte de données unimodales et multimodales (QR2) – La première sous-tâche de ce lot consistera en la collecte, le filtrage et la préparation de données de préentraînement unimodales et multimodales.
La constitution du corpus visera à satisfaire plusieurs objectifs :

Lot 1.2 Génération de données multimodales (QR4) – Obtenir des données parallèles sur trois modalités étant très difficile, le projet mettra en place des techniques de génération ou de traitement de données pour obtenir des données parallèles. Concernant les transcriptions à partir de données audio, nous examinerons, par exemple, plusieurs méthodes pour réaliser une transcription en utilisant des systèmes de transcription automatique internes. Par exemple, dans le cadre du projet LeBenchmark, une partie des 14 000 heures de signaux oraux doit être complétée avec des transcriptions. Concernant les ressources textuelles, il a été montré qu’il est possible d’utiliser la synthèse vocale pour augmenter un corpus de parole (Kocabiyikoglu et al, 2018; Desot et al, 2022) afin d’apprendre des modèles de traitement automatique de la parole. Enfin, concernant les pictogrammes, le consortium dispose déjà de 14k gloses annotées et d’outils permettant de transcrire vers les pictogrammes. Une piste de recherche parallèle concernant cette partie sera d’estimer comment certains modèles génératif d’image pourraient être utilisés pour amplifier le corpus de pictogrammes.

Lot 1.3 Prétraitement des données – Cette sous-tâche concernera la fourniture aux Lots 2 et 4 des corpus prétraités suivant les formats définis dans le Lot 2.