Dans les cadres de FlauBERT, LeBenchmark et Propicto, une étude intensive des données disponibles pour les écrits, les paroles et les pictogrammes a été réalisée. Ces données permettent d’identifier le genre et le domaine des textes, des audios et des pictogrammes, ainsi que le genre des locuteurs. Ces informations sont utilisées pour sélectionner différentes versions des données d’entraînement, en variant les ratios de genre des auteurs afin d’éviter d’amplifier les biais sociaux et d’étudier l’impact sur les modèles et les tâches en aval (WP3).
Le WP1 consiste à collecter des données multimodales synchronisées afin d’assurer la cohérence de l’espace latent conjoint et évaluer la cohérence des inférences. Étant donné la disponibilité limitée de telles données, nous effectuerons également des conversions entre modes de données (par exemple, audio en texte, texte en pictogrammes) pour augmenter le volume de données et évaluer la valeur de chaque modalité.
Objectifs:
Collecter, filtrer et préparer des données de préentraînement unimodales et multimodales, en garantissant une taille suffisante, une documentation complète, la diffusabilité des données, et en minimisant les biais nuisibles. Les données d’évaluation sont exclues du préentraînement pour éviter toute contamination.
Développer des techniques pour générer des données parallèles. Par exemple, nous compléterons 14 000 heures de signaux audio avec des transcriptions, utiliserons la synthèse vocale pour augmenter les corpus de parole, et explorerons l’utilisation de modèles génératifs d’images pour élargir le corpus de pictogrammes.
Fournir aux WP2 et WP4 des corpus prétraités selon les formats définis dans le WP2.