WP3

Ce lot vise à structurer l’évaluation de modèles de langue, aussi bien pour les MdL créés par le projet que des modèles pré-existants, en ciblant le français. Techniquement, ces évaluations seront compatibles pour les modèles de langue masqués (à la BERT) et les modèles causaux (à la GPT). Nous rassemblerons des données d’évaluation déjà existantes, et en créerons de nouvelles, en particulier pour des tâches à visée sociologique pour l’écrit/l’oral (ex : détection d’émotions, détection de position sur un sujet…) ou des tâches à visées médicales (parole pathologique, détection de l’addiction dans les réseaux sociaux…).

Lot 3.1 Évaluation orientée tâche des modèles de langue (QR 1 à 4) – Une évaluation directe des modèles causaux sera obtenue avec la mesure classique de perplexité. L’apprentissage par transfert, où un MdL est utilisé au sein d’un réseau pour une tâche aval, permettra des évaluations indirectes, déclinées en fonction de la ou les modalités et du domaine (général / médical / news…). Ce type d’évaluation permettra de répondre aux questions de recherche empiriques citées supra (architecture, multimodalité, taille, distillation etc…).

Nous nous appuierons d’une part sur des référentiels d’évaluation déjà existants et utilisés pour nos autres projets, en particulier les données FLUE (pour la classification de textes, détection de paraphrase, inférence, désambiguisation lexicale, analyse syntaxique, étiquetage morpho-syntaxique) et LeBenchmark (spoken Language Understanding, reconnaissance automatique de la parole, analyse syntaxique de la parole). D’autre part, nous créerons de nouveaux jeux d’évaluation, en particulier pour des tâches sur des contenus audiovisuels
(classification de sujets de journaux télévisés, détection d’évènements médiatiques, l’extraction de citation), ainsi que sur l’analyse de discours et débats politiques (détection d’émotions, de positions (“stances”) vis-à-vis d’un sujet).

Dans le domaine médical, un effort particulier sera dédié à la mise en commun d’un ensemble de tâche sur lesquelles les partenaires sont impliqués dans le cadre de DrBert et Flaubert Médical (entités nommées biomédicales, traitement de la voix pathologique, parole vers pictogrammes, prédiction de trajectoires patients…).

L’évaluation des modèles causaux sera complétée par des tâches de type génération de textes, telles que le résumé automatique ou la simplification de l’écrit ou de la parole. Nous comptons également adapter des tâches aval de TAL classiques (analyse syntaxique, résolution de coréférence) en les traitant de manière incrémentale, i.e. avec un regard en avant de taille faible et bornée. L’incrémentalité est importante pour des systèmes interactifs en temps réel (qui commenceraient à traiter leur entrée avant qu’une phrase complète soit disponible).

L’intérêt de la multimodalité des modèles sera évalué, en particulier avec des tâches requérant des informations multimodales. On vise par exemple une tâche de segmentation en sujets de journaux télévisés (Ismail et Troncy, 2021), où les informations de prosodie dans le flux audio pourront être mobilisées en plus d’informations sémantiques dans l’audio retranscrit.

Lot 3.2 Évaluation de l’adéquation au comportement attendu d’après la modélisation linguistique (QR1) – Cette partie s’inscrit à la suite d’une littérature très abondante sur l’étude des “connaissances”, linguistiques ou factuelles, encapsulées dans les MdL (cf. entre autres Rogers et al., 2020). Dans ce domaine, nous prévoyons de définir une nouvelle tâche d’évaluation du traitement de la négation, en améliorant les propositions de Gubelmann et Handschuh (2022). Nous prévoyons également d’adapter au français le jeu de données Lambada (Paperno et al., 2016), qui permet d’évaluer les capacités d’un modèle à exploiter de longs contextes pour compléter un texte de manière cohérente, et plus généralement la capacité à modéliser des textes longs et à mobiliser les informations disséminées dans le contexte le moment venu.

Enfin, nous souhaitons évaluer les modèles de langues causaux sur leur capacité à mobiliser des connaissances du monde, une compétence que les locuteur·ices utilisent intuitivement mais qui posent toujours des difficultés pour les systèmes de TAL. Pour cela nous utiliserons le jeu de données Winograd français (Amsili et Seminck, 2017), pour lesquelles un modèle doit répondre à une question dont la réponse nécessite d’avoir des connaissances du monde et de faire des inférences de sens commun.

Lot 3.3. Évaluation des biais (QR5) – Un troisième type d’évaluation ou mesure concerne les “biais démographiques” dans les prédictions des MdL et des modèles aval qui les utilisent : de tels biais apparaissent quand les prédictions liées à des variables démographiques (genre, origine géographique, âge, religion…) suivent une distribution différente d’une distribution “idéale”, définie par Shah et al. (2020) soit comme la distribution réelle, en général inconnue, ou une distribution idéalisée (par exemple qui masquerait les déséquilibres de genre connus pour certaines professions), fondée sur des considérations éthiques, mais sur laquelle se mettre d’accord est illusoire. Une abondante littérature sur le sujet nous indique que de tels biais ne manqueront pas d’apparaître dans les prédictions de mots de nos MdL, voire amplifieront les biais existant dans les données d’entrée (Shah et al., 2020). D’autre part en aval, ils peuvent avoir un impact sur les modèles appris par transfert, avec de possibles variations de qualité dans les annotateurs automatiques, selon certaines caractéristiques démographiques : par exemple, une extraction de citation pourrait être de moins bonne qualité selon le genre de l’auteur·ice de la citation, ou bien une tâche d’analyse de sentiment pourrait moins bien fonctionner sur des entrées orales avec tel ou tel accent.