L’évaluation des modèles causaux est réalisée via la mesure de perplexité, tandis que l’apprentissage par transfert, où un modèle de langue est utilisé au sein d’un réseau pour une tâche en aval, permet des évaluations indirectes en fonction de la ou des modalités et du domaine (général, médical, actualités…).
Nous utilisons des référentiels d’évaluations existants comme FLUE (pour la classification de textes, détection de paraphrase, inférence, désambiguisation lexicale, analyse syntaxique, étiquetage morpho-syntaxique) et LeBenchmark (spoken Language Understanding, reconnaissance automatique de la parole, analyse syntaxique de la parole), et prévoyons de créer de nouveaux jeux d’évaluation pour les tâches sur les contenus audiovisuels (classification de sujets de journaux télévisés, détection d’évènements médiatiques, l’extraction de citation) et les analyses de discours et débats politiques (détection d’émotions, de positions (“stances”) vis-à-vis d’un sujet).
Dans le domaine médical, un effort particulier sera dédié à la mise en commun d’un ensemble de tâches sur lesquelles les partenaires sont impliqués dans le cadre de DrBert et Flaubert Médical (entités nommées biomédicales, traitement de la voix pathologique, parole vers pictogrammes, prédiction de trajectoires patients…).
Des tâches de génération de textes comme le résumé automatique et la simplification de l’écrit/parole seront également incluses. L’évaluation de la multimodalité des modèles se fera via des tâches nécessitant des informations multimodales, comme la segmentation en sujets de journaux télévisés qui peut se reposer sur les indices prosodiques de l’audio et sémantiques capturables via la transcription.
Nous évaluerons les “connaissances” linguistiques et factuelles encapsulées dans les modèles, en particulier en ce qui concerne le traitement de la négation et la capacité des modèles à exploiter de longs contextes. Les modèles seront également évalués sur leur capacité à utiliser des connaissances du monde à travers le jeu de données Winograd français.
Enfin, nous mesurerons les biais de nos modèles de langue, i.e. les différences systèmatiques de comportement de ces modèles en fonction de caractéristiques démographiques des personnes mentionnées en entrée et/ou en sortie. Nous chercherons également à estimer s’il y a diminution ou amplification des biais par rapport aux corpus d’apprentissage, de manière à pouvoir mieux appréhender l’utilisabilité de nos modèles pour des recherches en sciences sociales.