WP4

Notre objectif ne se limite pas à la création de modèles et à leur évaluation. Nous souhaitons également assurer une forte dissémination des éléments qui seront produits tout au long de la vie du projet, notamment auprès de la communauté scientifique en TAL et en sciences humaines. Pour cela nous souhaitons agir sur deux axes complémentaires (Dissémination des briques technologiques développées et Diffusion des savoirs).

Lot 4.1 Dissémination des briques technologiques développées – Afin de favoriser la réutilisation des outils et la reproductibilité des expériences, nous souhaitons définir et adopter des bonnes pratiques internes lors de la conduite du projet, afin que les modèles, les données d’apprentissage et d’évaluation, les codes sources et les éventuelles applications soient facilement déployables et accompagnés des métadonnées nécessaires.

L’ensemble des modèles, données, codes sources et applications seront disponibles en open data / open source. Nous veillerons aussi à ce que les modèles soient distribués sous différents formats permettant leur réutilisation dans des contextes différents. Des ateliers techniques internes et sprint de déploiement croisés seront organisés entre les différents participants pour valider les bonnes pratiques et les adapter aux différents contextes techniques des participants.

Lot 4.2 Diffusion des savoirs – Du côté des sciences humaines, les implémentations de référence des différentes tâches d’évaluation que nous fournirons pourront aisément être utilisées pour traiter d’autres corpus
que ceux sur lesquels nous travaillerons. Nous savons toutefois que l’utilisation d’approches quantitatives impliquant la mise en œuvre d’outils d’analyse automatique de grands corpus n’est pas toujours aisée. Les questionnements méthodologiques et les compétences techniques nécessaires sont les deux principaux obstacles identifiés.

Plusieurs initiatives seront donc prises dans le cadre de ce projet pour démystifier et favoriser la prise en main de ces approches. Des ateliers pratiques seront ainsi organisés. Nous mobiliserons pour cela les infrastructures et les formats d’accompagnement déjà existants et éprouvés à l’Ina (Inathèque et le Lab) et au Crest (école d’été). Enfin un séminaire scientifique viendra conclure nos travaux.

Lot 4.3 Publications scientifiques – Nous viserons les meilleures conférences internationales en particulier celles qui relèvent de l’apprentissage automatique (ICLR, ICML, NeurIPS) et du traitement automatique des langues et de la parole (Interspeech, *ACL, Coling, IEEE ICASSP). Nous viserons également les publications dans les grandes conférences qui ont toutes des sessions dédiées au médical ou les conférences dédiés (AIME, bionlp, clinicalnlp) ainsi que celles sur l’accessibilité (ACM SIGACCESS, ICCHP). Nous viserons également les conférences phares du domaine en francophonie (TALN, JEP) qui nous permettront de toucher plus facilement le monde scientifique et social-économique directement concerné par ces recherches. Le recours a des technologies innovantes, couplées à des données larges, riches et original (le dépôt légal de l’INA) permettront des publications dans des revues internationales de sciences sociales de premier plan.