Le benchmark MEDIA revisité : données, outils et évaluation dans un contexte d'apprentissage profond - Laboratoire Interdisciplinaire des Sciences du Numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

The Spoken Language Understanding MEDIA Benchmark Dataset in the Era of Deep Learning : data updates, training and evaluation tools

Le benchmark MEDIA revisité : données, outils et évaluation dans un contexte d'apprentissage profond

Résumé

With the emergence of neural end-to-end approaches for spoken language understanding, a growing number of studies on speech intent detection have been presented during these last three years and new benchmark datasets have been produced. In this paper, we focus on the French benchmark dataset MEDIA, created in 2005 and distributed freely for academic research by ELRA since 2020. This dataset has been shown as being the most challenging one in its domain but is unfortunately not much used beyond the French research community. To facilitate its use, a complete recipe has been integrated to SpeechBrain, a toolkit based on PyTorch. Corrections were brought to the initial manual annotations. The new version of MEDIA will be distributed by ELRA. We used a significant amount of data collected during the construction of MEDIA and never used until now to create a new corpus called test2. Last, we discuss evaluation issues.
Nous discutons ici du jeu de données françaises de référence MEDIA, créé en 2005 et distribué par ELRA gratuitement pour la recherche académique depuis 2020. Bien que parmi les plus riches et complexes à traiter, ces données sont rarement utilisées au-delà de la communauté scientifique française. Pour en faciliter l'usage dans un contexte d'apprentissage profond, une recette complète a été intégrée à SpeechBrain, une boite à outils logicielle dédiée au traitement de la parole par des approches neuronales, de plus en plus populaire au niveau international. De plus, des corrections ont été apportées aux annotations manuelles, proposées par différents chercheurs ayant régulièrement travaillé sur ces données. Cette nouvelle version du corpus sera intégrée au catalogue de ELRA. Un nouvel ensemble de données jamais utilisées jusqu'à présent, mais collectées durant la création du corpus original, est également décrit. Enfin, nous abordons des considérations liées à l'évaluation de la tâche MEDIA.
Fichier principal
Vignette du fichier
JEP2022_paper_78.pdf (149.06 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03770588 , version 1 (25-01-2024)

Identifiants

  • HAL Id : hal-03770588 , version 1

Citer

Gaëlle Laperrière, Valentin Pelloin, Antoine Caubrière, Salima Mdhaffar, Nathalie Camelin, et al.. Le benchmark MEDIA revisité : données, outils et évaluation dans un contexte d'apprentissage profond. XXXIVe Journées d'Études sur la Parole -- JEP 2022, Jun 2022, île de Noirmoutier, France. ⟨hal-03770588⟩
141 Consultations
9 Téléchargements

Partager

Gmail Facebook X LinkedIn More