CLISTER : un corpus pour la similarité sémantique textuelle dans des cas cliniques en français - Information, Langue Ecrite et Signée Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

CLISTER : A Corpus for Semantic Textual Similarity in French Clinical Narratives

CLISTER : un corpus pour la similarité sémantique textuelle dans des cas cliniques en français

Résumé

Natural Language Processing relies on the availability of annotated corpora for training and evaluating models. There are very few resources for semantic similarity in the clinical domain in French. Herein, we introduce a definition of similarity guided by clinical facts and apply it to the development of a new shared corpus of 1,000 sentence pairs manually annotated with similarity scores. We evaluate the corpus through experiments of automatic similarity measurement. We show that a model of sentence embeddings can capture similarity with state of the art performance on the DEFT STS shared task data set (Spearman=0.8343). We also show that CLISTER is complementary to DEFT STS.
Le TAL repose sur la disponibilité de corpus annotés pour l'entraînement et l'évaluation de modèles. Il existe très peu de ressources pour la similarité sémantique dans le domaine clinique en français. Dans cette étude, nous proposons une définition de la similarité guidée par l'analyse clinique et l'appliquons au développement d'un nouveau corpus partagé de 1 000 paires de phrases annotées manuellement en scores de similarité. Nous évaluons ensuite le corpus par des expériences de mesure automatique de similarité. Nous montrons ainsi qu'un modèle de plongements de phrases peut capturer la similarité avec des performances à l'état de l'art sur le corpus DEFT STS (Spearman=0,8343). Nous montrons également que le contenu du corpus CLISTER est complémentaire de celui de DEFT STS.
Fichier principal
Vignette du fichier
CLISTER___TALN_RECITAL_2022_VF.pdf (173.24 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03680571 , version 1 (28-05-2022)

Identifiants

  • HAL Id : hal-03680571 , version 1

Citer

Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. CLISTER : un corpus pour la similarité sémantique textuelle dans des cas cliniques en français. Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France. ⟨hal-03680571⟩
197 Consultations
119 Téléchargements

Partager

Gmail Facebook X LinkedIn More