CLISTER : un corpus pour la similarité sémantique textuelle dans des cas cliniques en français

Nicolas Hiebel; Olivier Ferret; Karën Fort; Aurélie Névéol

Communication Dans Un Congrès Année : 2022

CLISTER : A Corpus for Semantic Textual Similarity in French Clinical Narratives

CLISTER : un corpus pour la similarité sémantique textuelle dans des cas cliniques en français

(1, 2) , (3) , (4, 5) , (1, 2)

1
2
3
4
5

Nicolas Hiebel

Fonction : Auteur
PersonId : 1144145
IdHAL : nicolas-hiebel
ORCID : 0000-0002-5323-3321

Laboratoire Interdisciplinaire des Sciences du Numérique

Information, Langue Ecrite et Signée

Olivier Ferret

Fonction : Auteur
PersonId : 14770
IdHAL : olivier-ferret
ORCID : 0000-0003-0755-2361
IdRef : 155894498

Département Intelligence Ambiante et Systèmes Interactifs

Karën Fort

Fonction : Auteur
PersonId : 2215
IdHAL : karen-fort
ORCID : 0000-0002-0723-8850
IdRef : 176299548

Semantic Analysis of Natural Language

Sorbonne Université

Aurélie Névéol

Fonction : Auteur

Laboratoire Interdisciplinaire des Sciences du Numérique

Information, Langue Ecrite et Signée

Résumé

Natural Language Processing relies on the availability of annotated corpora for training and evaluating models. There are very few resources for semantic similarity in the clinical domain in French. Herein, we introduce a definition of similarity guided by clinical facts and apply it to the development of a new shared corpus of 1,000 sentence pairs manually annotated with similarity scores. We evaluate the corpus through experiments of automatic similarity measurement. We show that a model of sentence embeddings can capture similarity with state of the art performance on the DEFT STS shared task data set (Spearman=0.8343). We also show that CLISTER is complementary to DEFT STS.

Le TAL repose sur la disponibilité de corpus annotés pour l'entraînement et l'évaluation de modèles. Il existe très peu de ressources pour la similarité sémantique dans le domaine clinique en français. Dans cette étude, nous proposons une définition de la similarité guidée par l'analyse clinique et l'appliquons au développement d'un nouveau corpus partagé de 1 000 paires de phrases annotées manuellement en scores de similarité. Nous évaluons ensuite le corpus par des expériences de mesure automatique de similarité. Nous montrons ainsi qu'un modèle de plongements de phrases peut capturer la similarité avec des performances à l'état de l'art sur le corpus DEFT STS (Spearman=0,8343). Nous montrons également que le contenu du corpus CLISTER est complémentaire de celui de DEFT STS.

Mots clés

Français Semantic Similarity Clinical Text French Corpus Development

Texte clinique Similarité sémantique Français Développement de corpus

Domaines

Traitement du texte et du document

Fichier principal

CLISTER___TALN_RECITAL_2022_VF.pdf (173.24 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Karën Fort : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-03680571

Soumis le : samedi 28 mai 2022-11:46:08

Dernière modification le : mercredi 3 avril 2024-11:14:12

Archivage à long terme le : mardi 30 août 2022-10:27:40

Dates et versions

hal-03680571 , version 1 (28-05-2022)

Identifiants

HAL Id : hal-03680571 , version 1

Citer

Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol. CLISTER : un corpus pour la similarité sémantique textuelle dans des cas cliniques en français. Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France. ⟨hal-03680571⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CEA CNRS INRIA CENTRALESUPELEC DRT UNIV-LORRAINE INRIA2 CEA-UPSAY LORIA LORIA-NLPKD UNIV-PARIS-SACLAY LIST SORBONNE-UNIVERSITE LISN GS-ENGINEERING GS-COMPUTER-SCIENCE GS-SPORT-HUMAN-MOVEMENT LISN-ILES

197 Consultations

119 Téléchargements

CLISTER : A Corpus for Semantic Textual Similarity in French Clinical Narratives

CLISTER : un corpus pour la similarité sémantique textuelle dans des cas cliniques en français

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager