Extraction dans des textes anciens d'entités nommées de type binômes de la classification linnéenne du vivant : une étude de cas - Laboratoire Interdisciplinaire des Sciences du Numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2023

Extraction dans des textes anciens d'entités nommées de type binômes de la classification linnéenne du vivant : une étude de cas

Résumé

Les binômes linnéens, ou taxons, sont un type d'entités nommées rarement étudié, et pas du tout dans le cadre de l'enrichissement d'archives anciennes. Nous introduisons l'hypothèse du lecteur compétent qui sait reconnaître un taxon, même obsolète ou mal composé. Cette hypothèse est la base des évaluations présentées. Nous comparons plusieurs approches pour la reconnaissance des taxons : dictionnaires, règles, et une forme d'apprentissage par généralisation. Nous montrons que ressembler à du latin est un critère trop peu précis. Enfin, nous montrons que combiné à un critère de rareté, le critère du latin permet une reconnaissance de bonne qualité : une f-mesure d'environ 70 %.
Fichier principal
Vignette du fichier
1002845.pdf (262.46 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-04447919 , version 1 (08-02-2024)

Identifiants

  • HAL Id : hal-04447919 , version 1

Citer

Olivier Ridoux, Clément Morand. Extraction dans des textes anciens d'entités nommées de type binômes de la classification linnéenne du vivant : une étude de cas. Extraction et Gestion des Connaissances (EGC) 2023, 2023, Lyon, France. ⟨hal-04447919⟩
18 Consultations
10 Téléchargements

Partager

Gmail Facebook X LinkedIn More