Extraction d'informations sur les workflows scientifiques à partir de la littérature - Laboratoire Interdisciplinaire des Sciences du Numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2023

Extraction d'informations sur les workflows scientifiques à partir de la littérature

Résumé

Scientific workflows provide bioinformaticians a mean to represent, exchange and ensure the reproducibility of their analysis pipelines. Workflows are described in literature (text) and/or stored in workflow repositories (code). A major challenge to ensure better workflow reuse is to rebuild the link between the documentation (text) and the workflow code. Based on workflow descriptions found in the full text of articles in English, we propose a method for representing and extracting information about the components of workflows. We present a corpus of 24 articles annotated with a schema made of 16 entities and 10 relations. We use this corpus to train and evaluate statistical models for extracting information about workflows. The results obtained show the feasibility of the task and are a first step towards the integration of workflow information from the literature and workflow repositories.
Les workflows scientifiques offrent aux bioinformaticiens un cadre pour représenter, échanger et assurer la reproductibilité de leurs pipelines d'analyses. Ils sont décrits dans la littérature (texte) et/ou stockés dans des dépôts de workflows (code). Un enjeu majeur pour tendre vers une meilleure réutilisation des workflows par des tiers est de reconstruire le lien entre la documentation (texte) et l'implémentation (code) du workflow. A partir du texte intégral d'articles décrivant des workflows en anglais, nous proposons une méthode de modélisation et d'extraction d'informations des composants des workflows. Nous présentons un corpus de 24 articles annotés à l'aide d'un schéma comportant 16 entités et 10 relations. Nous utilisons ce corpus pour entraîner et évaluer des modèles statistiques d'extraction d'information sur les workflows. Nous montrons la faisabilité de la tâche comme première étape vers l'intégration d'information concernant les workflows issus de la littérature et des dépôts de workflows.
Fichier principal
Vignette du fichier
Sebe_EGC2023_revised.pdf (230.75 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03991363 , version 1 (08-03-2023)

Identifiants

  • HAL Id : hal-03991363 , version 1

Citer

Clémence Sebe, Aurélie Névéol, Sarah Cohen-Boulakia, Alban Gaignard. Extraction d'informations sur les workflows scientifiques à partir de la littérature. 23ème conférence francophone sur l'Extraction et la Gestion des Connaissances (EGC), Jan 2023, Lyon, France. pp.313-320. ⟨hal-03991363⟩
131 Consultations
71 Téléchargements

Partager

Gmail Facebook X LinkedIn More