Un jeu de données pour répondre à des questions visuelles à propos d'entités nommées - Laboratoire Interdisciplinaire des Sciences du Numérique Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2022

Un jeu de données pour répondre à des questions visuelles à propos d'entités nommées

Résumé

In the context of multimodal processing,we focus our work on Knowledge-based Visual Question Answering about named Entities (KVQAE). We provide ViQuAE, a novel dataset of 3,700 questions paired with images, annotated using a semi-automatic method. It is the first KVQAE dataset to cover a wide range of entity types, associated with a knowledge base composed of 1.5M Wikipedia articles paired with images. To set a baseline on the benchmark, we address KVQAE as a three-stage problem: initial Information Retrieval, Re-Ranking, and Reading Comprehension. The experiments empirically demonstrate the difficulty of the task and pave the way towards better multimodal entity representations.
Dans le contexte des approches multimodales, nous nous intéressons à la tâche de réponse à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (KVQAE). Nous mettons à disposition ViQuAE, un nouveau jeu de données de 3 700 questions associées à des images, annoté à l’aide d’une méthode semi-automatique. C’est le premier jeu de données de KVQAE comprenant des types d’entités variés associé à une base de connaissances composée de 1,5 million d’articles Wikipédia, incluant textes et images. Nous proposons également un modèle de référence de KVQAE en trois étapes : recherche d’information initiale, réordonnancement, puis extraction des réponses. Les résultats de nos expériences démontrent empiriquement la difficulté de la tâche et ouvrent la voie à une meilleure représentation multimodale des entités nommées.
Fichier principal
Vignette du fichier
TAL_63_2_1(2).pdf (7.34 Mo) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-04175505 , version 1 (03-08-2023)

Identifiants

  • HAL Id : hal-04175505 , version 1

Citer

Paul Lerner, Salem Messoud, Olivier Ferret, Camille Guinaudeau, Hervé Le Borgne, et al.. Un jeu de données pour répondre à des questions visuelles à propos d'entités nommées. Revue TAL : traitement automatique des langues, 2022, Intermodalité et multimodalité en traitement automatique des langues, 63 (2), pp.15-39. ⟨hal-04175505⟩
72 Consultations
22 Téléchargements

Partager

Gmail Facebook X LinkedIn More