Un jeu de données pour répondre à des questions visuelles à propos d'entités nommées

In the context of multimodal processing,we focus our work on Knowledge-based Visual Question Answering about named Entities (KVQAE). We provide ViQuAE, a novel dataset of 3,700 questions paired with images, annotated using a semi-automatic method. It is the first KVQAE dataset to cover a wide range of entity types, associated with a knowledge base composed of 1.5M Wikipedia articles paired with images. To set a baseline on the benchmark, we address KVQAE as a three-stage problem: initial Information Retrieval, Re-Ranking, and Reading Comprehension. The experiments empirically demonstrate the difficulty of the task and pave the way towards better multimodal entity representations.

Dans le contexte des approches multimodales, nous nous intéressons à la tâche de réponse à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (KVQAE). Nous mettons à disposition ViQuAE, un nouveau jeu de données de 3 700 questions associées à des images, annoté à l’aide d’une méthode semi-automatique. C’est le premier jeu de données de KVQAE comprenant des types d’entités variés associé à une base de connaissances composée de 1,5 million d’articles Wikipédia, incluant textes et images. Nous proposons également un modèle de référence de KVQAE en trois étapes : recherche d’information initiale, réordonnancement, puis extraction des réponses. Les résultats de nos expériences démontrent empiriquement la difficulté de la tâche et ouvrent la voie à une meilleure représentation multimodale des entités nommées.

Mots clés

Dataset Knowledge-based Visual Question Answering Multimodality

question-réponse visuelle bases de connaissances multimodalité jeu de données

Domaines

Recherche d'information [cs.IR]

Fichier principal

TAL_63_2_1(2).pdf (7.34 Mo)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Paul Lerner : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04175505

Soumis le : jeudi 3 août 2023-14:40:19

Dernière modification le : mercredi 3 avril 2024-11:14:12

Archivage à long terme le : samedi 4 novembre 2023-18:07:08

Dates et versions

hal-04175505 , version 1 (03-08-2023)

Identifiants

HAL Id : hal-04175505 , version 1

Citer

Paul Lerner, Salem Messoud, Olivier Ferret, Camille Guinaudeau, Hervé Le Borgne, et al.. Un jeu de données pour répondre à des questions visuelles à propos d'entités nommées. Revue TAL : traitement automatique des langues, 2022, Intermodalité et multimodalité en traitement automatique des langues, 63 (2), pp.15-39. ⟨hal-04175505⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CEA UNIV-TLSE2 CNRS INRIA UT1-CAPITOLE CENTRALESUPELEC DRT GENCI CEA-UPSAY UNIV-PARIS-SACLAY LIST IRIT IRIT-IRIS LISN IRIT-GD GS-COMPUTER-SCIENCE GS-SPORT-HUMAN-MOVEMENT TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

72 Consultations

22 Téléchargements