Systèmes de questions-réponses interactifs à grande échelle - Laboratoire Interdisciplinaire des Sciences du Numérique Accéder directement au contenu
Thèse Année : 2022

Question-answering systems at scale

Systèmes de questions-réponses interactifs à grande échelle

Oralie Cattan
  • Fonction : Auteur
  • PersonId : 1144213

Résumé

Informational search has evolved with our need for immediacy and intuitiveness into a form of natural language querying, no longer solely focused on the use of relevant keywords. The study of these interactions raises major issues in the field of machine understanding with regard to the contextualization of questions. Indeed, questions are rarely asked in isolation. Grouped together, they form a dialogue that is built and structured over the course of the conversation. In the following series of questions: “How much does a hotel room cost in Montreal? », « how to prepare a Basque cake », « what are black bees? », « do they sleep? », the interpretation of some questions depends on the questions and answers previously asked. In this context, designing an interactive question-answering system capable of sustaining a conversation that is not limited to a simple succession of sporadic questions and answers constitutes a challenge in terms of contextual modeling and high-performance computing. The evolution of intensive computing techniques and solutions, the availability of large volumes of raw data (in the case of unsupervised learning) or enriched with linguistic or semantic information (in the case of supervised learning) have allowed machine learning methods to experience significant development, with considerable applications in the industrial sector. Despite their success, these domain and language models, learned from a massive amount of data with a large number of parameters, raise questions of usability and today appear less than optimal, given the new challenges of digital sobriety. In a real business scenario, where systems are developed rapidly and are expected to work robustly for an increasing variety of domains, tasks and languages, fast and efficient learning from a limited number of examples is essential. In this thesis we deepen each of the aforementioned issues and propose approaches based on the knowledge transfer from latent and contextual representations to optimize performance and facilitate a cost-effective large-scale deployment of systems.
La recherche informationnelle a évolué avec notre besoin d'instantanéité et d'intuitivité en une forme d'interrogation en langue naturelle, non plus uniquement axée sur l'utilisation de mots clés pertinents. L'étude de ces interactions soulève des problématiques majeures relevant du champ de la compréhension en ce qui concerne la contextualisation des questions. En effet, les questions sont rarement posées isolément. Regroupées, elles forment un dialogue qui se construit et se structure au fil de l'échange. Dans la série de questions suivantes : « Quel est le prix d'une chambre d'hôtel à Montréal ? », « Comment préparer un gâteau basque », « Que faut-il savoir sur les abeilles noires ? », « Dorment-elles ? », l'interprétation de certaines questions dépend des questions et réponses précédemment posées. Dans ce contexte, concevoir un système de réponse aux questions interactif capable de soutenir une conversation qui ne se résume pas à une simple succession de questions-réponses sporadiques constitue un défi en matière de modélisation et de calcul haute performance. L'évolution des techniques et solutions de calculs intensifs, la disponibilité de grands volumes de données brutes (dans le cas de l'apprentissage non supervisé) ou enrichies avec des informations linguistiques ou sémantiques (dans le cas de l'apprentissage supervisé) ont permis aux méthodes d'apprentissage automatique de connaître des développement important, avec des applications considérables dans le milieu industriel. Malgré leurs succès, ces modèles, de domaine et de langue, appris à partir d'une quantité de données massive avec un nombre de paramètres important font émerger des questions d'utilisabilité et apparaissent aujourd'hui peu optimaux, compte tenu des nouveaux enjeux de sobriété numérique. Dans une entreprise réelle où les systèmes sont développés rapidement et devraient fonctionner de manière robuste pour une variété croissante de domaines, de tâches et de langues, un apprentissage rapide et efficace à partir d'un nombre limité d'exemples est indispensable. Dans cette cette thèse nous approfondissons chacune des problématiques susmentionnées et proposons des approches fondées sur le transfert de connaissances issues de représentations latentes et contextuelles pour optimiser les performances et faciliter le déploiement à grande échelle.
Fichier non déposé

Dates et versions

tel-04551072 , version 1 (18-04-2024)

Identifiants

  • HAL Id : tel-04551072 , version 1

Lien texte intégral

Citer

Oralie Cattan. Systèmes de questions-réponses interactifs à grande échelle. Informatique [cs]. Université Paris-Saclay (2020-..), 2022. Français. ⟨NNT : ⟩. ⟨tel-04551072⟩
0 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More