Représentations continues dérivées des caractères pour un modèle de langue neuronal à vocabulaire ouvert - Laboratoire Interdisciplinaire des Sciences du Numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Opening the vocabulary of neural language models with character-level word representations

Représentations continues dérivées des caractères pour un modèle de langue neuronal à vocabulaire ouvert

Résumé

This paper introduces an architecture for an open-vocabulary neural language model. Word representations are computed on-the-fly by a convolution network followed by pooling layer. This allows the model to consider any word, in the context or for the prediction. The training objective is derived from the Noise-Contrastive Estimation to adapt it the open vocabulary case. We test the ability of our model to build representations of unknown words on the MT task of IWSLT-2016 from English to Czech, in a reranking setting. Experimental results show a gain up to 0.7 BLEU point. They also emphasize the difficulty and instability when training such models with character-based representations for the predicted words.
Cet article propose une architecture neuronale pour un modèle de langue à vocabulaire ouvert. Les représentations continues des mots sont calculées à la volée à partir des caractères les composant, gràce à une couche convolutionnelle suivie d'une couche de regroupement (pooling). Cela permet au modèle de représenter n'importe quel mot, qu'il fasse partie du contexte ou soit évalué pour la prédiction. La fonction objectif est dérivée de l'estimation contrastive bruitée (Noise Contrastive Estimation, ou NCE), calculable dans notre cas sans vocabulaire. Nous évaluons la capacité de notre modèle à construire des représentations continues de mots inconnus sur la tâche de traduction automatique IWSLT-2016, de l'Anglais vers le Tchèque, en ré-évaluant les N meilleures hypothèses (N-best reranking). Les résultats expérimentaux permettent des gains jusqu'à 0,7 point BLEU. Ils montrent aussi la difficulté d'utiliser des représentations dérivées des caractères pour la prédiction.
Fichier principal
Vignette du fichier
2017.jeptalnrecital-long.3.pdf (322.48 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02912472 , version 1 (05-08-2020)

Identifiants

  • HAL Id : hal-02912472 , version 1

Citer

Matthieu Labeau, Alexandre Allauzen. Représentations continues dérivées des caractères pour un modèle de langue neuronal à vocabulaire ouvert. TALN-RECITAL 2017, Jun 2017, Orléans, France. ⟨hal-02912472⟩
34 Consultations
29 Téléchargements

Partager

Gmail Facebook X LinkedIn More