Représentations continues dérivées des caractères pour un modèle de langue neuronal à vocabulaire ouvert

Matthieu Labeau; Alexandre Allauzen

Communication Dans Un Congrès Année : 2017

Opening the vocabulary of neural language models with character-level word representations

Représentations continues dérivées des caractères pour un modèle de langue neuronal à vocabulaire ouvert

(1) , (2)

1
2

Matthieu Labeau

Fonction : Auteur
PersonId : 182144
IdHAL : matthieu-labeau
IdRef : 230828426

Laboratoire Traitement et Communication de l'Information

Alexandre Allauzen

Fonction : Auteur
PersonId : 171266
IdHAL : alexandre-allauzen
IdRef : 078187621

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Résumé

This paper introduces an architecture for an open-vocabulary neural language model. Word representations are computed on-the-fly by a convolution network followed by pooling layer. This allows the model to consider any word, in the context or for the prediction. The training objective is derived from the Noise-Contrastive Estimation to adapt it the open vocabulary case. We test the ability of our model to build representations of unknown words on the MT task of IWSLT-2016 from English to Czech, in a reranking setting. Experimental results show a gain up to 0.7 BLEU point. They also emphasize the difficulty and instability when training such models with character-based representations for the predicted words.

Cet article propose une architecture neuronale pour un modèle de langue à vocabulaire ouvert. Les représentations continues des mots sont calculées à la volée à partir des caractères les composant, gràce à une couche convolutionnelle suivie d'une couche de regroupement (pooling). Cela permet au modèle de représenter n'importe quel mot, qu'il fasse partie du contexte ou soit évalué pour la prédiction. La fonction objectif est dérivée de l'estimation contrastive bruitée (Noise Contrastive Estimation, ou NCE), calculable dans notre cas sans vocabulaire. Nous évaluons la capacité de notre modèle à construire des représentations continues de mots inconnus sur la tâche de traduction automatique IWSLT-2016, de l'Anglais vers le Tchèque, en ré-évaluant les N meilleures hypothèses (N-best reranking). Les résultats expérimentaux permettent des gains jusqu'à 0,7 point BLEU. Ils montrent aussi la difficulté d'utiliser des représentations dérivées des caractères pour la prédiction.

Mots clés

Neural language model Character-based representation Statistical Machine Transla- tion

Modèle de langue neuronal Représentations continues dérivées des caractères Traduction automatique par approche statistique.

Domaines

Informatique [cs] Statistiques [stat]

Fichier principal

2017.jeptalnrecital-long.3.pdf (322.48 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Matthieu Labeau : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02912472

Soumis le : mercredi 5 août 2020-22:20:38

Dernière modification le : samedi 7 octobre 2023-21:36:20

Archivage à long terme le : lundi 30 novembre 2020-15:06:41

Dates et versions

hal-02912472 , version 1 (05-08-2020)

Identifiants

HAL Id : hal-02912472 , version 1

Citer

Matthieu Labeau, Alexandre Allauzen. Représentations continues dérivées des caractères pour un modèle de langue neuronal à vocabulaire ouvert. TALN-RECITAL 2017, Jun 2017, Orléans, France. ⟨hal-02912472⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM CNRS PARISTECH LIMSI UNIV-PARIS-SACLAY SORBONNE-UNIVERSITE LTCI IDS S2A LISN GS-ENGINEERING GS-COMPUTER-SCIENCE

34 Consultations

29 Téléchargements

Opening the vocabulary of neural language models with character-level word representations

Représentations continues dérivées des caractères pour un modèle de langue neuronal à vocabulaire ouvert

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager