Data-free Generation of Molecular Configurations with Normalizing Flows - Laboratoire Interdisciplinaire des Sciences du Numérique Accéder directement au contenu
Thèse Année : 2022

Data-free Generation of Molecular Configurations with Normalizing Flows

Génération de configurations moléculaires avec des flux normalisants sans données

Loris Felardos
  • Fonction : Auteur
  • PersonId : 1232743
  • IdRef : 268215537

Résumé

Generating a Boltzmann distribution in high dimension has recently been achieved with Normalizing Flows, which enable fast and exact computation of the generated density (and thus unbiased estimation of expectations of interest). However, current implementations rely on training data, which typically comes from computationally expensive simulations. There is therefore a clear incentive to train models in a data-free setting by only relying on the target density, which can be obtained from a physical energy model (up to a constant factor).In this work, we start by analyzing the properties of the only data-free loss used in the literature and expose its limitations. It is based on a Kullback-Leibler divergence and shows a strong propensity for mode collapse during optimization on high-dimensional distributions. We then propose multiple guidelines to alleviate the issue and demonstrate the disproportionate impact that flat degrees of freedom in the target distribution may have on the quality of convergence. Another KL loss, which we make data-free, solves the collapse problem but is still brittle since it relies on numerically unstable importance sampling weights.We then introduce a new loss function, well-grounded in theory and with suitable optimization properties (including a low computational cost and the absence of importance sampling weights). Using as a benchmark the generation of 3D molecular configurations, we show on several tasks that, for the first time, imperfect pre-trained models can be further optimized in the absence of training data. This work is a fundamental step towards complete trainings that could be 100% data-free and we discuss the remaining conditions for how to achieve that.
La génération d'une distribution de Boltzmann en grande dimension a été récemment réalisée avec des flots normalisants, qui permettent un calcul rapide et exact de la densité générée (et donc une estimation non biaisée de moyennes d'intérêt). Cependant, les implémentations actuelles reposent sur des données d'entraînement, qui proviennent généralement de simulations coûteuses en calcul. Il y a donc une motivation claire à entraîner des modèles sans données en ne s'appuyant que sur la densité cible, qui peut être obtenue à partir d'un modèle d'énergie physique (à un facteur constant près).Dans ce travail, nous commençons par analyser les propriétés de la seule fonction de coût sans données utilisée dans la littérature et exposons ses limites. Celle-ci est basée sur une divergence de Kullback-Leibler (KL) et montre une forte propension à l'effondrement des modes lors de l'optimisation sur des distributions de grande dimension. Nous proposons ensuite plusieurs lignes directrices pour atténuer le problème et démontrer l'impact disproportionné que les degrés de liberté plats dans la distribution cible peuvent avoir sur la qualité de la convergence. Une autre fonction de coût basée sur la KL, que nous rendons sans données, résout le problème d'effondrement mais reste fragile car elle repose sur des poids d'échantillonnage d'importance numériquement instables.Nous introduisons ensuite une nouvelle fonction de coût, bien justifiée par la théorie et avec de bonnes propriétés d'optimisation (y compris un faible coût de calcul et l'absence de poids d'échantillonnage importants). En utilisant comme référence la génération de configurations moléculaires en 3D, nous montrons sur plusieurs tâches que, pour la première fois, des modèles pré-entraînés imparfaits peuvent être optimisés plus longtemps (raffinés) en l'absence de données d'apprentissage. Ce travail est une étape fondamentale vers des entraînements complets qui pourraient être 100% sans données et nous discutons des conditions restantes pour y parvenir.
Fichier principal
Vignette du fichier
FELARDOS_SAINT_JEAN_2022_archivage.pdf (6.49 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04010123 , version 1 (01-03-2023)

Identifiants

  • HAL Id : tel-04010123 , version 1

Citer

Loris Felardos. Data-free Generation of Molecular Configurations with Normalizing Flows. Machine Learning [cs.LG]. Université Grenoble Alpes [2020-..], 2022. English. ⟨NNT : 2022GRALM026⟩. ⟨tel-04010123⟩
131 Consultations
36 Téléchargements

Partager

Gmail Facebook X LinkedIn More