Modèles neuronaux de recommandation basés sur les folksonomies

Tahar-Rafik Boudiba

Résumé

The works presented in this thesis are mainly based on folksonomies: a collaborative data structure that emerged with Web 2.0. The increased need for collaborative services to index, classify and retrieve information in various forms, the huge amount of data generated as well as the heterogeneity of the data sources has favored the emergence of processes by which users qualify online contents, notably by associating tags (or descriptors) to them. Such processes produce data that can be modeled by hypergraphs considering tripartite graphs representing folksonomies and constituting the set of tags assigned by users to resources. Since these tags are user-generated, they form a new set of personal data that reflects users' interests and preferences for resources or items on the Web. Tags are used in various information retrieval tasks, specifically in the area of personalized information retrieval and recommendation. For these kinds of tasks, user-specific characteristics are extracted and then processed to enrich folksonomy profiles. These profiles are built using different approaches: vectorial, temporal, or clustering-based. It is in this context that we approached our first contribution, insofar as we were able to implement an unsupervised method for the construction of folksonomy profiles. We found that these profiles, which we represented in the form of evolving interest clusters, were better able to describe users and resources efficiently. They have been successfully implemented in a recommendation process and then evaluated among classical vector profile construction methods. This helped us to better understand the diverse and evolving nature of user interests associated with social annotations. Specifically, by exploiting the normalized degree of user preference propagated by tags. Our works then turned to the study of recent works in representation learning, which exploit neural models to enrich profiling methods with continuous representations of users and items. We found that such models have significantly improved the performance of classical recommendation systems. This led us to consider enriching these neural models by associating user and item representations with lexical embeddings of tags. These tag embeddings that we extracted from pre-trained neural language models allowed us to formalize neural collaborative filtering models. This is the context of our second contribution. After exploiting these representations (embeddings) through different neural architectures, we have highlighted which neural models allow the extraction of more precise characteristics and provide information on the contextual semantics of tags. Finally, the integration of these representations within these neural architectures, also allowed us to address other underlying issues and which are related in particular to the way to effectively include the neighborhood of tag representations in a neural collaborative filtering model for recommendation. In this sense, we have evaluated the accuracy of users' rating predictions from annotation history and then determined which models lead to better performances compared to classical neural collaborative filtering approaches that do not necessarily integrate this type of representation.

Les travaux présentés dans cette thèse s'articulent principalement autour des folksonomies : une structure de données collaborative ayant émergé avec le Web 2.0. Les besoins accrus des services collaboratifs d'indexer de classer et de retrouver l'information sous diverses formes, l'immensité des données engendrées ainsi que l'hétérogénéité des sources de données, ont favorisé l'apparition de processus par lesquels des utilisateurs qualifient des contenus en ligne, notamment, en leur associant des tags (ou descripteurs). De tels processus produisent des données pouvant être modélisées par des hypergraphes en considérant des graphes tripartites représentant les folksonomies et constituant l'ensemble des tags assignés par les utilisateurs à des ressources. Du fait que ces tags soient générés par les utilisateurs, ils forment un nouvel ensemble de données personnelles qui reflètent les intérêts ainsi que les préférences des utilisateurs à l'égard de ressources ou d'items dans le Web. Les tags sont utilisés dans différentes tâches de recherche d'informations, précisément dans le domaine de la recherche d'informations personnalisées et de la recommandation. Pour ce type de tâche, des caractéristiques propres aux usagers sont extraites puis traitées pour enrichir des profils folksonomiques. Ces profils sont construits en exploitant différentes approches : vectorielles, temporelles ou basées sur le clustering. C'est dans ce contexte que nous avons abordé notre première contribution, dans la mesure où nous avons pu mettre en œuvre une méthode non supervisée pour la construction de profils folksonomiques. Nous avons constaté que ces profils que nous avons représentés sous la forme de clusters d'intérêts évolutifs étaient plus aptes à décrire efficacement les utilisateurs et les ressources. Ils ont d'ailleurs été implémentés avec succès dans un processus de recommandation, puis évalués parmi des méthodes de construction de profils vectoriels classiques. Cela nous a aidés à mieux appréhender la nature diverse et évolutive des intérêts de l'utilisateur véhiculés par les annotations sociales. Plus précisément, en exploitant le degré de préférence normalisé de l'utilisateur propagé par les tags. Notre travail s'est ensuite porté sur l'étude des récents travaux en apprentissage de représentations qui exploitent notamment des modèles neuronaux pour enrichir les méthodes de profilage grâce à des représentations continues d'utilisateurs et d'items. En constatant que de tels modèles ont amélioré de manière significative les performances des systèmes de recommandation classique. Cela nous a poussé à envisager d'enrichir ces modèles neuronaux en y associant des représentations d'utilisateurs et d'items intégrant des plongements lexicaux (embeddings en anglais) de tags. Ces embeddings de tags que nous avons extraits à partir de modèles de langues neuronales pré-entraînés nous ont permis de formaliser des modèles de filtrage collaboratif neuronales. C'est dans ce cadre que s'inscrit notre deuxième contribution. Nous avons mis en évidence à l'issue de l'exploitation de ces représentations (embeddings) à travers différentes architectures neuronales, quels étaient les modèles neuronaux permettant l'extraction de caractéristiques plus précises et renseignant sur la sémantique contextuelle des tags. Enfin, l'intégration de ces représentations au sein de ces architectures neuronales, nous a aussi permis d'aborder d'autres problématiques sous-jacentes et qui sont liées notamment au moyen d'inclure efficacement le voisinage des représentations de tags dans un modèle de filtrage collaboratif neuronal pour la recommandation. Dans ce sens, il a été question d'évaluer la précision des prédictions des notes d'utilisateurs à partir d'historique d'activité d'annotation puis de déterminer quels modèles conduisent à de meilleures performances par rapport aux approches neuronales de filtrage collaboratif classiques n'intégrant pas forcément ce type de représentation.

Neural recommendation models based on folksonomies

Modèles neuronaux de recommandation basés sur les folksonomies

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager