Détection de scènes remarquables dans un contexte de séries TV
Résumé
To access a large amount of multimedia data, it is often useful to extract a summary
or the most salient element from the collection. In TV series, one way to extract the summary
of an episode is to detect the most reportable scenes, i.e. those which make a radical change to
the narrative of an episode, before combining them to produce a summary of the episode, the
season, or the entire series. The reportable aspect of a scene or, more broadly of a multimedia
document, is carried by its different modalities - text, speech and image - in a joint way or not.
In addition, a scene can only be defined as reportable in comparison to its surrounding scenes.
We present in this article the first results on the combination of the different modalities and the
accounting for the context to extract the most reportable scenes of the first two seasons of the
Game of Thrones TV series. We show that the use of context and multimodality can improve the
detection of most reportable scene.
Pour faciliter l'accès à une large quantité de données multimédia, il est souvent utile d'en extraire un résumé ou l'élément le plus saillant. Dans le cadre des séries télévisées, une manière d'extraire le résumé d'un épisode consiste à détecter les scènes les plus remarquables, c'est-à-dire celles qui apportent un changement radical au récit d'un épisode, avant de les combiner pour produire un résumé de l'épisode, de la saison ou de la série entière. L'aspect remarquable d'une scène ou, plus largement d'un document multimédia, est porté par ses différentes modalités-texte, parole et image-de façon conjointe ou non. Par ailleurs, une scène ne peut se définir comme remarquable qu'en comparaison des scènes qui l'entourent. Nous présentons dans cet article les premiers résultats sur la combinaison des différentes modalités et de la prise en compte du contexte pour extraire les scènes remarquables des deux premières saisons de la série Game of Thrones. Nous montrons que l'utilisation du contexte et de la prise en compte de la multimodalité permettent d'améliorer la détection de scènes remarquables.
Origine : Fichiers produits par l'(les) auteur(s)