Détection de scènes remarquables dans un contexte de séries TV

Aman Berhe; Camille Guinaudeau; Claude Barras

Communication Dans Un Congrès Année : 2021

Détection de scènes remarquables dans un contexte de séries TV

(1) , (1, 2) , (3)

1
2
3

Aman Berhe

Fonction : Auteur

Sciences et Technologies des Langues - LISN

Camille Guinaudeau

Fonction : Auteur
PersonId : 20609
IdHAL : camille-guinaudeau
ORCID : 0000-0001-7249-8715
IdRef : 173844340

Sciences et Technologies des Langues - LISN

Laboratoire Interdisciplinaire des Sciences du Numérique

Claude Barras

Fonction : Auteur

Vocapia Research [Orsay]

Résumé

To access a large amount of multimedia data, it is often useful to extract a summary or the most salient element from the collection. In TV series, one way to extract the summary of an episode is to detect the most reportable scenes, i.e. those which make a radical change to the narrative of an episode, before combining them to produce a summary of the episode, the season, or the entire series. The reportable aspect of a scene or, more broadly of a multimedia document, is carried by its different modalities - text, speech and image - in a joint way or not. In addition, a scene can only be defined as reportable in comparison to its surrounding scenes. We present in this article the first results on the combination of the different modalities and the accounting for the context to extract the most reportable scenes of the first two seasons of the Game of Thrones TV series. We show that the use of context and multimodality can improve the detection of most reportable scene.

Pour faciliter l'accès à une large quantité de données multimédia, il est souvent utile d'en extraire un résumé ou l'élément le plus saillant. Dans le cadre des séries télévisées, une manière d'extraire le résumé d'un épisode consiste à détecter les scènes les plus remarquables, c'est-à-dire celles qui apportent un changement radical au récit d'un épisode, avant de les combiner pour produire un résumé de l'épisode, de la saison ou de la série entière. L'aspect remarquable d'une scène ou, plus largement d'un document multimédia, est porté par ses différentes modalités-texte, parole et image-de façon conjointe ou non. Par ailleurs, une scène ne peut se définir comme remarquable qu'en comparaison des scènes qui l'entourent. Nous présentons dans cet article les premiers résultats sur la combinaison des différentes modalités et de la prise en compte du contexte pour extraire les scènes remarquables des deux premières saisons de la série Game of Thrones. Nous montrons que l'utilisation du contexte et de la prise en compte de la multimodalité permettent d'améliorer la détection de scènes remarquables.

Mots clés

Multimodality Salient element detection Most reportable scenes

Multimodalité Détection d’éléments saillant Scènes remarquables

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

main.pdf (182.15 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Camille Guinaudeau : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04445565

Soumis le : jeudi 8 février 2024-02:10:35

Dernière modification le : dimanche 11 février 2024-12:19:51

Dates et versions

hal-04445565 , version 1 (08-02-2024)

Identifiants

HAL Id : hal-04445565 , version 1

Citer

Aman Berhe, Camille Guinaudeau, Claude Barras. Détection de scènes remarquables dans un contexte de séries TV. Conférence en Recherche d'Information et Applications, 2021, Grenoble, France. ⟨hal-04445565⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA CENTRALESUPELEC UNIV-PARIS-SACLAY LISN GS-COMPUTER-SCIENCE

17 Consultations

9 Téléchargements

Détection de scènes remarquables dans un contexte de séries TV

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager