Diffusion-based Multimodal Video Captioning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Mcode

SCI3044

Language

en

Pages

48+5

Series

Abstract

Video captioning aims to generate high-quality sentences summarizing the content of videos. Currently autoregressive models represent the state-of-the-art architecture in this field. Recently diffusion-based models have demonstrated significant success across various generative tasks. Despite this progress, diffusion-based video captioning has not received widespread attention. This thesis investigates the suitability of diffusion-based models for multimodal video captioning. The thesis delves into various modality fusion methods and different modal combinations to assess their impact. Additionally, it introduces a new modality, generated descriptions, to enhance caption quality. Experiments are conducted on two well-established benchmark datasets, YouCook2 and MSR-VTT, to evaluate the model and fusion methods. The findings indicate that combining all modalities yields the best captions. Visual aspect of the data emerges as the most important modality on both datasets, while the effect of the other modalities varies. The instructional nature of YouCook2 renders the speech modality particularly beneficial, whereas audio improves performance on MSR-VTT. The generated description are more beneficial on MSR-VTT, although their overall utility is limited by hallucinations, such as noise or irrelevant information. Moreover, the effect of fusion methods varies across datasets, highlighting the need for further research to identify domain-agnostic fusion methods. While the quantitative performance of the studied diffusion-based video captioning model does not match that of state-of-the-art approaches, the qualitative results demonstrate its ability to generate coherent sentences. This shows the potential of diffusion-based models in video captioning, paving the way for further exploration and future research in the area.

Videotekstityksen tavoitteena on tuottaa laadukkaita lauseita, joissa tiivistetään videoiden sisältö. Tällä hetkellä autoregressiiviset mallit ovat tehtävään yleisimmin käytetty arkkitehtuuri. Viime aikoina diffuusiopohjaiset mallit ovat saavuttaneet huomattavaa menestystä erilaisissa generatiivisissa tehtävissä. Tästä edistyksestä huolimatta diffuusiopohjainen videotekstitys ei ole saanut laajaa huomiota. Tässä diplomityössä tutkitaan diffuusiopohjaisten mallien soveltuvuutta multimodaaliseen videotekstitykseen. Diplomityössä perehdytään eri modaliteettien yhdistämismenetelmiin ja erilaisiin modaalitettiyhdistelmiin niiden vaikutuksen arvioimiseksi. Lisäksi esitellään uusi modaliteetti, nimeltään generoidut kuvaukset, parantamaan tuotettujen tekstitysten laatua. Mallin ja fuusiomenetelmien arvioimiseksi kokeita tehdään kahdella vakiintuneella vertailuaineistolla, YouCook2:lla ja MSR-VTT:llä. Tulokset osoittavat, että kaikkien modaliteettien yhdistäminen tuottaa parhaat tekstitykset. Visuaalinen tieto osoittautuu tärkeimmäksi modaliteetiksi molemmissa aineistoissa, kun taas muiden modaliteettien vaikutus vaihtelee. YouCook2:n ohjeellinen luonne tekee puheesta erityisen hyödyllisen, kun taas ääni parantaa tuloksia MSR-VTT:ssä. Generoidusta kuvauksista on enemmän hyötyä MSR-VTT:ssä, vaikka hallusinaatiot, kuten kohina tai epäolennainen tieto, rajoittavat niiden hyödyllisyyttä. Lisäksi yhdistämismenetelmien vaikutus vaihtelee aineistojen välillä, mikä korostaa tarvetta jatkotutkimukselle, jonka tavoitteena on löytää yleispäteviä yhdistämismenetelmiä. Vaikka tutkitun diffuusiopohjaisen videotekstitysmallin kvantitatiiviset tulokset eivät vastaa uusimpia lähestymistapoja, kvalitatiiviset tulokset osoittavat sen kyvyn tuottaa johdonmukaisia lauseita. Tämä osoittaa diffuusiopohjaisten mallien potentiaalin videotekstitysten laadinnassa ja avaa tietä jatkotutkimuksille tällä alalla.

Description

Supervisor

Laaksonen, Jorma

Thesis advisor

Guo, Zixin

Other note

Citation