Diffusion-based Multimodal Video Captioning

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2024-06-17
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
48+5
Series
Abstract
Video captioning aims to generate high-quality sentences summarizing the content of videos. Currently autoregressive models represent the state-of-the-art architecture in this field. Recently diffusion-based models have demonstrated significant success across various generative tasks. Despite this progress, diffusion-based video captioning has not received widespread attention. This thesis investigates the suitability of diffusion-based models for multimodal video captioning. The thesis delves into various modality fusion methods and different modal combinations to assess their impact. Additionally, it introduces a new modality, generated descriptions, to enhance caption quality. Experiments are conducted on two well-established benchmark datasets, YouCook2 and MSR-VTT, to evaluate the model and fusion methods. The findings indicate that combining all modalities yields the best captions. Visual aspect of the data emerges as the most important modality on both datasets, while the effect of the other modalities varies. The instructional nature of YouCook2 renders the speech modality particularly beneficial, whereas audio improves performance on MSR-VTT. The generated description are more beneficial on MSR-VTT, although their overall utility is limited by hallucinations, such as noise or irrelevant information. Moreover, the effect of fusion methods varies across datasets, highlighting the need for further research to identify domain-agnostic fusion methods. While the quantitative performance of the studied diffusion-based video captioning model does not match that of state-of-the-art approaches, the qualitative results demonstrate its ability to generate coherent sentences. This shows the potential of diffusion-based models in video captioning, paving the way for further exploration and future research in the area.

Videotekstityksen tavoitteena on tuottaa laadukkaita lauseita, joissa tiivistetään videoiden sisältö. Tällä hetkellä autoregressiiviset mallit ovat tehtävään yleisimmin käytetty arkkitehtuuri. Viime aikoina diffuusiopohjaiset mallit ovat saavuttaneet huomattavaa menestystä erilaisissa generatiivisissa tehtävissä. Tästä edistyksestä huolimatta diffuusiopohjainen videotekstitys ei ole saanut laajaa huomiota. Tässä diplomityössä tutkitaan diffuusiopohjaisten mallien soveltuvuutta multimodaaliseen videotekstitykseen. Diplomityössä perehdytään eri modaliteettien yhdistämismenetelmiin ja erilaisiin modaalitettiyhdistelmiin niiden vaikutuksen arvioimiseksi. Lisäksi esitellään uusi modaliteetti, nimeltään generoidut kuvaukset, parantamaan tuotettujen tekstitysten laatua. Mallin ja fuusiomenetelmien arvioimiseksi kokeita tehdään kahdella vakiintuneella vertailuaineistolla, YouCook2:lla ja MSR-VTT:llä. Tulokset osoittavat, että kaikkien modaliteettien yhdistäminen tuottaa parhaat tekstitykset. Visuaalinen tieto osoittautuu tärkeimmäksi modaliteetiksi molemmissa aineistoissa, kun taas muiden modaliteettien vaikutus vaihtelee. YouCook2:n ohjeellinen luonne tekee puheesta erityisen hyödyllisen, kun taas ääni parantaa tuloksia MSR-VTT:ssä. Generoidusta kuvauksista on enemmän hyötyä MSR-VTT:ssä, vaikka hallusinaatiot, kuten kohina tai epäolennainen tieto, rajoittavat niiden hyödyllisyyttä. Lisäksi yhdistämismenetelmien vaikutus vaihtelee aineistojen välillä, mikä korostaa tarvetta jatkotutkimukselle, jonka tavoitteena on löytää yleispäteviä yhdistämismenetelmiä. Vaikka tutkitun diffuusiopohjaisen videotekstitysmallin kvantitatiiviset tulokset eivät vastaa uusimpia lähestymistapoja, kvalitatiiviset tulokset osoittavat sen kyvyn tuottaa johdonmukaisia lauseita. Tämä osoittaa diffuusiopohjaisten mallien potentiaalin videotekstitysten laadinnassa ja avaa tietä jatkotutkimuksille tällä alalla.
Description
Supervisor
Laaksonen, Jorma
Thesis advisor
Guo, Zixin
Keywords
video captioning, multimodal information, diffusion models, transformers
Other note
Citation