aalto1 untyped-item.component.html

Knowledge-integrated reasoning for visual question answering

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

60

Series

Abstract

Knowledge-based visual question answering (VQA) requires models to leverage external knowledge beyond the given image to answer the stated question. While large language models (LLMs) can implicitly encode such knowledge, their purely text-based pre-training makes their reasoning ability less suited for visually grounded tasks, and most LLM-based VQA methods still fail to explicitly retrieve relevant information. This thesis introduces Knowledge-Integrated Reasoning for VQA (KIR-VQA), a novel framework that augments prompt-guided caption generation with external knowledge retrieval and integrates these knowledge-guided captions into the LLM's prompt. Moreover, KIR-VQA fine-tunes a pre-trained vision-language transformer for VQA, and leverages its latent answer space for in-context example selection. KIR-VQA ensures that the LLM receives explicit information grounded in both the question and the image, rather than relying solely on its implicit knowledge for the VQA task. Extensive experiments on the OK-VQA and A-OKVQA datasets demonstrate the effectiveness of the KIR-VQA framework, surpassing both open-source and proprietary LLM-based approaches. Beyond evaluating the framework, a detailed component-wise analysis is performed on two baseline models, Simple and Prophet. This analysis assesses the impact of adding or replacing key components, such as introducing question-aware captions instead of generic image captions, incorporating retrieved knowledge into caption generation, and fine-tuning a vision-language transformer for in-context example selection. The findings of this thesis illustrate that utilizing a vision-language transformer to select in-context examples yields notable gains over more conventional modules. Likewise, adding question-aware captions increases accuracy. Although the incorporation of retrieved knowledge offers varying results, the qualitative analysis of KIR-VQA highlights both the advantages and pitfalls of external knowledge retrieval. These outcomes underscore the potential for retrieving external knowledge for caption generation to produce knowledge-rich prompts for LLMs, paving the way for future research in knowledge-based VQA.

Tietopohjainen visuaalisiin kysymyksiin vastaaminen (VKV) edellyttää malleilta kykyä hyödyntää ulkoista tietoa pelkän kuvan lisäksi. Vaikka suuret kielimallit voivat sisältää tällaista tietoa implisiittisesti, niiden puhtaasti tekstipohjainen esikoulutus tekee niiden päättelykyvystä heikommin soveltuvan visuaalisiin tehtäviin. Lisäksi valtaosa suuriin kielimalleihin pohjautuvista VKV-menetelmistä ei kykene eksplisiittiseen tiedonhakuun. Tässä työssä esitellään Knowledge-Integrated Reasoning for VQA (KIR-VQA) -menetelmä, joka sisällyttää haetun tiedon kehotteella ohjattuun kuvatekstien tuottamiseen ja sisällyttää nämä tiedolla rikastetut kuvatekstit suuren kielimallin kehotteeseen. Lisäksi KIR-VQA hienosäätää esikoulutetun Transformer-pohjaisen näkö-kielimallin VKV-tehtävään ja hyödyntää sen piilevää vastausavaruutta kontekstiesimerkkien valinnassa. Tällä tavoin KIR-VQA varmistaa, että suuri kielimalli saa eksplisiittisesti sekä kysymykseen että kuvaan pohjautuvaa tietoa, eikä nojaa pelkästään omaan implisiittiseen tietoonsa. Laajat kokeet OK-VQA ja A-OKVQA datajoukoilla osoittavat, että KIR-VQA-menetelmä ylittää sekä avoimen lähdekoodin että kaupalliset suuriin kielimalleihin pohjautuvat lähestymistavat. Menetelmälle suoritetaan myös komponenttikohtainen analyysi käyttäen Simple- ja Prophet-menetelmiä. Tässä analyysissä tarkastellaan muun muassa kysymystietoisten kuvatekstien käyttöä geneeristen kuvatekstien sijaan, haetun tiedon integrointia kuvatekstien generointiin, sekä näkö-kielimallin hienosäätöä kontekstiesimerkkien valintaa varten. Tulokset osoittavat, että Transformer-pohjaisen näkö-kielimallin hyödyntäminen kontekstiesimerkkien valinnassa parantaa suorituskykyä merkittävästi verrattuna perinteisempiin menetelmiin. Samoin kysymystietoisten kuvatekstien lisääminen parantaa tarkkuutta. Sen sijaan haetun tiedon hyödyntäminen tuottaa vaihtelevia tuloksia, ja KIR-VQA:n laadullinen analyysi tuo esiin sekä ulkoisen tiedonhaun edut että sen haasteet. Nämä havainnot korostavat ulkoisen tiedonhaun hyödyntämisen potentiaalia kuvatekstien tuottamisessa, jotta voidaan tarjota rikastettuja kehotteita suurille kielimalleille. Tämä avaa uusia tutkimussuuntia tietopohjaisessa VKV:ssa.

Description

Supervisor

Laaksonen, Jorma

Thesis advisor

Saif, Abduljalil

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By