Hallucination mitigation for faithful retrieval-augmented generation: Investigating layer-contrastive and attention-based decoding methods

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Department

Mcode

Language

en

Pages

84

Series

Abstract

A significant vulnerability in Retrieval-Augmented Generation (RAG) systems is faithfulness hallucinations, where a Large Language Model (LLM) contradicts provided source information. This thesis develops and evaluates a hybrid hallucination mitigation decoding strategy, MAESTRO, which combines the layer-contrastive logic of decoding by Contrasting Layers (DoLa) with the attention-based mechanisms of Over-trust Penalty and Retrospection-Allocation (OPERA). The efficacy of MAESTRO is compared against its constituent methods and baseline decoders within a RAG pipeline across multiple LLMs. Evaluation is conducted on general-domain (TruthfulQA, adapted for RAG with newly synthesised contexts), domain-specific (PubMedQA), and multilingual benchmarks (MigriFAQ, a novel dataset developed from the Finnish Immigration Service's official FAQ) utilising an automated AI judge. The results show that no single decoding method is universally superior. On the general-domain TruthfulQA benchmark, standard beam search achieved the highest accuracy (0.935). MAESTRO demonstrated advantages in more challenging scenarios, improving accuracy by over 6 percentage points on the domain-specific PubMedQA benchmark with a weaker language model. The results indicate a significant trade-off between potential hallucination mitigation and computational cost. Advanced mitigation methods increased latency by up to 4.7 times, making simpler strategies the optimal choice in most practical scenarios.

Merkittävä haavoittuvuus hakuvahvistetussa generoinnissa on lähdeuskollisuushallusinaatiot, joissa suuret kielimallit (LLM:t) ovat ristiriidassa annetun lähdeinformaation kanssa. Tässä tutkielmassa kehitetään ja arvioidaan hallusinaatioiden ehkäisyyn tarkoitettu hybridi dekoodausstrategia, MAESTRO, joka yhdistää Contrasting Layers (DoLa) -dekoodauksen kerroskontrastiivisen logiikan ja Over-trust Penalty and Retrospection-Allocation (OPERA) -menetelmän huomioon pohjautuvat mekanismit. MAESTROn tehokkuutta verrataan sitä muodostaviin menetelmiin ja perusdekoodereihin RAG-prosessiketjussa useilla eri kielimalleilla. Arviointi suoritetaan yleisluontoisilla (TruthfulQA, sovitettu RAG-käyttöön uusilla syntetisoiduilla konteksteilla), alakohtaisilla (PubMedQA) ja monikielisillä vertailuaineistoilla (MigriFAQ, uusi aineisto, joka on kehitetty Maahanmuuttoviraston virallisesta UKK-osiosta) käyttäen automaattista tekoälytuomaria. Tulokset osoittavat, ettei mikään yksittäinen dekoodausmenetelmä ole yleispätevästi paras. Yleisluontoisessa TruthfulQA-vertailuaineistossa standardi sädehaku saavutti korkeimman tarkkuuden (0,935). MAESTRO osoitti etuja haastavammissa tilanteissa, parantaen tarkkuutta yli 6 prosenttiyksiköllä alakohtaisessa PubMedQA-vertailuaineistossa heikomman kielimallin kanssa. Tulokset viittaavat merkittävään kompromissiin mahdollisen hallusinaatioiden ehkäisyn ja laskennallisen kustannuksen välillä. Kehittyneet ehkäisymenetelmät nostivat viivettä jopa 4,7-kertaiseksi, mikä tekee yksinkertaisemmista strategioista optimaalisen valinnan useimmissa käytännön tilanteissa.

Description

Supervisor

Bäckström, Tom

Thesis advisor

Rech, Silas

Other note

Citation