Improving retrieval-augmented generation with LLM-as-a-judge evaluation

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

88

Series

Abstract

This thesis investigates how retrieval-augmented generation (RAG) pipelines can be systematically optimized and evaluated. RAG combines large language models (LLMs) with external retrieval systems, enabling them to access new information beyond their training data. This approach improves factual accuracy, reduces hallucinations, and allows LLMs to remain useful in fast-evolving domains. The study presents a step-by-step optimization of key retrieval components, including document parsing and chunking, embedding selection, hybrid search, query optimization, and reranking, and evaluates their effects using Ragas, an automated LLM-as-a-judge framework. Experiments were conducted on a corpus of machine learning research papers, representing a knowledge-intensive and rapidly changing field. Iterative optimization led to substantial gains in retrieval quality, with context precision and recall increasing from 0.811 and 0.725 to 0.949 and 0.933, respectively. Among all components, the chunking strategy had the largest impact: larger chunks performed best, while overlap offered no clear benefit. Hybrid search consistently outperformed both semantic and keyword approaches. Among reranking techniques, only the LLM-based listwise method improved retrieval performance, whereas query optimization did not lead to measurable gains. The study also compares open-source and proprietary embedding models and LLMs and examines how well leaderboard rankings predict real-world RAG performance. OpenAI's proprietary models achieved the highest Ragas scores, while open-source alternatives, including gte-large-en-v1.5 for embeddings and Llama 3.1 8B for generation, achieved competitive results. Evaluation results further showed that metrics varied between LLM evaluators and that measures such as answer semantic similarity were weak indicators of factual correctness. Overall, the findings show that effective retrieval design and rigorous evaluation can narrow the performance gap between open-source and proprietary RAG systems. The results highlight the importance of systematic, domain-specific optimization and emphasize the need for more reliable automated evaluation methods for RAG.

Tämä diplomityö tarkastelee, miten hakupohjaisen generoinnin (retrieval-augmented generation, RAG) prosesseja voidaan systemaattisesti optimoida ja arvioida. RAG yhdistää suuret kielimallit ulkoisiin hakujärjestelmiin, jolloin mallit voivat hyödyntää uutta tietoa opetusdatansa ulkopuolelta. Tämä parantaa vastausten tarkkuutta, vähentää hallusinaatioita ja mahdollistaa kielimallien tehokkaan käytön nopeasti kehittyvillä aloilla. Tutkimuksessa esitetään vaiheittainen optimointimenetelmä keskeisille hakukomponenteille: dokumenttien jäsentämiselle ja paloittelulle, upotusmallin valinnalle, hybridihakumenetelmälle, kyselyiden optimoinnille sekä haettujen palasten uudelleensijoittelulle. Näiden vaikutuksia arvioitiin Ragas-kirjastolla, joka hyödyntää automatisoitua kielimallipohjaista arviointia. Kokeet suoritettiin koneoppimisen tutkimusartikkeleista koostuvalla aineistolla, joka edustaa tietointensiivistä ja nopeasti uudistuvaa alaa. Iteratiivinen optimointi paransi merkittävästi haun laatua: kontekstin tarkkuus ja saanti kasvoivat arvoista 0,811 ja 0,725 arvoihin 0,949 ja 0,933. Paloittelustrategialla oli suurin vaikutus: suuremmat palat tuottivat parhaat tulokset, kun taas päällekkäisyys ei parantanut suorituskykyä. Hybridihaku päihitti sekä semanttiset että avainsanapohjaiset menetelmät. Uudelleensijoittelutekniikoista vain kielimallipohjainen menetelmä paransi tuloksia, kun taas kyselyiden optimointi ei tuonut hyötyä. Tutkimuksessa verrattiin myös avoimen ja suljetun lähdekoodin upotus- ja kielimalleja sekä tarkasteltiin, kuinka hyvin tulostaulukot ennustavat RAG-järjestelmien todellista suorituskykyä. OpenAI:n suljetut mallit saavuttivat korkeimmat Ragas-pisteet, mutta avoimen lähdekoodin vaihtoehdot, kuten gte-large-en-v1.5 ja Llama 3.1 8B, tuottivat kilpailukykyisiä tuloksia. Arviointitulokset osoittivat lisäksi, että Ragas-pisteet vaihtelivat eri kielimalliarvioijien välillä ja että tietyt metriikat, kuten vastauksen semanttinen samankaltaisuus, korreloivat heikosti faktuaalisen oikeellisuuden kanssa. Tulokset osoittavat, että tehokas optimointi ja huolellinen arviointi voivat kaventaa avoimen ja suljetun lähdekoodin RAG-järjestelmien suorituskykyeroa. Tutkimus korostaa sovellusaluekohtaisen optimoinnin merkitystä sekä tarvetta kehittää luotettavampia, automatisoituja arviointimenetelmiä RAG-järjestelmille.

Description

Supervisor

Jung, Alex

Thesis advisor

Samarin, Michael

Other note

Citation