Finding multiple needles in Finnish haystacks: Evaluating LLM performance in long-context information extraction

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Business | Master's thesis

Department

Major/Subject

Mcode

Language

en

Pages

85

Series

Abstract

The growth of context windows and the increasing adoption of large language models (LLMs) for enterprise use-cases involving information extraction from documents has highlighted critical gaps in understanding their long-context information retrieval capabilities, particularly for non-English languages. This study addresses this research gap by evaluating long-context information retrieval performance in LLMs using Finnish language content. This research adapts the Multiple Needles in a Haystack (MNIAH) benchmark framework for Finnish Wikipedia content. The study systematically evaluates three state-of-the-art commercial models across varying context lengths (100K to 1M tokens), document positions, and task complexity levels. The benchmark implementation encompasses ten distinct question types: five focusing on straightforward information extraction and five requiring multi-step reasoning involving arithmetic or logical deduction. To complement the technical evaluation, semi-structured expert interviews with IT consultants specializing in legal and healthcare LLM implementations provide real-world validation and deployment readiness assessment. Results reveal performance differences between task types. Models achieved high accuracy on extraction tasks, demonstrating capability for locating and extracting specific data points from Finnish documents. However, complex reasoning tasks requiring multi-step logical deduction or arithmetic operations showed more failure, particularly as context length increased. Performance degradation with increasing context length was observed. The study also found mild but significant positional effects, placing the information you target in the beginning of the text increases extraction accuracy. Expert interviews with IT consultants in legal and healthcare sectors confirmed that benchmark findings align with field experience and indicate current readiness for mission-critical extraction applications when deployed with human oversight. Consultants emphasized that Finnish language performance exceeded their expectations. The findings provide actionable guidance for enterprise deployment in multilingual environments, specifically recommending LLM adoption for extraction-heavy workflows with human-in-the-loop validation while highlighting the need for alternative approaches for reasoning-intensive applications. The research offers valuable insights for both researchers advancing multilingual NLP capabilities and practitioners deploying LLMs in Finnish enterprise contexts.

Konteksti-ikkunoiden kasvu ja suurten kielimallien (LLM) lisääntyvä käyttö yrityksissä on tuonut esiin aukkoja niiden pitkän kontekstin tiedonhakukykyjen ymmärtämisessä, erityisesti Suomen kielen osalta. Tämä tutkimus vastaa tähän tutkimusaukkoon arvioimalla suurten kielimallien pitkän kontekstin tiedonhakusuorituskykyä Suomenkielisellä sisällöllä. Tutkimus soveltaa Multiple Needles in a Haystack (MNIAH) -vertailukehystä Suomenkieliseen Wikipedia-sisältöön. Tutkimus arvioi kolmea huipputason kaupallista mallia vaihtelevilla kontekstin pituuksilla (100K–1M tokenia), kysymysten sijainnilla ja tehtävien vaikeustasolla. Toteutus sisältää kymmenen erilaista kysymystä, viisi keskittyy suoraviivaiseen tiedonhakuun ja viisi vaatii monivaiheista päättelyä, johon liittyy aritmeettista ja loogista ajattelua. Teknistä arviointia täydentävät asiantuntijahaastattelut IT-konsulttien kanssa, jotka ovat erikoistuneet LLM-toteutuksiin laki- ja terveydenhuoltoaloilla, tarjoten käytännön validointia ja käyttöönottokypsyyden ja tulosten arviointiin. Tulokset paljastavat suorituskykyeron tehtävätyyppien välillä. Mallit saavuttivat korkean tarkkuuden tiedonhakutehtävissä. Kuitenkin monimutkaisemmat tehtävät, jotka vaativat monivaiheista loogista päättelyä tai aritmeettisia operaatioita, osoittivat matalempaa tarkkuutta. Suorituskyvyn heikkenemistä kontekstin pituuden kasvaessa havaittiin. Tutkimus havaitsi myös lieviä mutta merkittäviä positiovaikutuksia, kohdetiedon sijoittaminen tekstin alkuun parantaa vastaustarkkuutta. Asiantuntijahaastattelut laki- ja terveydenhuoltoalojen IT-konsulttien kanssa vahvistivat, että tutkimuksen tulokset ovat linjassa kentällä hankitun kokemuksen kanssa ja osoittavat nykyisen valmiuden tiedonhakusovelluksiin herkilläkin sektoreilla, olettaen että ne otetaan käyttöön ihmisvalvontaprotokollien kanssa. Konsultit korostivat, että Suomenkielinen suorituskyky ylitti heidän odotuksensa. Tulokset tarjoavat tietoa yrityskäyttöönotolle Suomenkielisissä ympäristöissä, suositellen erityisesti LLM:ien käyttöönottoa tiedonhakupainotteisiin tehtäviin, samalla korostaen vaihtoehtoisten lähestymistapojen tarvetta päättelypainotteisiin tehtäviin. Tutkimus tarjoaa oivalluksia sekä tutkijoille, jotka kehittävät monikielisiä luonnollisen kielen prosessointikykyjä, että käytännön toimijoille, jotka ottavat käyttöön LLM:iä suomalaisissa yrityskonteksteissa.

Description

Supervisor

Malo, Pekka

Other note

Attachment notes Description: Thesis_JuhoRistimaki_appendixD_code_and_materials Attachments: Appendix_D_Code_&_Materials_Juho_Ristimaki.zip

Citation