Domain-adapted Sentence-BERT for fault report retrieval: Evaluating NLP methods in Finnish maintenance data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Business | Master's thesis

Department

Major/Subject

Mcode

Language

en

Pages

54

Series

Abstract

Historical maintenance log data, more specifically fault reports, form a large database of problem-solution pairs. These solutions can be utilized when solving new problems, given that similar problems are easily retrieved from the database. This retrieval task is, however, challenging without suitable tools. While sentence embeddings have been applied for information retrieval in the existing research, it does not cover the use of such methods in Finnish rolling stock maintenance context. This thesis aims to fill this research gap by addressing the challenge of retrieving information from a database consisting of unstructured fault reports written in Finnish. To solve the problem, this thesis compares three different Natural Language Processing (NLP) methods to generate numerical representations of fault reports. These methods include TF-IDF as a traditional baseline, a general-purpose trained Sentence-BERT, and a domain-adapted version of Sentence-BERT which was fine-tuned with domain data consisting of 3500 fault report pairs. The research is limited to an evaluation on a small test set of 27 queries executed in a vector database. The queries are rated as either relevant or irrelevant on a binary scale. by a maintenance expert. These query results are used for calculating quantitative metrics (Precision@4, nDCG@4) to conduct the comparison. The uncertainty and statistical significance of these metrics are analysed with bootstrap confidence intervals and permutation tests. While considering limitations, including but not limited to the size of the test set, results of the study show that the domain-specific model outperforms the other models. This finding indicates that domain adaptation can improve the results and that the embeddings are a promising method for information retrieval in a Finnish-speaking maintenance context.

Historialliset vikailmoitukset muodostavat suuren tietokannan koostuen vikakuvauksista ja niiden ratkaisuista, eli korjaavista toimenpiteistä. Historiassa aikaisempia ratkaisuja voidaan hyödyntää uusien vikojen korjaamiseen, olettaen, että uutta vikaa vastaavat viat ovat helposti haettavissa tietokannasta. Tämä tiedonhakutehtävä on kuitenkin haastava ilman soveltuvia menetelmiä. Aikaisemmassa tutkimuksessa on käytetty lauseupotuksia tiedonhakuun, mutta niiden soveltuvuutta suomenkieliseen kunnossapitodataan ei ole aiemmin arvioitu. Tämä opinnäytetyö vastaa tähän tutkimusaukkoon. Tämän ratkaisemiseksi tämä tutkimus vertailee kolmea luonnollisen kielen käsittelyn menetelmää epästrukturoitujen vikailmoitustekstien numeeriseen esittämiseen. Näistä menetelmistä TF-IDF toimii perinteisenä vertauskohtana, ja sitä verrataan monimutkaisempiin Transformer-pohjaisiin Sentence-BERT-malleihin, joista toinen on koulutettu yleiskielellä ja toinen on esikoulutuksen lisäksi hienosäädetty 3500 itse koostetulla vikailmoitusparilla. Tutkimuksessa tehty vertailu on rajoitettu pieneen määrään (27) testikyselyitä, jotka on tehty vektoritietokantaan. Kyselytuloksista neljä ylintä arvioidaan kunnossapidon ammattilaisen toimesta joko relevantiksi tai epärelevantiksi. Malleja vertaillaan kvantitatiivisilla mittareilla (Precision@4, nDCG@4), jotka ovat laskettu näistä kyselytuloksista. Mittareiden epävarmuutta ja tilastollista merkitsevyyttä arvioidaan bootstrap-luottamusväleillä ja permutaatiotesteillä. Tutkimustulokset näyttävät, että kontekstisidonnaisella datalla koulutettu Sentence-BERT suoriutuu tiedonhakutehtävästä parhaiten mitattuna yllä kuvatuilla mittareilla. Tutkimustuloksia on kuitenkin syytä tulkita ottaen huomioon tutkimuksen rajoitteet, kuten testijoukon pieni koko. Rajoitteista huolimatta löydökset tukevat hypoteesia, että lauseupotukset, varsinkin kontekstiin hienosäädettynä ovat lupaava menetelmä tiedonhakutehtävään suomenkielisessä kunnossapitokontekstissa.

Description

Supervisor

Malo, Pekka

Other note

Citation