A generative pre-trained transformer model for Finnish

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2022-12-12
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
61+9
Series
Abstract
Nowadays, transformer-based language models are an integral part of statistical natural language processing (NLP) tools. Much of the research on deep learning-based language models has been on languages that are internationally used, such as the English language. At the same time, there is little attention to languages that are not internationally used, such as the Finnish language. In this thesis, three models are trained to evaluate the effectiveness of generative pre-trained transformers on text generation and fine-tuning. The models are compared against existing Finnish language models and evaluated for their abilities in text classification, sentiment analysis, language modeling, text generation, and in-context learning. The largest of the three trained models was found to generate relevant and relatively good-quality text, which is still easily distinguishable from human-generated language. The largest model was also found to perform well at all the evaluation tasks, either as well or better than the existing Finnish models, making it a good building block for NLP applications.

Transformer-pohjaiset kielimallit ovat oleellinen osa luonnollisen kielen käsittelyyn käytettyjä työkaluja. Merkittävä osuus syväoppimiseen pohjautuvien kielimallien tutkimuksesta on keskittynyt englanninkielisiin kielimalleihin ja suomenkielisissä malleissa on paljon kehittämisen varaa. Tässä diplomityössä koulutetaan kolme eri kokoista esikoulutettua tekstiä tuottavaa kielimallia ja niiden kykyä arvioidaan tekstin luokittelussa, tunneluokittelussa, kielenmallinnuksessa, tekstin tuottamisessa ja kontekstin sisäisessä oppimisessa. Suurin tässä diplomityössä koulutettu malli todettiin olevan kykenevä tuottamaan relevanttia ja selkeää tekstiä, mutta tekstin pystyy silti helposti erottamaan ihmisen tuottamasta tekstistä yksinkertaisten virheiden perusteella. Suurin malli suoriutui numeerisissa arviointiperusteissa yhtä hyvin tai paremmin kuin vertailukohtina toimivat mallit, tehden siitä hyvän yleiskäyttöisen kielimallin ja käyttökelpoisen rakennuspalikan luonnollisen kielen käsittelyä hyödyntäviin sovelluksiin.
Description
Supervisor
Kurimo, Mikko
Thesis advisor
Moisio, Anssi
Sjöberg, Mats
Keywords
machine learning, NLP, deep learning, large language models, GPT, transformer
Other note
Citation