A generative pre-trained transformer model for Finnish
Loading...
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2022-12-12
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
61+9
Series
Abstract
Nowadays, transformer-based language models are an integral part of statistical natural language processing (NLP) tools. Much of the research on deep learning-based language models has been on languages that are internationally used, such as the English language. At the same time, there is little attention to languages that are not internationally used, such as the Finnish language. In this thesis, three models are trained to evaluate the effectiveness of generative pre-trained transformers on text generation and fine-tuning. The models are compared against existing Finnish language models and evaluated for their abilities in text classification, sentiment analysis, language modeling, text generation, and in-context learning. The largest of the three trained models was found to generate relevant and relatively good-quality text, which is still easily distinguishable from human-generated language. The largest model was also found to perform well at all the evaluation tasks, either as well or better than the existing Finnish models, making it a good building block for NLP applications.Transformer-pohjaiset kielimallit ovat oleellinen osa luonnollisen kielen käsittelyyn käytettyjä työkaluja. Merkittävä osuus syväoppimiseen pohjautuvien kielimallien tutkimuksesta on keskittynyt englanninkielisiin kielimalleihin ja suomenkielisissä malleissa on paljon kehittämisen varaa. Tässä diplomityössä koulutetaan kolme eri kokoista esikoulutettua tekstiä tuottavaa kielimallia ja niiden kykyä arvioidaan tekstin luokittelussa, tunneluokittelussa, kielenmallinnuksessa, tekstin tuottamisessa ja kontekstin sisäisessä oppimisessa. Suurin tässä diplomityössä koulutettu malli todettiin olevan kykenevä tuottamaan relevanttia ja selkeää tekstiä, mutta tekstin pystyy silti helposti erottamaan ihmisen tuottamasta tekstistä yksinkertaisten virheiden perusteella. Suurin malli suoriutui numeerisissa arviointiperusteissa yhtä hyvin tai paremmin kuin vertailukohtina toimivat mallit, tehden siitä hyvän yleiskäyttöisen kielimallin ja käyttökelpoisen rakennuspalikan luonnollisen kielen käsittelyä hyödyntäviin sovelluksiin.Description
Supervisor
Kurimo, MikkoThesis advisor
Moisio, AnssiSjöberg, Mats
Keywords
machine learning, NLP, deep learning, large language models, GPT, transformer