Classification of Finnish injury descriptions using BERT
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-06-13
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
53
Series
Abstract
In this work, we create a model for predicting the cause of injury from Finnish textual descriptions describing an injury. The model is designed to be used as a recommender system for filling out forms in a front-end application. The training data has known problems in it with incoherencies and inherent label noise. We experimented with how a state-of-art Bidirectional encoder representations from Transformers (BERT) Finnish language model can perform regardless of the issues in the input data. The model is considered to be appropriate for use if it correctly predicts the input class in the top-n first outputs. The models display difficulty predicting the correct class in the top-1 metric due to the presence of label noise. The proposed model performs moderately well on the top-3 and top-5 metrics and only falls short in the classes that contain both a low amount of training data and a high amount of noise. To see the effects of the noise in the data, additional data sets were created by manually relabeling the original data. The models performed better on the relabeled data than on the original data as a result of less label noise. The pre-trained nature of BERT helped to find reasonable representations of the classes with a lower amount of training data. We also suggest a new data model based on the current classes that would be a better suit for the data. This new data model could facilitate and expedite the process of classifying the injuries for both humans and machines. The new model improves clarity by creating classes based on the injury instead of the action leading to the injury. It provides subclasses that can be used to specify the detail level information so that no data is lost from the current model. The ambiguity that is apparent in the current model is minimized by making the classes as much mutually exclusive as possible. Clarity is provided by a clearer naming scheme for the classes so that misclassification and confusion based on the naming standard are minimized.Tässä työssä tutkin, miten BERT-pohjainen suomen kielimalli toimii vahingon syyn ennustamiseen suomenkielisissä vahinkokuvauksissa. Hyödynnän BERT-mallia osana suosittelujärjestelmää, jonka tarkoitus on helpottaa lomakkeiden täyttöä asiakasrajapinnassa. Mallin harjoitusdatassa on ongelmia, jotka johtuvat luokkien epäjohdonmukaisuuksista sekä luokitteluvirheiden myötä syntyvästä kohinasta. Kohinan vuoksi mallin on vaikea ennustaa oikeaa luokkaa. Tästä johtuen mallia pidetään käyttökelpoisena silloin, kun se pystyy ennustamaan oikean luokan viiden ensimmäisen arvauksen sisällä. Tämän metriikan mukaan työssä tutkittava malli toimii kohtalaisen hyvin. Malli toimii huonosti ainoastaan niille luokille, jotka sisältävät sekä vähän harjoitusdataa että paljon luokitteluvirheitä. Jotta kohinan vaikutusta ennustamiseen voitiin tutkia, alkuperäistä dataa uudelleen luokiteltiin käsin. Malli toimi paremmin uudelleenluokiteltuun dataan, sillä data sisälsi huomattavasti vähemmän kohinaa. Esikoulutuksen myötä BERT-malli pystyi järkevästi luokittelemaan myös niitä luokkia, joissa oli vain vähän koulutusdataa. BERT-pohjaisen luokittelumallin lisäksi suunnittelen tässä työssä uuden tietomallin, joka sopii paremmin datalle. Tietomalli tuo selkeyttä luokitteluun sisältämiensä luokkien avulla. Malli hyödyntää aliluokkia, joita käytetään yksityiskohtaisten tietojen määrittämiseen. Näin se eroaa nykyisin käytössä olevasta mallista, joka luokittelee tiedot suoraan liian yksityiskohtaisiin pääluokkiin. Lisäksi selkeyttä uuteen malliin tuo luokkien ymmärrettävämpi nimeäminen, joka auttaa vähentämään epäselvään nimeämiseen perustuvaa virheellistä luokittelua.Description
Supervisor
Kurimo, MikkoThesis advisor
Valli, JaakkoKeywords
Unstructured data, NLP, BERT, text classification, machine learning, label noise