Modeling Finnish language with character-word compositional Language Model

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Heikinheimo, Hannes
dc.contributor.author Lankinen, Matti
dc.date.accessioned 2016-11-02T09:29:52Z
dc.date.available 2016-11-02T09:29:52Z
dc.date.issued 2016-10-27
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/23254
dc.description.abstract Neural networks have become increasingly popular in the field of language modeling. So far, the traditional implementations having the best modeling performances are operating with word embeddings. In highly morphological languages, however, the vocabulary size tends to grow easily. This quickly multiplies the parameter count of word-level models, making them slow to train. This thesis, inspired by recent research, explores ways to model the Finnish language while maintaining the performance of word-level models and keeping the model parameters nearly constant regardless of the size of the word vocabulary. This thesis proposes a new Character-to-Word-to-Character (C2W2C) compositional language model that uses characters as input and output while still internally processing traditional word embeddings by using recurrent encoders and decoders. The results of the study indicate that C2W2C can respond to the challenges of morphologically rich languages such as high out-of-vocabulary word rates for validation data, the prediction of novel words and growing vocabulary size. However, the language modeling performance of C2W2C, measured by PPL (perplexity), is yet inferior to traditional word-level models. Hence more research must be done in order to obtain the benefits and features from character-level and word-level language model performance. en
dc.description.abstract Neuroverkot ovat yleistyneet hiljattain kielimallinnuksen apuvälineinä. Toistaiseksi parhaat perinteiset toteutukset tomivat sanapohjaisesti. Morfologisesti rikkaissa kielissä kuitenkin käytettävien sanastojen koko uhkaa kasvaa nopeasti, mikä moninkertaistaa mallin parametrien lukumäärän ja tekee malleista hitaita opettaa. Tämän diplomityön aiheena on tutkia tapoja mallintaa suomenkielistä tekstiä niin, että mallin parametrien lukumäärä pysyy lähes vakiona sanaston koosta riippumatta, mutta kuitenkin niin että mallin suorituskyky ei kärsi sanapohjaisiin malleihin verrattuna. Tässä diplomityössä esitellään uusi C2W2C-yhdistelmäkielimalli, joka toimii ulkoisesti merkkitasolla, mutta käyttää kuitenkin sisäisesti perinteisiä sanapohjaisten mallien upotuksia rekurrenttien pakkaajien ja purkajien avulla. Tulokset osoittavat, että C2W2C-malli pystyy vastaamaan morfologisesti rikkaiden kielten asettamiin haasteisiin, kuten validointimateriaalilla esiintyvään sanaston ulkopuolisten sanojen korkeaan tiheyteen, tuntemattomien sanojen ennustukseen sekä kasvavaan sanaston kokoon. Mallin suorituskyky perinteisin menetelmin mitattuna (PPL) ei yllä kuitenkaan vielä perinteisten sanapohjaisten mallien tasolle. Täten on tehtävä lisää tutkimusta merkkipohjaisten mallien hyötyjen ja ominaisuuksien sekä sanapohjaisten mallien suorituskyvyn yhdistämiseksi. fi
dc.format.extent 48
dc.language.iso en en
dc.title Modeling Finnish language with character-word compositional Language Model en
dc.title Suomen kielen mallintaminen merkki-sana-yhdistelma ̈kielimallin avulla fi
dc.type G2 Pro gradu, diplomityö fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.subject.keyword neural networks en
dc.subject.keyword language modeling en
dc.subject.keyword deep-learning en
dc.subject.keyword unsupervised learning en
dc.identifier.urn URN:NBN:fi:aalto-201611025355
dc.programme.major Ohjelmistotuotanto ja -liikentoiminta fi
dc.programme.mcode T3003 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Karhunen, Juha
dc.programme Tietotekniikan koulutusohjelma fi
dc.ethesisid Aalto 4932
dc.location P1


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account