Contributions to Morphology Learning using Conditional Random Fields

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Virpioja, Sami, Dr., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.author Ruokolainen, Teemu
dc.date.accessioned 2016-05-19T09:01:09Z
dc.date.available 2016-05-19T09:01:09Z
dc.date.issued 2016
dc.identifier.isbn 978-952-60-6754-4 (electronic)
dc.identifier.isbn 978-952-60-6753-7 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/20370
dc.description.abstract Natural language processing (NLP) refers to the study of systems performing natural language related tasks in an automatic manner, that is, without human supervision or interference. This thesis work considers NLP problems related to morphology analysis, that is, the description of internal structure of words. Acquiring knowledge of morphology is necessary in order for applications, such as search engines, machine translators, and speech recognizers, to successfully address rare and previously unseen word forms. In particular, we focus on two widely applied morphological analysis tasks, namely, morphological tagging and segmentation. In morphological tagging, the aim is to assign words in sentential contexts with word class labels describing their morphological properties. Meanwhile, morphological segmentation considers describing the inner word structure by splitting word forms into their smallest meaning-bearing units, morphemes. In the scope of this thesis, we approach the morphological tagging and segmentation problems using statistical, data-driven machine learning methodology. Using this approach, the processing systems are learned (estimated) based on training data prepared manually by a human expert. In particular, we focus on the highly influential conditional random field (CRF) model proposed for sequence tagging and segmentation in the early 2000s. As the first main contribution, the thesis discusses data-driven morphological segmentation employing the CRF model. A particular emphasis is placed on the semi-supervised learning setting, in which the available data consists of a small number of annotated segmentation examples and a large amount of unannotated raw word forms. The provided empirical evaluation on six languages shows that the proposed semi-supervised CRF-based approach is highly successful in the considered morphological segmentation task compared to earlier methods. In particular, the performed error analysis shows that closed class phenomena, such as suffixation of English and Finnish, can be learned already from a small number of annotated examples in a supervised manner. Meanwhile, open morpheme class phenomena, such as compounding of Finnish, can be learned by additionally exploiting the large unannotated word list using the semi-supervised approach. As the second main contribution, the thesis contains a presentation of FinnPos, the first open-source statistical morphological tagging and lemmatization toolkit designed specifically for Finnish. The CRF-based FinnPos system is readily applicable for tagging and lemmatization of running text with models learned from the recently published Finnish Turku Dependency Treebank and FinnTreeBank. en
dc.description.abstract Luonnollisen kielen käsittelyssä (LKK) tutkitaan järjestelmiä, jotka suorittavat ihmiskieleen liittyviä tehtäviä automaattisesti ilman ihmisen valvontaa. Tässä väitöskirjassa tarkastellaan LKK-järjestelmiä, jotka liittyvät morfologiseen analyysiin eli sanojen sisäisen rakenteen kuvaukseen. Morfologiset kuvaukset ovat tarpeellisia monien sovellusten, kuten hakukoneiden, kielenkääntäjien ja puheentunnistimien, kannalta, jotta kyseiset sovellukset voivat käsitellä harvinaisia ja tuntemattomia sanamuotoja. Työssä keskitytään erityisesti kahteen yleisesti käytettyyn analyysimenetelmään, morfologiseen jäsennykseen ja pilkontaan. Morfologisessa jäsennyksessä sanamuodoille annetaan luokituksia niiden morfologisten ominaisuuksien mukaan. Morfologisessa pilkonnassa sanojen sisäistä rakennetta kuvaillaan pilkkomalla sanamuodot niiden pienimpiin merkitystä sisältäviin osiin, morfeemeihin. Tässä väitöskirjassa morfologista jäsennystä ja pilkontaa lähestytään käyttäen tilastollista koneoppimismetodologiaa eli järjestelmät oppivat suorittamaan analyysin asiantuntijan muodostamien esimerkkien avulla. Erityisesti keskitytään ehdollisten satunnaiskenttien (ESK) soveltamiseen. 2000-luvun alussa julkaistua ESK-mallia on aikaisemmin sovellettu menestyksekkäästi useissa jäsennys- ja pilkontatehtävissä. Väitöskirjan ensimmäisenä pääkontribuutiona työssä tarkastellaan morfologisen pilkonnan oppimista ESK-mallin avulla. Erityisesti tarkastellaan puoliohjattua oppimisasetelmaa, jossa käytettävissä oleva data muodostuu pienestä määrästä annotoituja pilkontaesimerkkejä ja suuresta määrästä annotoimattomia, "raakoja", sanamuotoja. Kokeelliset tulokset kuudella kielellä osoittavat, että ehdotettu puoliohjattu ESK-pohjainen lähestymistapa on erittäin kilpailukykyinen menetelmä aikaisemmin julkaistuihin menetelmiin verrattuna. Erityisesti huomataan, että suljettujen luokkien ilmiöt, kuten suomen kielen suffiksaatio, voidaan oppia jo pienestä määrästä annotoituja esimerkkejä ohjatulla opetuksella. Toisaalta avoimen luokkien ilmiöt, kuten yhdyssanojen muodostaminen suomessa, voidaan oppia hyödyntämällä suurta määrää annotoimattomia sanamuotoja käyttäen puoliohjattua opetusta. Toisena pääkontribuutiona väitöskirjassa esitellään FinnPos, ensimmäinen suomen kielelle julkaistu avoimen lähdekoodin tilastollinen morfologinen jäsennin. ESK-malliin pohjautuvaa FinnPos-järjestelmää voidaan soveltaa suomen kielisen tekstin morfologiseen jäsentämiseen käyttäen Turku Dependency Treebank- ja FinnTreebank-puupankkien avulla opetettuja malleja. fi
dc.format.extent 103 + app. 59
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 67/2016
dc.relation.haspart [Publication 1]: Teemu Ruokolainen, Oskar Kohonen, Sami Virpioja, and Mikko Kurimo. Supervised Morphological Segmentation in a Low-Resource Learning Setting using Conditional Random Fields. In Proceedings of the Seventeenth Conference on Computational Natural Language Learning (CoNLL), pages 29-37, Sofia, Bulgaria. 2013.
dc.relation.haspart [Publication 2]: Teemu Ruokolainen, Oskar Kohonen, Sami Virpioja, and Mikko Kurimo. Painless Semi-Supervised Morphological Segmentation using Conditional Random Fields. In Proceedings of the Fourteenth Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 24- 29, Gothenburg, Sweden. 2014.
dc.relation.haspart [Publication 3]: Teemu Ruokolainen, Oskar Kohonen, Kairit Sirts, Stig-Arne Grönroos, Sami Virpioja, and Mikko Kurimo. A Comparative Study of Minimally-Supervised Morphological Segmentation. Computational Linguistics, 42:1, pages 91-120. 2016. doi: 10.1162/COLI_a_00243
dc.relation.haspart [Publication 4]: Teemu Ruokolainen, Miikka Silfverberg, Mikko Kurimo, and Krister Linden. Accelerated Estimation of Conditional Random Fields using a Pseudo-Likelihood-inspired Perceptron Variant. In Proceedings of the Fourteenth Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 74-78, Gothenburg, Sweden. 2014.
dc.relation.haspart [Publication 5]: Miikka Silfverberg, Teemu Ruokolainen, Krister Linden, and Mikko Kurimo. Part-of-Speech Tagging using Conditional Random Fields: Exploiting Sub-Label Dependencies for Improved Accuracy. In Proceedings of the Fifty-Second Annual Meeting of the Association for Computational Linguistics (ACL), pages 259-264, Baltimore, Maryland, USA. 2014. DOI: 10.3115/v1/P14-2043
dc.relation.haspart [Publication 6]: Miikka Silfverberg, Teemu Ruokolainen, Krister Linden, and Mikko Kurimo. FinnPos: An Open-Source Morphological Tagging and Lemmatization Toolkit for Finnish. Journal of Language Resources and Evaluation, pages 16, accepted 2016. DOI 10.1007/s10579-015-9326-3
dc.subject.other Linguistics en
dc.subject.other Computer science
dc.title Contributions to Morphology Learning using Conditional Random Fields en
dc.title Kontribuutioita morfologian oppimiseen ehdollisilla satunnaiskentillä fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Signaalinkäsittelyn ja akustiikan laitos fi
dc.contributor.department Department of Signal Processing and Acoustics en
dc.subject.keyword language technology en
dc.subject.keyword natural language en
dc.subject.keyword morphology en
dc.subject.keyword conditional random fields en
dc.subject.keyword tagging en
dc.subject.keyword segmentation en
dc.subject.keyword luonnollinen kieli fi
dc.subject.keyword morfologia fi
dc.subject.keyword ehdolliset satunnaiskentät fi
dc.subject.keyword jäsennys fi
dc.subject.keyword pilkonta fi
dc.identifier.urn URN:ISBN:978-952-60-6754-4
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.opn Dyer, Chris, Assistant Prof., Carnegie Mellon University, USA
dc.contributor.lab Speech and Language Processing en
dc.rev Manandhar, Suresh, Prof., University of York, UK
dc.rev Ginter, Filip, Doctor, University of Turku, Finland
dc.date.defence 2016-06-03


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account