Contributions to Morphology Learning using Conditional Random Fields

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorVirpioja, Sami, Dr., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.authorRuokolainen, Teemu
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.labSpeech and Language Processingen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorKurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.date.accessioned2016-05-19T09:01:09Z
dc.date.available2016-05-19T09:01:09Z
dc.date.defence2016-06-03
dc.date.issued2016
dc.description.abstractNatural language processing (NLP) refers to the study of systems performing natural language related tasks in an automatic manner, that is, without human supervision or interference. This thesis work considers NLP problems related to morphology analysis, that is, the description of internal structure of words. Acquiring knowledge of morphology is necessary in order for applications, such as search engines, machine translators, and speech recognizers, to successfully address rare and previously unseen word forms. In particular, we focus on two widely applied morphological analysis tasks, namely, morphological tagging and segmentation. In morphological tagging, the aim is to assign words in sentential contexts with word class labels describing their morphological properties. Meanwhile, morphological segmentation considers describing the inner word structure by splitting word forms into their smallest meaning-bearing units, morphemes. In the scope of this thesis, we approach the morphological tagging and segmentation problems using statistical, data-driven machine learning methodology. Using this approach, the processing systems are learned (estimated) based on training data prepared manually by a human expert. In particular, we focus on the highly influential conditional random field (CRF) model proposed for sequence tagging and segmentation in the early 2000s. As the first main contribution, the thesis discusses data-driven morphological segmentation employing the CRF model. A particular emphasis is placed on the semi-supervised learning setting, in which the available data consists of a small number of annotated segmentation examples and a large amount of unannotated raw word forms. The provided empirical evaluation on six languages shows that the proposed semi-supervised CRF-based approach is highly successful in the considered morphological segmentation task compared to earlier methods. In particular, the performed error analysis shows that closed class phenomena, such as suffixation of English and Finnish, can be learned already from a small number of annotated examples in a supervised manner. Meanwhile, open morpheme class phenomena, such as compounding of Finnish, can be learned by additionally exploiting the large unannotated word list using the semi-supervised approach. As the second main contribution, the thesis contains a presentation of FinnPos, the first open-source statistical morphological tagging and lemmatization toolkit designed specifically for Finnish. The CRF-based FinnPos system is readily applicable for tagging and lemmatization of running text with models learned from the recently published Finnish Turku Dependency Treebank and FinnTreeBank.en
dc.description.abstractLuonnollisen kielen käsittelyssä (LKK) tutkitaan järjestelmiä, jotka suorittavat ihmiskieleen liittyviä tehtäviä automaattisesti ilman ihmisen valvontaa. Tässä väitöskirjassa tarkastellaan LKK-järjestelmiä, jotka liittyvät morfologiseen analyysiin eli sanojen sisäisen rakenteen kuvaukseen. Morfologiset kuvaukset ovat tarpeellisia monien sovellusten, kuten hakukoneiden, kielenkääntäjien ja puheentunnistimien, kannalta, jotta kyseiset sovellukset voivat käsitellä harvinaisia ja tuntemattomia sanamuotoja. Työssä keskitytään erityisesti kahteen yleisesti käytettyyn analyysimenetelmään, morfologiseen jäsennykseen ja pilkontaan. Morfologisessa jäsennyksessä sanamuodoille annetaan luokituksia niiden morfologisten ominaisuuksien mukaan. Morfologisessa pilkonnassa sanojen sisäistä rakennetta kuvaillaan pilkkomalla sanamuodot niiden pienimpiin merkitystä sisältäviin osiin, morfeemeihin. Tässä väitöskirjassa morfologista jäsennystä ja pilkontaa lähestytään käyttäen tilastollista koneoppimismetodologiaa eli järjestelmät oppivat suorittamaan analyysin asiantuntijan muodostamien esimerkkien avulla. Erityisesti keskitytään ehdollisten satunnaiskenttien (ESK) soveltamiseen. 2000-luvun alussa julkaistua ESK-mallia on aikaisemmin sovellettu menestyksekkäästi useissa jäsennys- ja pilkontatehtävissä. Väitöskirjan ensimmäisenä pääkontribuutiona työssä tarkastellaan morfologisen pilkonnan oppimista ESK-mallin avulla. Erityisesti tarkastellaan puoliohjattua oppimisasetelmaa, jossa käytettävissä oleva data muodostuu pienestä määrästä annotoituja pilkontaesimerkkejä ja suuresta määrästä annotoimattomia, "raakoja", sanamuotoja. Kokeelliset tulokset kuudella kielellä osoittavat, että ehdotettu puoliohjattu ESK-pohjainen lähestymistapa on erittäin kilpailukykyinen menetelmä aikaisemmin julkaistuihin menetelmiin verrattuna. Erityisesti huomataan, että suljettujen luokkien ilmiöt, kuten suomen kielen suffiksaatio, voidaan oppia jo pienestä määrästä annotoituja esimerkkejä ohjatulla opetuksella. Toisaalta avoimen luokkien ilmiöt, kuten yhdyssanojen muodostaminen suomessa, voidaan oppia hyödyntämällä suurta määrää annotoimattomia sanamuotoja käyttäen puoliohjattua opetusta. Toisena pääkontribuutiona väitöskirjassa esitellään FinnPos, ensimmäinen suomen kielelle julkaistu avoimen lähdekoodin tilastollinen morfologinen jäsennin. ESK-malliin pohjautuvaa FinnPos-järjestelmää voidaan soveltaa suomen kielisen tekstin morfologiseen jäsentämiseen käyttäen Turku Dependency Treebank- ja FinnTreebank-puupankkien avulla opetettuja malleja.fi
dc.format.extent103 + app. 59
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-6754-4 (electronic)
dc.identifier.isbn978-952-60-6753-7 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/20370
dc.identifier.urnURN:ISBN:978-952-60-6754-4
dc.language.isoenen
dc.opnDyer, Chris, Assistant Prof., Carnegie Mellon University, USA
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Teemu Ruokolainen, Oskar Kohonen, Sami Virpioja, and Mikko Kurimo. Supervised Morphological Segmentation in a Low-Resource Learning Setting using Conditional Random Fields. In Proceedings of the Seventeenth Conference on Computational Natural Language Learning (CoNLL), pages 29-37, Sofia, Bulgaria. 2013.
dc.relation.haspart[Publication 2]: Teemu Ruokolainen, Oskar Kohonen, Sami Virpioja, and Mikko Kurimo. Painless Semi-Supervised Morphological Segmentation using Conditional Random Fields. In Proceedings of the Fourteenth Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 24- 29, Gothenburg, Sweden. 2014.
dc.relation.haspart[Publication 3]: Teemu Ruokolainen, Oskar Kohonen, Kairit Sirts, Stig-Arne Grönroos, Sami Virpioja, and Mikko Kurimo. A Comparative Study of Minimally-Supervised Morphological Segmentation. Computational Linguistics, 42:1, pages 91-120. 2016. doi: 10.1162/COLI_a_00243
dc.relation.haspart[Publication 4]: Teemu Ruokolainen, Miikka Silfverberg, Mikko Kurimo, and Krister Linden. Accelerated Estimation of Conditional Random Fields using a Pseudo-Likelihood-inspired Perceptron Variant. In Proceedings of the Fourteenth Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 74-78, Gothenburg, Sweden. 2014.
dc.relation.haspart[Publication 5]: Miikka Silfverberg, Teemu Ruokolainen, Krister Linden, and Mikko Kurimo. Part-of-Speech Tagging using Conditional Random Fields: Exploiting Sub-Label Dependencies for Improved Accuracy. In Proceedings of the Fifty-Second Annual Meeting of the Association for Computational Linguistics (ACL), pages 259-264, Baltimore, Maryland, USA. 2014. DOI: 10.3115/v1/P14-2043
dc.relation.haspart[Publication 6]: Miikka Silfverberg, Teemu Ruokolainen, Krister Linden, and Mikko Kurimo. FinnPos: An Open-Source Morphological Tagging and Lemmatization Toolkit for Finnish. Journal of Language Resources and Evaluation, pages 16, accepted 2016. DOI 10.1007/s10579-015-9326-3
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries67/2016
dc.revManandhar, Suresh, Prof., University of York, UK
dc.revGinter, Filip, Doctor, University of Turku, Finland
dc.subject.keywordlanguage technologyen
dc.subject.keywordnatural languageen
dc.subject.keywordmorphologyen
dc.subject.keywordconditional random fieldsen
dc.subject.keywordtaggingen
dc.subject.keywordsegmentationen
dc.subject.keywordluonnollinen kielifi
dc.subject.keywordmorfologiafi
dc.subject.keywordehdolliset satunnaiskentätfi
dc.subject.keywordjäsennysfi
dc.subject.keywordpilkontafi
dc.subject.otherLinguisticsen
dc.subject.otherComputer science
dc.titleContributions to Morphology Learning using Conditional Random Fieldsen
dc.titleKontribuutioita morfologian oppimiseen ehdollisilla satunnaiskentilläfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.archiveyes
local.aalto.formfolder2016_05_18_klo_12_33
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526067544.pdf
Size:
562.93 KB
Format:
Adobe Portable Document Format