Contributions to Morphology Learning using Conditional Random Fields

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2016-06-03
Date
2016
Major/Subject
Mcode
Degree programme
Language
en
Pages
103 + app. 59
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 67/2016
Abstract
Natural language processing (NLP) refers to the study of systems performing natural language related tasks in an automatic manner, that is, without human supervision or interference. This thesis work considers NLP problems related to morphology analysis, that is, the description of internal structure of words. Acquiring knowledge of morphology is necessary in order for applications, such as search engines, machine translators, and speech recognizers, to successfully address rare and previously unseen word forms. In particular, we focus on two widely applied morphological analysis tasks, namely, morphological tagging and segmentation. In morphological tagging, the aim is to assign words in sentential contexts with word class labels describing their morphological properties. Meanwhile, morphological segmentation considers describing the inner word structure by splitting word forms into their smallest meaning-bearing units, morphemes. In the scope of this thesis, we approach the morphological tagging and segmentation problems using statistical, data-driven machine learning methodology. Using this approach, the processing systems are learned (estimated) based on training data prepared manually by a human expert. In particular, we focus on the highly influential conditional random field (CRF) model proposed for sequence tagging and segmentation in the early 2000s. As the first main contribution, the thesis discusses data-driven morphological segmentation employing the CRF model. A particular emphasis is placed on the semi-supervised learning setting, in which the available data consists of a small number of annotated segmentation examples and a large amount of unannotated raw word forms. The provided empirical evaluation on six languages shows that the proposed semi-supervised CRF-based approach is highly successful in the considered morphological segmentation task compared to earlier methods. In particular, the performed error analysis shows that closed class phenomena, such as suffixation of English and Finnish, can be learned already from a small number of annotated examples in a supervised manner. Meanwhile, open morpheme class phenomena, such as compounding of Finnish, can be learned by additionally exploiting the large unannotated word list using the semi-supervised approach. As the second main contribution, the thesis contains a presentation of FinnPos, the first open-source statistical morphological tagging and lemmatization toolkit designed specifically for Finnish. The CRF-based FinnPos system is readily applicable for tagging and lemmatization of running text with models learned from the recently published Finnish Turku Dependency Treebank and FinnTreeBank.

Luonnollisen kielen käsittelyssä (LKK) tutkitaan järjestelmiä, jotka suorittavat ihmiskieleen liittyviä tehtäviä automaattisesti ilman ihmisen valvontaa. Tässä väitöskirjassa tarkastellaan LKK-järjestelmiä, jotka liittyvät morfologiseen analyysiin eli sanojen sisäisen rakenteen kuvaukseen. Morfologiset kuvaukset ovat tarpeellisia monien sovellusten, kuten hakukoneiden, kielenkääntäjien ja puheentunnistimien, kannalta, jotta kyseiset sovellukset voivat käsitellä harvinaisia ja tuntemattomia sanamuotoja. Työssä keskitytään erityisesti kahteen yleisesti käytettyyn analyysimenetelmään, morfologiseen jäsennykseen ja pilkontaan. Morfologisessa jäsennyksessä sanamuodoille annetaan luokituksia niiden morfologisten ominaisuuksien mukaan. Morfologisessa pilkonnassa sanojen sisäistä rakennetta kuvaillaan pilkkomalla sanamuodot niiden pienimpiin merkitystä sisältäviin osiin, morfeemeihin. Tässä väitöskirjassa morfologista jäsennystä ja pilkontaa lähestytään käyttäen tilastollista koneoppimismetodologiaa eli järjestelmät oppivat suorittamaan analyysin asiantuntijan muodostamien esimerkkien avulla. Erityisesti keskitytään ehdollisten satunnaiskenttien (ESK) soveltamiseen. 2000-luvun alussa julkaistua ESK-mallia on aikaisemmin sovellettu menestyksekkäästi useissa jäsennys- ja pilkontatehtävissä. Väitöskirjan ensimmäisenä pääkontribuutiona työssä tarkastellaan morfologisen pilkonnan oppimista ESK-mallin avulla. Erityisesti tarkastellaan puoliohjattua oppimisasetelmaa, jossa käytettävissä oleva data muodostuu pienestä määrästä annotoituja pilkontaesimerkkejä ja suuresta määrästä annotoimattomia, "raakoja", sanamuotoja. Kokeelliset tulokset kuudella kielellä osoittavat, että ehdotettu puoliohjattu ESK-pohjainen lähestymistapa on erittäin kilpailukykyinen menetelmä aikaisemmin julkaistuihin menetelmiin verrattuna. Erityisesti huomataan, että suljettujen luokkien ilmiöt, kuten suomen kielen suffiksaatio, voidaan oppia jo pienestä määrästä annotoituja esimerkkejä ohjatulla opetuksella. Toisaalta avoimen luokkien ilmiöt, kuten yhdyssanojen muodostaminen suomessa, voidaan oppia hyödyntämällä suurta määrää annotoimattomia sanamuotoja käyttäen puoliohjattua opetusta. Toisena pääkontribuutiona väitöskirjassa esitellään FinnPos, ensimmäinen suomen kielelle julkaistu avoimen lähdekoodin tilastollinen morfologinen jäsennin. ESK-malliin pohjautuvaa FinnPos-järjestelmää voidaan soveltaa suomen kielisen tekstin morfologiseen jäsentämiseen käyttäen Turku Dependency Treebank- ja FinnTreebank-puupankkien avulla opetettuja malleja.
Description
Supervising professor
Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Virpioja, Sami, Dr., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
language technology, natural language, morphology, conditional random fields, tagging, segmentation, luonnollinen kieli, morfologia, ehdolliset satunnaiskentät, jäsennys, pilkonta
Other note
Parts
  • [Publication 1]: Teemu Ruokolainen, Oskar Kohonen, Sami Virpioja, and Mikko Kurimo. Supervised Morphological Segmentation in a Low-Resource Learning Setting using Conditional Random Fields. In Proceedings of the Seventeenth Conference on Computational Natural Language Learning (CoNLL), pages 29-37, Sofia, Bulgaria. 2013.
  • [Publication 2]: Teemu Ruokolainen, Oskar Kohonen, Sami Virpioja, and Mikko Kurimo. Painless Semi-Supervised Morphological Segmentation using Conditional Random Fields. In Proceedings of the Fourteenth Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 24- 29, Gothenburg, Sweden. 2014.
  • [Publication 3]: Teemu Ruokolainen, Oskar Kohonen, Kairit Sirts, Stig-Arne Grönroos, Sami Virpioja, and Mikko Kurimo. A Comparative Study of Minimally-Supervised Morphological Segmentation. Computational Linguistics, 42:1, pages 91-120. 2016. doi: 10.1162/COLI_a_00243
  • [Publication 4]: Teemu Ruokolainen, Miikka Silfverberg, Mikko Kurimo, and Krister Linden. Accelerated Estimation of Conditional Random Fields using a Pseudo-Likelihood-inspired Perceptron Variant. In Proceedings of the Fourteenth Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 74-78, Gothenburg, Sweden. 2014.
  • [Publication 5]: Miikka Silfverberg, Teemu Ruokolainen, Krister Linden, and Mikko Kurimo. Part-of-Speech Tagging using Conditional Random Fields: Exploiting Sub-Label Dependencies for Improved Accuracy. In Proceedings of the Fifty-Second Annual Meeting of the Association for Computational Linguistics (ACL), pages 259-264, Baltimore, Maryland, USA. 2014.
    DOI: 10.3115/v1/P14-2043 View at publisher
  • [Publication 6]: Miikka Silfverberg, Teemu Ruokolainen, Krister Linden, and Mikko Kurimo. FinnPos: An Open-Source Morphological Tagging and Lemmatization Toolkit for Finnish. Journal of Language Resources and Evaluation, pages 16, accepted 2016. DOI 10.1007/s10579-015-9326-3
Citation