Semi-supervised induction of a concatenative morphology with simple morphotactics: A model in the Morfessor family

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Virpioja, Sami
dc.contributor.advisor Smit, Peter
dc.contributor.author Grönroos, Stig-Arne
dc.date.accessioned 2014-05-22T06:53:11Z
dc.date.available 2014-05-22T06:53:11Z
dc.date.issued 2014-03-24
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/13132
dc.description.abstract Machine learning methods are increasingly applied to automated processing of natural language data. One motivation for this stems from the different amounts of resources available to languages: knowledge-heavy manual approaches are only available for well resourced languages. Morphological segmentation, the splitting of words into their smallest meaning-bearing components, is an essential task in automatic processing of compounding and highly-inflecting languages. In these languages, the number of unique word forms may be very large, causing problems for word-based language models. This thesis presents Morfessor FlatCat, a new method in the Morfessor family of methods for learning morphological segmentations of words. Morfessor FlatCat hybridizes two existing Morfessor methods, combining the hidden Markov model morphotactics from Morfessor Categories-MAP with the semi-supervised training previously applied to Morfessor Baseline. The semi-supervised training is enabled by the use of a flat instead of a hierarchical lexicon. The morphotactics help the model avoid using correct morphs in incorrect positions, such as splitting the English suffix "s" from the beginning of a word. Semi-supervised learning allows using small amounts of annotated data for significant improvements when evaluated against gold standard segmentations. Our experiments show that while unsupervised FlatCat does not reach the accuracy of Categories-MAP, FlatCat provides state-of-the-art results for English and Finnish, when trained in a semi-supervised manner. Information retrieval experiments demonstrate the applicability of FlatCat to a natural language processing task. en
dc.description.abstract Maskininlärningsmetoder utnyttjas allt mer för automatisk behandling av data i form av naturligt språk. En orsak är variationen i tillgängliga resurser hos olika språk: det är endast realistiskt att tillämpa kunskapsbaserade manuella metoder för resursrika språk. Morfologisk segmentering, det vill säga uppdelande av ord i deras minsta meningsfulla beståndsdelar, är en central uppgift i behandling av språk som innehåller många sammansatta ord och böjningsformer. I dessa språk kan antalet unika ordformer vara mycket stort, vilket kan orsaka problem för ordbaserade språkmodeller. Detta diplomarbete presenterar metoden Morfessor FlatCat, en ny medlem i Morfessor-metodfamiljen. Metodfamiljen består av maskininlärningsmetoder för morfologisk segmentering. Morfessor FlatCat kombinerar den på en dold Markovmodell baserade morfotaxen från Morfessor Categories-MAP med den halvstyrda inlärningen som tidigare tillämpats i Morfessor Baseline. Den halvstyrda inlärningen möjliggörs av användandet av ett lexikon utan inre struktur. Modellens morfotax hjälper att undvika användandet av existerande morfer på fel ställen. Ett exempel av denna typ av fel är att använda det engelska suffixet "s" i början av ett ord. Halvstyrd inlärning låter små mängder av annoterat data utnyttjas för betydlig förbättring av resultatet då man jämför med en normativ segmentering. Våra experiment visar att, även om ostyrd FlatCat inte når samma noggranhet som Categories-MAP, är resultaten för halvstyrd FlatCat av rådande toppnivå för engelska och finska. Experiment i informationssökning demonstrerar metodens lämplighet för en uppgift inom behandling av naturligt språk. sv
dc.format.extent 74
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.title Semi-supervised induction of a concatenative morphology with simple morphotactics: A model in the Morfessor family en
dc.title Halvstyrd inlärning av konkatenativ morfologi med en enkel morfotax: En medlem a i Morfessor-modellfamiljen sv
dc.type G2 Pro gradu, diplomityö en
dc.contributor.school Perustieteiden korkeakoulu fi
dc.subject.keyword morpheme segmentation en
dc.subject.keyword morphology induction en
dc.subject.keyword machine learning en
dc.subject.keyword language modeling en
dc.subject.keyword probabilistic modeling en
dc.subject.keyword concatenative morphology en
dc.subject.keyword morphotactics en
dc.subject.keyword semi-supervised learning en
dc.subject.keyword unsupervised learning en
dc.subject.keyword information retrieval en
dc.subject.keyword morfemsegmentering sv
dc.subject.keyword inlärning av morfologi sv
dc.subject.keyword maskininlärning sv
dc.subject.keyword sannolikhetsmodeller sv
dc.subject.keyword konkatenativ morfologi sv
dc.subject.keyword morfotax sv
dc.subject.keyword halvstyrd inlärning sv
dc.subject.keyword ostyrd inlärning sv
dc.subject.keyword informationssökning sv
dc.identifier.urn URN:NBN:fi:aalto-201405221894
dc.programme.major Information and Computer Science fi
dc.programme.mcode T-61 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Kurimo, Mikko
dc.programme Tietotekniikan koulutusohjelma fi


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account