Semi-supervised induction of a concatenative morphology with simple morphotactics: A model in the Morfessor family

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2014-03-24
Department
Major/Subject
Information and Computer Science
Mcode
T-61
Degree programme
Tietotekniikan koulutusohjelma
Language
en
Pages
74
Series
Abstract
Machine learning methods are increasingly applied to automated processing of natural language data. One motivation for this stems from the different amounts of resources available to languages: knowledge-heavy manual approaches are only available for well resourced languages. Morphological segmentation, the splitting of words into their smallest meaning-bearing components, is an essential task in automatic processing of compounding and highly-inflecting languages. In these languages, the number of unique word forms may be very large, causing problems for word-based language models. This thesis presents Morfessor FlatCat, a new method in the Morfessor family of methods for learning morphological segmentations of words. Morfessor FlatCat hybridizes two existing Morfessor methods, combining the hidden Markov model morphotactics from Morfessor Categories-MAP with the semi-supervised training previously applied to Morfessor Baseline. The semi-supervised training is enabled by the use of a flat instead of a hierarchical lexicon. The morphotactics help the model avoid using correct morphs in incorrect positions, such as splitting the English suffix "s" from the beginning of a word. Semi-supervised learning allows using small amounts of annotated data for significant improvements when evaluated against gold standard segmentations. Our experiments show that while unsupervised FlatCat does not reach the accuracy of Categories-MAP, FlatCat provides state-of-the-art results for English and Finnish, when trained in a semi-supervised manner. Information retrieval experiments demonstrate the applicability of FlatCat to a natural language processing task.

Maskininlärningsmetoder utnyttjas allt mer för automatisk behandling av data i form av naturligt språk. En orsak är variationen i tillgängliga resurser hos olika språk: det är endast realistiskt att tillämpa kunskapsbaserade manuella metoder för resursrika språk. Morfologisk segmentering, det vill säga uppdelande av ord i deras minsta meningsfulla beståndsdelar, är en central uppgift i behandling av språk som innehåller många sammansatta ord och böjningsformer. I dessa språk kan antalet unika ordformer vara mycket stort, vilket kan orsaka problem för ordbaserade språkmodeller. Detta diplomarbete presenterar metoden Morfessor FlatCat, en ny medlem i Morfessor-metodfamiljen. Metodfamiljen består av maskininlärningsmetoder för morfologisk segmentering. Morfessor FlatCat kombinerar den på en dold Markovmodell baserade morfotaxen från Morfessor Categories-MAP med den halvstyrda inlärningen som tidigare tillämpats i Morfessor Baseline. Den halvstyrda inlärningen möjliggörs av användandet av ett lexikon utan inre struktur. Modellens morfotax hjälper att undvika användandet av existerande morfer på fel ställen. Ett exempel av denna typ av fel är att använda det engelska suffixet "s" i början av ett ord. Halvstyrd inlärning låter små mängder av annoterat data utnyttjas för betydlig förbättring av resultatet då man jämför med en normativ segmentering. Våra experiment visar att, även om ostyrd FlatCat inte når samma noggranhet som Categories-MAP, är resultaten för halvstyrd FlatCat av rådande toppnivå för engelska och finska. Experiment i informationssökning demonstrerar metodens lämplighet för en uppgift inom behandling av naturligt språk.
Description
Supervisor
Kurimo, Mikko
Thesis advisor
Virpioja, Sami
Smit, Peter
Keywords
morpheme segmentation, morphology induction, machine learning, language modeling, probabilistic modeling, concatenative morphology, morphotactics, semi-supervised learning, unsupervised learning, information retrieval, morfemsegmentering, inlärning av morfologi, maskininlärning, sannolikhetsmodeller, konkatenativ morfologi, morfotax, halvstyrd inlärning, ostyrd inlärning, informationssökning
Other note
Citation