Learning Constructions of Natural Language: Statistical Models and Evaluations

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKurimo, Mikko, Doc., Aalto University, Finland
dc.contributor.advisorLagus, Krista, Dr., Aalto University, Finland
dc.contributor.authorVirpioja, Sami
dc.contributor.departmentTietojenkäsittelytieteen laitosfi
dc.contributor.departmentDepartment of Information and Computer Scienceen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorOja, Erkki, Prof., Aalto University, Finland
dc.date.accessioned2013-01-04T09:30:15Z
dc.date.available2013-01-04T09:30:15Z
dc.date.defence2012-12-10
dc.date.issued2012
dc.description.abstractThe modern, statistical approach to natural language processing relies on using machine learning techniques on the increasing amount of text and speech data in electronic format. Typical applications for statistical methods include information retrieval, speech recognition, and machine translation. Many problems encountered in the applications can be solved without language-dependent resources, such as annotated data sets, by the means of unsupervised learning. This thesis focuses on one such problem: the selection of lexical units. It is the first step in processing text data, preceding, for example, the estimation of language models or extraction of vectorial representations. While the lexical units are often selected using simple heuristics or grammatical rule-based methods, this thesis proposes the use of unsupervised and semi-supervised machine learning. Advantages of the data-driven unit selection include greater flexibility and independence from the linguistic resources that exist for a particular language and domain. Statistically learned lexical units do not always fit to the categories in traditional linguistic theories. In this thesis, they are called constructions according to construction grammars, a family of usage-based, cognitive theories of grammar. For learning constructions of a language, the thesis builds on Morfessor, an unsupervised statistical method for morphological segmentation. Morfessor is successfully extended to the tasks of learning allomorphs, semi-supervised learning of morphological segmentation, and learning phrasal constructions of sentences. The results are competitive especially for the morphology induction problems. The thesis also includes new techniques for using the sub-word constructions learned by Morfessor in statistical language modeling and machine translation. In addition to its usefulness in the applications, Morfessor is shown to have psycholinguistic competence: its probability estimates have high correlations with human reaction times in a lexical decision task. Furthermore, direct evaluation methods for the unit selection and other learning problems are considered. Direct evaluations, such as comparing the output of the algorithm to existing linguistic annotations, are often quicker and simpler than indirect evaluation via the end-user applications. However, with unsupervised algorithms, the comparison to the reference data is not always straightforward. In this thesis, direct evaluation methods are developed for two unsupervised tasks, morphology induction and learning semantic vector representations of documents. In both cases, the challenge is to find relationships between the pairs of features in multidimensional data. The proposed methods are quick to use and they can accurately predict the performance in different applications.en
dc.description.abstractLuonnollisen kielen automaattinen käsittely pohjautuu yhä suuremmassa määrin tilastollisten koneoppimismenetelmien käyttöön jatkuvasti lisääntyvälle elektroniselle teksti- ja puheaineistolle. Tyypillisiä sovelluksia tilatollisille menetelmille ovat esimerkiksi tiedonhaku, puheentunnistus ja konekäännös. Monet sovellusten osaongelmat ovat ratkaistavissa ilman kieliriippuvaisia resursseja, kuten annotoituja aineistoja, käyttämällä ohjaamatonta koneoppimista. Tämä väitöskirja keskittyy erityisesti yhteen tällaiseen ongelmaan: leksikaalisten perusyksiköiden valintaan. Käytettävien yksiköiden valinta on tekstiaineiston käsittelyn ensimmäinen askel ja edeltää esimerkiksi kielimallien estimointia tai vektoriesitysten laskemista. Perinteisiä ratkaisuja yksiköiden valintaan ovat yksinkertaiset heuristiikat sekä kieliopilliset sääntöpohjaiset työkalut. Niiden sijaan tässä työssä esitetään datalähtöistä, ohjaamattomaan oppimiseen perustuvaa lähestymistapaa yksiköiden valintaan. Sen etuina ovat joustavuus ja riippumattomuus siitä, mitä lingvistisiä resursseja halutulle kielelle ja sovellusalueelle on saatavilla. Koska tilastollisesti opitut yksiköt eivät aina osu yhteen perinteisten kielitieteellisten perusluokkien kanssa, niitä kutsutaan tässä työssä konstruktioiksi. Termi pohjautuu konstruktiokielioppeihin, jotka ovat käyttöpohjaisia, kognitiivisia teorioita kielestä. Väitöskirjassa esitetyt menetelmät konstruktioiden oppimiseen perustuvat Morfessor-nimiseen menetelmään, joka mallintaa morfologista pilkontaa tilastollisesti ja ohjaamattomasti. Uudet menetelmät käsittelevät allomorfian oppimista, morfologisen pilkonnan osittain ohjattua oppimista sekä lausetason konstruktioiden oppimista. Saadut tulokset ovat kilpailukykyisiä erityisesti morfologian oppimisessa. Työssä esitellään myös uusia tekniikoita Morfessorin tuottamien morfologisten konstruktioiden käyttöön tilastollisessa kielenmallinnuksessa ja konekäännöksessä. Käytännön sovellusten ohella Morfessorin osoitetaan toimivan myös psykolingvistisen datan mallinnuksessa: sen todennäköisyysestimaatit sanoille korreloivat vahvasti ihmisten reaktioaikoihin leksikaalisessa päätöksenteossa. Lisäksi väitöskirjassa tutkitaan kielen ohjaamattoman oppimisen suoria evaluaatiomenetelmiä. Suora evaluaatio, esimerkiksi algoritmin tulosten vertaaminen olemassa oleviin kieliopillisiin annotaatioihin, on usein nopeampaa ja yksinkertaisempaa kuin epäsuora evaluaatio kielenkäsittelyn sovellusten toiminnan kautta. Ohjaamattoman oppimisen tapauksessa vertailu annotoituun dataan ei kuitenkaan aina ole suoraviivaista. Tässä väitöskirjassa kehitetään evaluaatiomenetelmiä erityisesti kahteen ongelmaan: sanojen morfologian oppimiseen ja vektorimuotoisten dokumenttiesitysten oppimiseen. Molemmissa on haasteena löytää moniulotteisesta datasta yhteydet eri piirreparien välille. Ehdotetut menetelmät ovat nopeita käyttää ja ne ennustavat hyvin sovelluksista saatuja tuloksia.fi
dc.format.extent268 + app. 169
dc.format.mimetypeapplication/pdf
dc.identifier.isbn978-952-60-4883-3 (electronic)
dc.identifier.isbn978-952-60-4882-6 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/7294
dc.identifier.urnURN:ISBN:978-952-60-4883-3
dc.language.isoenen
dc.opnLindén, Krister, Doc., University of Helsinki, Finland
dc.opnRoark, Brian, Prof., Oregon Health & Science University, USA
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Vesa Siivola, Teemu Hirsimäki, and Sami Virpioja. On growing and pruning Kneser-Ney smoothed n-gram models. IEEE Transactions on Audio, Speech and Language Processing, 15(5):1617–1624, July 2007.
dc.relation.haspart[Publication 2]: Sami Virpioja and Mikko Kurimo. Compact n-gram models by incremental growing and clustering of histories. In Proceedings of 9th International Conference on Spoken Language Processing (Interspeech 2006 — ICSLP), Pittsburgh, Pennsylvania, USA, pages 1037–1040, September 2006.
dc.relation.haspart[Publication 3]: Sami Virpioja, Mari-Sanna Paukkeri, Abhishek Tripathi, Tiina Lindh-Knuutila, Krista Lagus. Evaluating vector space models with canonical correlation analysis. Natural Language Engineering, 18(03):399–436, July 2012.
dc.relation.haspart[Publication 4]: Sami Virpioja, Jaakko J. Vayrynen, Mathias Creutz, and Markus Sadeniemi. Morphology-aware statistical machine translation based on morphs induced in an unsupervised manner. Proceedings of the Machine Translation Summit XI, Copenhagen, Denmark, pages 491-498, September 2007.
dc.relation.haspart[Publication 5]: Adria de Gispert, Sami Virpioja, Mikko Kurimo, and William Byrne. Minimum Bayes risk combination of translation hypotheses from alternative morphological decompositions. Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, Boulder, Colorado, USA, pages 73-76, June 2009.
dc.relation.haspart[Publication 6]: Sami Virpioja, Ville T. Turunen, Sebastian Spiegler, Oskar Kohonen, and Mikko Kurimo. Empirical comparison of evaluation methods for unsupervised learning of morphology. Traitement Automatique des Langues, 52(2):45–90, 2011.
dc.relation.haspart[Publication 7]: Sami Virpioja, Minna Lehtonen, Annika Hulten, Riitta Salmelin, and Krista Lagus. Predicting reaction times in word recognition by unsupervised learning of morphology. In Artificial Neural Networks and Machine Learning—ICANN 2011, Espoo, Finland, June 14–17, 2011, Proceedings, Part I, volume 6791 of Lecture Notes in Computer Science, pages 275–282, June 2011.
dc.relation.haspart[Publication 8]: Sami Virpioja, Oskar Kohonen, and Krista Lagus. Unsupervised morpheme analysis with Allomorfessor. In Multilingual Information Access Evaluation I. Text Retrieval Experiments: 10th Workshop of the Cross-Language Evaluation Forum, CLEF 2009, Corfu, Greece, September 30 – October 2, 2009, Revised Selected Papers, volume 6241 of Lecture Notes in Computer Science, pages 609–616, September 2010.
dc.relation.haspart[Publication 9]: Sami Virpioja, Oskar Kohonen, and Krista Lagus. Evaluating the effect of word frequencies in a probabilistic generative model of morphology. In Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), Riga, Latvia, pages 230–237, May 2011.
dc.relation.haspart[Publication 10]: Oskar Kohonen, Sami Virpioja, and Krista Lagus. Semi-supervised learning of concatenative morphology. In Proceedings of the 11th Meeting of the ACL Special Interest Group on Computational Morphology and Phonology, Uppsala, Sweden, pages 78–86, July 2010.
dc.relation.haspart[Publication 11]: Krista Lagus, Oskar Kohonen, and Sami Virpioja. Towards unsupervised learning of constructions from text. In Proceedings of the Workshop on Extracting and Using Constructions in NLP of the 17th Nordic Conference on Computational Linguistics (NODALIDA), Odense, Denmark, SICS Technical Report T2009:10, pages 16–21, May 2009.
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries158/2012
dc.revLindén, Krister, Doc., University of Helsinki, Finland
dc.revWicentowski, Richard, Prof., Swarthmore College, USA
dc.subject.keywordmorpheme segmentationen
dc.subject.keywordmorphology inductionen
dc.subject.keywordconstruction grammaren
dc.subject.keywordunsupervised learningen
dc.subject.keywordsemi-supervised learningen
dc.subject.keywordprobabilistic modelsen
dc.subject.keywordlanguage modelsen
dc.subject.keywordvector space modelsen
dc.subject.keywordmachine translationen
dc.subject.keywordspeech recognitionen
dc.subject.keywordmorfeemipilkontafi
dc.subject.keywordmorfologian oppiminenfi
dc.subject.keywordkonstruktiokielioppifi
dc.subject.keywordohjaamaton oppiminenfi
dc.subject.keywordosittain ohjattu oppiminenfi
dc.subject.keywordtodennäköisyysmallitfi
dc.subject.keywordkielimallitfi
dc.subject.keywordvektoriavaruusmallitfi
dc.subject.keywordkonekäännösfi
dc.subject.keywordpuheentunnistusfi
dc.subject.otherComputer scienceen
dc.titleLearning Constructions of Natural Language: Statistical Models and Evaluationsen
dc.titleLuonnollisen kielen rakenteiden oppiminen: tilastollisia malleja ja evaluaatiomenetelmiäfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_66782
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526048833.pdf
Size:
2.34 MB
Format:
Adobe Portable Document Format