Learning Constructions of Natural Language: Statistical Models and Evaluations

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2012-12-10
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2012
Major/Subject
Mcode
Degree programme
Language
en
Pages
268 + app. 169
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 158/2012
Abstract
The modern, statistical approach to natural language processing relies on using machine learning techniques on the increasing amount of text and speech data in electronic format. Typical applications for statistical methods include information retrieval, speech recognition, and machine translation. Many problems encountered in the applications can be solved without language-dependent resources, such as annotated data sets, by the means of unsupervised learning. This thesis focuses on one such problem: the selection of lexical units. It is the first step in processing text data, preceding, for example, the estimation of language models or extraction of vectorial representations. While the lexical units are often selected using simple heuristics or grammatical rule-based methods, this thesis proposes the use of unsupervised and semi-supervised machine learning. Advantages of the data-driven unit selection include greater flexibility and independence from the linguistic resources that exist for a particular language and domain. Statistically learned lexical units do not always fit to the categories in traditional linguistic theories. In this thesis, they are called constructions according to construction grammars, a family of usage-based, cognitive theories of grammar. For learning constructions of a language, the thesis builds on Morfessor, an unsupervised statistical method for morphological segmentation. Morfessor is successfully extended to the tasks of learning allomorphs, semi-supervised learning of morphological segmentation, and learning phrasal constructions of sentences. The results are competitive especially for the morphology induction problems. The thesis also includes new techniques for using the sub-word constructions learned by Morfessor in statistical language modeling and machine translation. In addition to its usefulness in the applications, Morfessor is shown to have psycholinguistic competence: its probability estimates have high correlations with human reaction times in a lexical decision task. Furthermore, direct evaluation methods for the unit selection and other learning problems are considered. Direct evaluations, such as comparing the output of the algorithm to existing linguistic annotations, are often quicker and simpler than indirect evaluation via the end-user applications. However, with unsupervised algorithms, the comparison to the reference data is not always straightforward. In this thesis, direct evaluation methods are developed for two unsupervised tasks, morphology induction and learning semantic vector representations of documents. In both cases, the challenge is to find relationships between the pairs of features in multidimensional data. The proposed methods are quick to use and they can accurately predict the performance in different applications.

Luonnollisen kielen automaattinen käsittely pohjautuu yhä suuremmassa määrin tilastollisten koneoppimismenetelmien käyttöön jatkuvasti lisääntyvälle elektroniselle teksti- ja puheaineistolle. Tyypillisiä sovelluksia tilatollisille menetelmille ovat esimerkiksi tiedonhaku, puheentunnistus ja konekäännös. Monet sovellusten osaongelmat ovat ratkaistavissa ilman kieliriippuvaisia resursseja, kuten annotoituja aineistoja, käyttämällä ohjaamatonta koneoppimista. Tämä väitöskirja keskittyy erityisesti yhteen tällaiseen ongelmaan: leksikaalisten perusyksiköiden valintaan. Käytettävien yksiköiden valinta on tekstiaineiston käsittelyn ensimmäinen askel ja edeltää esimerkiksi kielimallien estimointia tai vektoriesitysten laskemista. Perinteisiä ratkaisuja yksiköiden valintaan ovat yksinkertaiset heuristiikat sekä kieliopilliset sääntöpohjaiset työkalut. Niiden sijaan tässä työssä esitetään datalähtöistä, ohjaamattomaan oppimiseen perustuvaa lähestymistapaa yksiköiden valintaan. Sen etuina ovat joustavuus ja riippumattomuus siitä, mitä lingvistisiä resursseja halutulle kielelle ja sovellusalueelle on saatavilla. Koska tilastollisesti opitut yksiköt eivät aina osu yhteen perinteisten kielitieteellisten perusluokkien kanssa, niitä kutsutaan tässä työssä konstruktioiksi. Termi pohjautuu konstruktiokielioppeihin, jotka ovat käyttöpohjaisia, kognitiivisia teorioita kielestä. Väitöskirjassa esitetyt menetelmät konstruktioiden oppimiseen perustuvat Morfessor-nimiseen menetelmään, joka mallintaa morfologista pilkontaa tilastollisesti ja ohjaamattomasti. Uudet menetelmät käsittelevät allomorfian oppimista, morfologisen pilkonnan osittain ohjattua oppimista sekä lausetason konstruktioiden oppimista. Saadut tulokset ovat kilpailukykyisiä erityisesti morfologian oppimisessa. Työssä esitellään myös uusia tekniikoita Morfessorin tuottamien morfologisten konstruktioiden käyttöön tilastollisessa kielenmallinnuksessa ja konekäännöksessä. Käytännön sovellusten ohella Morfessorin osoitetaan toimivan myös psykolingvistisen datan mallinnuksessa: sen todennäköisyysestimaatit sanoille korreloivat vahvasti ihmisten reaktioaikoihin leksikaalisessa päätöksenteossa. Lisäksi väitöskirjassa tutkitaan kielen ohjaamattoman oppimisen suoria evaluaatiomenetelmiä. Suora evaluaatio, esimerkiksi algoritmin tulosten vertaaminen olemassa oleviin kieliopillisiin annotaatioihin, on usein nopeampaa ja yksinkertaisempaa kuin epäsuora evaluaatio kielenkäsittelyn sovellusten toiminnan kautta. Ohjaamattoman oppimisen tapauksessa vertailu annotoituun dataan ei kuitenkaan aina ole suoraviivaista. Tässä väitöskirjassa kehitetään evaluaatiomenetelmiä erityisesti kahteen ongelmaan: sanojen morfologian oppimiseen ja vektorimuotoisten dokumenttiesitysten oppimiseen. Molemmissa on haasteena löytää moniulotteisesta datasta yhteydet eri piirreparien välille. Ehdotetut menetelmät ovat nopeita käyttää ja ne ennustavat hyvin sovelluksista saatuja tuloksia.
Description
Supervising professor
Oja, Erkki, Prof., Aalto University, Finland
Thesis advisor
Kurimo, Mikko, Doc., Aalto University, Finland
Lagus, Krista, Dr., Aalto University, Finland
Keywords
morpheme segmentation, morphology induction, construction grammar, unsupervised learning, semi-supervised learning, probabilistic models, language models, vector space models, machine translation, speech recognition, morfeemipilkonta, morfologian oppiminen, konstruktiokielioppi, ohjaamaton oppiminen, osittain ohjattu oppiminen, todennäköisyysmallit, kielimallit, vektoriavaruusmallit, konekäännös, puheentunnistus
Other note
Parts
  • [Publication 1]: Vesa Siivola, Teemu Hirsimäki, and Sami Virpioja. On growing and pruning Kneser-Ney smoothed n-gram models. IEEE Transactions on Audio, Speech and Language Processing, 15(5):1617–1624, July 2007.
  • [Publication 2]: Sami Virpioja and Mikko Kurimo. Compact n-gram models by incremental growing and clustering of histories. In Proceedings of 9th International Conference on Spoken Language Processing (Interspeech 2006 — ICSLP), Pittsburgh, Pennsylvania, USA, pages 1037–1040, September 2006.
  • [Publication 3]: Sami Virpioja, Mari-Sanna Paukkeri, Abhishek Tripathi, Tiina Lindh-Knuutila, Krista Lagus. Evaluating vector space models with canonical correlation analysis. Natural Language Engineering, 18(03):399–436, July 2012.
  • [Publication 4]: Sami Virpioja, Jaakko J. Vayrynen, Mathias Creutz, and Markus Sadeniemi. Morphology-aware statistical machine translation based on morphs induced in an unsupervised manner. Proceedings of the Machine Translation Summit XI, Copenhagen, Denmark, pages 491-498, September 2007.
  • [Publication 5]: Adria de Gispert, Sami Virpioja, Mikko Kurimo, and William Byrne. Minimum Bayes risk combination of translation hypotheses from alternative morphological decompositions. Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, Boulder, Colorado, USA, pages 73-76, June 2009.
  • [Publication 6]: Sami Virpioja, Ville T. Turunen, Sebastian Spiegler, Oskar Kohonen, and Mikko Kurimo. Empirical comparison of evaluation methods for unsupervised learning of morphology. Traitement Automatique des Langues, 52(2):45–90, 2011.
  • [Publication 7]: Sami Virpioja, Minna Lehtonen, Annika Hulten, Riitta Salmelin, and Krista Lagus. Predicting reaction times in word recognition by unsupervised learning of morphology. In Artificial Neural Networks and Machine Learning—ICANN 2011, Espoo, Finland, June 14–17, 2011, Proceedings, Part I, volume 6791 of Lecture Notes in Computer Science, pages 275–282, June 2011.
  • [Publication 8]: Sami Virpioja, Oskar Kohonen, and Krista Lagus. Unsupervised morpheme analysis with Allomorfessor. In Multilingual Information Access Evaluation I. Text Retrieval Experiments: 10th Workshop of the Cross-Language Evaluation Forum, CLEF 2009, Corfu, Greece, September 30 – October 2, 2009, Revised Selected Papers, volume 6241 of Lecture Notes in Computer Science, pages 609–616, September 2010.
  • [Publication 9]: Sami Virpioja, Oskar Kohonen, and Krista Lagus. Evaluating the effect of word frequencies in a probabilistic generative model of morphology. In Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), Riga, Latvia, pages 230–237, May 2011.
  • [Publication 10]: Oskar Kohonen, Sami Virpioja, and Krista Lagus. Semi-supervised learning of concatenative morphology. In Proceedings of the 11th Meeting of the ACL Special Interest Group on Computational Morphology and Phonology, Uppsala, Sweden, pages 78–86, July 2010.
  • [Publication 11]: Krista Lagus, Oskar Kohonen, and Sami Virpioja. Towards unsupervised learning of constructions from text. In Proceedings of the Workshop on Extracting and Using Constructions in NLP of the 17th Nordic Conference on Computational Linguistics (NODALIDA), Odense, Denmark, SICS Technical Report T2009:10, pages 16–21, May 2009.
Citation