Studies on unsupervised and weakly supervised methods in computational modeling of early language acquisition
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Doctoral thesis (article-based)
| Defence date: 2013-06-14
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Major/Subject
Mcode
Degree programme
Language
en
Pages
74 + app. 122
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 55/2013
Abstract
This thesis addresses computational modeling of early language acquisition using statistical learning mechanisms. There is a constantly increasing amount of evidence from experimental psychology and brain imaging studies that human infants are sensitive to the statistical structure of sensory input and that their ability to extract statistics of speech signals plays a central role in learning of the native language. The idea of domain-general statistical learning mechanisms in language acquisition is in contrast to the nativist view of language acquisition, in which many language-specific innate factors have been traditionally assumed to exist in the human brain. This thesis presents a series of computational studies addressing the questions of what kind of representations are learnable from speech signals and what kind of computational mechanisms are needed for the learning. The core idea is to model language acquisition from the perspective of a tabula rasa agent that does not have any advance knowledge of language or its relevant units such as phones, phonemes, syllables, or words, but simply comes into being with a number of generic statistical learning algorithms. When exposed to speech input in different experimental settings, these algorithms then start to model recurring patterns in the data and link these patterns to contextual variables such as simulated visual input associated with the speech contents. From a machine learning perspective, the studied methods correspond to unsupervised and weakly supervised machine learning algorithms, since language learning takes place without explicit supervision. As a result of these studies, it is shown that spoken words can be learned from continuous speech based on the statistical structure of the speech input and without assuming a phonetic or other linguistically motivated intermediate representation of language. Different strategies for grounding the acoustic word patterns into their visual referents are also studied, and new methods for segmentation of speech into phone-like units and clustering of acoustic features into discrete categories are presented. Finally, it is shown that frequency characteristics of the human auditory system can also be derived from the statistics of speech signals, suggesting that distributional learning in auditory perception may not be limited to learning of linguistic representations of speech.Tämä väitöskirja käsittelee varhaisen kielenoppimisen laskennallista mallinnusta hyödyntäen tilastollisia oppimismenetelmiä. Jatkuvasti kasvava määrä kokeellisen psykologian ja aivotutkimuksen tutkimuksia on osoittanut että ihmislapset ovat herkkiä aistiärsykkeiden tilastollisille ominaisuuksille, ja että näillä tilastollisilla ominaisuuksilla on keskeinen rooli varhaisessa äidinkielen kehityksessä. Ajatus kielen omaksumisesta pelkkänä mukautumisena aistiärsykkeiden rakenteellisiin ominaisuuksiin ilman synnynnäisiä kielispesifejä oppimismekanismeja on ristiriidassa niin kutsutun perinteisen nativistisen ajattelumallin kanssa. Jälkimmäisessä synnynnäisille kielellisille mekanismeille annetaan suuri painoarvo. Tämä väitöskirja sisältää joukon tutkimuksia jotka pyrkivät selvittämään minkälaisia tilastollisia rakenteita on opittavissa puhesignaaleista ja minkälaisilla oppimisalgoritmeilla tämä oppiminen voidaan saavuttaa. Työn ydinajatuksena on lähestyä kielenoppimista niin sanotun “tyhjän” oppivan agentin näkökulmasta. Tällä ei ole minkäänlaista ennakkokäsitystä tai -tietoa kieleen liittyvistä rakenteista, kuten äänteistä, tavuista tai sanoista. Sen sijaan agentti on varustettu tilastolliseen oppimiseen soveltuvilla algoritmeilla, jotka pyrkivät erilaisissa puhetta sisältävissä oppimistilanteissa löytämään signaaleista rakenteellisesti merkittäviä hahmoja. Koneoppimisen näkökulmasta kyseessä on ohjaamattomien ja heikosti ohjattujen hahmontunnistusmenetelmien kehitys ja soveltaminen, sillä varhainen kielenoppiminen tapahtuu poikkeuksetta ilman täsmällistä opetusta. Tutkimuksen tuloksena voidaan osoittaa että puheessa esiintyvät sanat voidaan oppia jatkuvasta puheesta puhesignaalin tilastollisia ominaisuuksia hyödyntäen ja ilman että oppija tulkitsee puheen käyttäen ensin foneettisia tai muita lingvistisesti merkityksellisiä yksiköitä. Tutkimuksessa käydään läpi myös erilaisia oppimisstrategioita sanoja vastaavien akustisten hahmojen sekä niiden merkityksien yhdistämiseen että esitellään uudet menetelmät puheen segmentointiin äänteenkaltaisiksi yksiköiksi sekä akustisten piirteiden kategorisointiin klusteroinnin avulla. Lopuksi työssä osoitetaan, että ihmisen kuulojärjestelmän taajuusominaisuudet voidaan johtaa tilastollisella oppimismenetelmällä suoraan puhesignaalin aika-taajuus -rakenteista. Tämä viittaa siihen, että tilastollinen oppiminen ei välttämättä rajoitu kuulohavaintojen jäsentämisessä pelkästään kielellisten rakenteiden oppimiseen.Description
Supervising professor
Laine, Unto K., Prof. Aalto University, FinlandThesis advisor
Laine, Unto K., Prof. Aalto University, FinlandKeywords
Other note
Parts
- [Publication 1]: Okko Räsänen, Unto K. Laine and Toomas Altosaar. Blind segmentation of speech using non-linear filtering methods. In Ivo Ipsic (Eds.): Speech Technologies, InTech, pp. 105–124, 2011
- [Publication 2]: Okko Räsänen, Unto K. Laine and Toomas Altosaar. Computational language acquisition by statistical bottom-up processing. Proc. Interspeech'08, Brisbane, Australia, 1980–1983, 2008
- [Publication 3]: Okko Räsänen, Unto K. Laine and Toomas Altosaar. Self-learning vector quantization for pattern discovery from speech. Proc. Interspeech'09, Brighton, England, pp. 852–855, 2009
- [Publication 4]: Okko Räsänen and Unto K. Laine. A method for noise-robust context-aware pattern discovery from categorical sequences. Pattern Recognition, Vol. 45, pp. 606–616, 2012
- [Publication 5]: Okko Räsänen. A computational model of word segmentation from continuous speech using transitional probabilities of atomic acoustic events. Cognition, Vol. 120, pp. 149–176, 2011
- [Publication 6]: Okko Räsänen. Context induced merging of synonymous word models in computational modeling of early language acquisition. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP’12), pp. 5037–5040, 2012
- [Publication 7]: Okko Räsänen and Heikki Rasilo. Acoustic analysis supports the existence of a single distributional learning mechanism in structural rule learning from an artificial language. Proc. 34th Annual Conference of the Cognitive Science Society (CogSci2012), Sapporo, Japan, pp. 887–892, 2012
- [Publication 8]: Okko Räsänen. Average spectrotemporal structure of continuous speech matches with the frequency resolution of human hearing. Proc. Interspeech'2012, Portland, Oregon, 2012
- [Publication 9]: Okko Räsänen. Computational modeling of phonetic and lexical learning in early language acquisition: existing models and future directions. Speech Communication, Vol. 54, pp. 975–997, 2012