Studies on unsupervised and weakly supervised methods in computational modeling of early language acquisition

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorLaine, Unto K., Prof. Aalto University, Finland
dc.contributor.authorRäsänen, Okko
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.labSpeech Technology Teamen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorLaine, Unto K., Prof. Aalto University, Finland
dc.date.accessioned2013-06-06T09:00:11Z
dc.date.available2013-06-06T09:00:11Z
dc.date.defence2013-06-14
dc.date.issued2013
dc.description.abstractThis thesis addresses computational modeling of early language acquisition using statistical learning mechanisms. There is a constantly increasing amount of evidence from experimental psychology and brain imaging studies that human infants are sensitive to the statistical structure of sensory input and that their ability to extract statistics of speech signals plays a central role in learning of the native language. The idea of domain-general statistical learning mechanisms in language acquisition is in contrast to the nativist view of language acquisition, in which many language-specific innate factors have been traditionally assumed to exist in the human brain. This thesis presents a series of computational studies addressing the questions of what kind of representations are learnable from speech signals and what kind of computational mechanisms are needed for the learning. The core idea is to model language acquisition from the perspective of a tabula rasa agent that does not have any advance knowledge of language or its relevant units such as phones, phonemes, syllables, or words, but simply comes into being with a number of generic statistical learning algorithms. When exposed to speech input in different experimental settings, these algorithms then start to model recurring patterns in the data and link these patterns to contextual variables such as simulated visual input associated with the speech contents. From a machine learning perspective, the studied methods correspond to unsupervised and weakly supervised machine learning algorithms, since language learning takes place without explicit supervision. As a result of these studies, it is shown that spoken words can be learned from continuous speech based on the statistical structure of the speech input and without assuming a phonetic or other linguistically motivated intermediate representation of language. Different strategies for grounding the acoustic word patterns into their visual referents are also studied, and new methods for segmentation of speech into phone-like units and clustering of acoustic features into discrete categories are presented. Finally, it is shown that frequency characteristics of the human auditory system can also be derived from the statistics of speech signals, suggesting that distributional learning in auditory perception may not be limited to learning of linguistic representations of speech.en
dc.description.abstractTämä väitöskirja käsittelee varhaisen kielenoppimisen laskennallista mallinnusta hyödyntäen tilastollisia oppimismenetelmiä. Jatkuvasti kasvava määrä kokeellisen psykologian ja aivotutkimuksen tutkimuksia on osoittanut että ihmislapset ovat herkkiä aistiärsykkeiden tilastollisille ominaisuuksille, ja että näillä tilastollisilla ominaisuuksilla on keskeinen rooli varhaisessa äidinkielen kehityksessä. Ajatus kielen omaksumisesta pelkkänä mukautumisena aistiärsykkeiden rakenteellisiin ominaisuuksiin ilman synnynnäisiä kielispesifejä oppimismekanismeja on ristiriidassa niin kutsutun perinteisen nativistisen ajattelumallin kanssa. Jälkimmäisessä synnynnäisille kielellisille mekanismeille annetaan suuri painoarvo. Tämä väitöskirja sisältää joukon tutkimuksia jotka pyrkivät selvittämään minkälaisia tilastollisia rakenteita on opittavissa puhesignaaleista ja minkälaisilla oppimisalgoritmeilla tämä oppiminen voidaan saavuttaa. Työn ydinajatuksena on lähestyä kielenoppimista niin sanotun “tyhjän” oppivan agentin näkökulmasta. Tällä ei ole minkäänlaista ennakkokäsitystä tai -tietoa kieleen liittyvistä rakenteista, kuten äänteistä, tavuista tai sanoista. Sen sijaan agentti on varustettu tilastolliseen oppimiseen soveltuvilla algoritmeilla, jotka pyrkivät erilaisissa puhetta sisältävissä oppimistilanteissa löytämään signaaleista rakenteellisesti merkittäviä hahmoja. Koneoppimisen näkökulmasta kyseessä on ohjaamattomien ja heikosti ohjattujen hahmontunnistusmenetelmien kehitys ja soveltaminen, sillä varhainen kielenoppiminen tapahtuu poikkeuksetta ilman täsmällistä opetusta. Tutkimuksen tuloksena voidaan osoittaa että puheessa esiintyvät sanat voidaan oppia jatkuvasta puheesta puhesignaalin tilastollisia ominaisuuksia hyödyntäen ja ilman että oppija tulkitsee puheen käyttäen ensin foneettisia tai muita lingvistisesti merkityksellisiä yksiköitä. Tutkimuksessa käydään läpi myös erilaisia oppimisstrategioita sanoja vastaavien akustisten hahmojen sekä niiden merkityksien yhdistämiseen että esitellään uudet menetelmät puheen segmentointiin äänteenkaltaisiksi yksiköiksi sekä akustisten piirteiden kategorisointiin klusteroinnin avulla. Lopuksi työssä osoitetaan, että ihmisen kuulojärjestelmän taajuusominaisuudet voidaan johtaa tilastollisella oppimismenetelmällä suoraan puhesignaalin aika-taajuus -rakenteista. Tämä viittaa siihen, että tilastollinen oppiminen ei välttämättä rajoitu kuulohavaintojen jäsentämisessä pelkästään kielellisten rakenteiden oppimiseen.fi
dc.format.extent74 + app. 122
dc.format.mimetypeapplication/pdf
dc.identifier.isbn978-952-60-5097-3 (electronic)
dc.identifier.isbn978-952-60-5096-6 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/10247
dc.identifier.urnURN:ISBN:978-952-60-5097-3
dc.language.isoenen
dc.opnScharenborg, Odette, Prof., Radboud University Nijmegen, Netherlands
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Okko Räsänen, Unto K. Laine and Toomas Altosaar. Blind segmentation of speech using non-linear filtering methods. In Ivo Ipsic (Eds.): Speech Technologies, InTech, pp. 105–124, 2011
dc.relation.haspart[Publication 2]: Okko Räsänen, Unto K. Laine and Toomas Altosaar. Computational language acquisition by statistical bottom-up processing. Proc. Interspeech'08, Brisbane, Australia, 1980–1983, 2008
dc.relation.haspart[Publication 3]: Okko Räsänen, Unto K. Laine and Toomas Altosaar. Self-learning vector quantization for pattern discovery from speech. Proc. Interspeech'09, Brighton, England, pp. 852–855, 2009
dc.relation.haspart[Publication 4]: Okko Räsänen and Unto K. Laine. A method for noise-robust context-aware pattern discovery from categorical sequences. Pattern Recognition, Vol. 45, pp. 606–616, 2012
dc.relation.haspart[Publication 5]: Okko Räsänen. A computational model of word segmentation from continuous speech using transitional probabilities of atomic acoustic events. Cognition, Vol. 120, pp. 149–176, 2011
dc.relation.haspart[Publication 6]: Okko Räsänen. Context induced merging of synonymous word models in computational modeling of early language acquisition. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP’12), pp. 5037–5040, 2012
dc.relation.haspart[Publication 7]: Okko Räsänen and Heikki Rasilo. Acoustic analysis supports the existence of a single distributional learning mechanism in structural rule learning from an artificial language. Proc. 34th Annual Conference of the Cognitive Science Society (CogSci2012), Sapporo, Japan, pp. 887–892, 2012
dc.relation.haspart[Publication 8]: Okko Räsänen. Average spectrotemporal structure of continuous speech matches with the frequency resolution of human hearing. Proc. Interspeech'2012, Portland, Oregon, 2012
dc.relation.haspart[Publication 9]: Okko Räsänen. Computational modeling of phonetic and lexical learning in early language acquisition: existing models and future directions. Speech Communication, Vol. 54, pp. 975–997, 2012
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries55/2013
dc.revAaltonen, Olli, Prof., University of Helsinki, Finland
dc.revCarlson, Rolf, Prof., Kungliga Tekniska högskolan (KTH), Sweden
dc.subject.keywordcomputational modelingen
dc.subject.keywordlanguage acquisitionen
dc.subject.keywordpattern discoveryen
dc.subject.keywordspeech processingen
dc.subject.keywordcognitive modelingen
dc.subject.keywordspeech segmentationen
dc.subject.keywordunsupervised learningen
dc.subject.keywordlaskennallinen mallinnusfi
dc.subject.keywordkielenoppiminenfi
dc.subject.keywordhahmojen etsintäfi
dc.subject.keywordpuheenkäsittelyfi
dc.subject.keywordkognitiivinen mallinnusfi
dc.subject.keywordpuheen segmentointifi
dc.subject.keywordohjaamaton oppiminenfi
dc.subject.otherComputer scienceen
dc.subject.otherLinguisticsen
dc.titleStudies on unsupervised and weakly supervised methods in computational modeling of early language acquisitionen
dc.titleOhjaamattomat ja heikosti ohjatut menetelmät kielenoppimisen laskennallisessa mallinnuksessafi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_66496

Files

Original bundle

Now showing 1 - 6 of 6
Loading...
Thumbnail Image
Name:
isbn9789526050973.pdf
Size:
1.78 MB
Format:
Adobe Portable Document Format
Loading...
Thumbnail Image
Name:
errata_of_article_P7.pdf
Size:
92.77 KB
Format:
Adobe Portable Document Format
Loading...
Thumbnail Image
Name:
publication1.pdf
Size:
1.07 MB
Format:
Adobe Portable Document Format
Description:
Loading...
Thumbnail Image
Name:
publication4.pdf
Size:
1.01 MB
Format:
Adobe Portable Document Format
Description:
Loading...
Thumbnail Image
Name:
publication5.pdf
Size:
5.34 MB
Format:
Adobe Portable Document Format
Description:
Loading...
Thumbnail Image
Name:
publication9.pdf
Size:
288.33 KB
Format:
Adobe Portable Document Format
Description: