Computational models of associative learning in the acquisition of speech imitation, acoustic word models, and word-meaning mappings

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Räsänen, Okko, Dr., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.author Rasilo, Heikki
dc.date.accessioned 2017-10-20T09:02:48Z
dc.date.available 2017-10-20T09:02:48Z
dc.date.issued 2017
dc.identifier.isbn 978-952-60-7658-4 (electronic)
dc.identifier.isbn 978-952-60-7659-1 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/28403
dc.description.abstract Human infants manage to learn their native language from noisy and ambiguous language input, but the exact mechanisms underlying language learning are not known. Recent decades of research have shown that so-called statistical learning mechanisms provide a possible way to learn linguistic patterns from sensory signals, either within auditory input or as consistent relations between different perceptual domains. Statistical learning is especially powerful in situations where relevant patterns in different sensory streams do not occur in a one-to-one fashion, enabling the learning of associations that still occur at above-chance level. In this thesis, the potential role of associative statistical learning is studied in the context of three aspects of language learning: learning to imitate the speech of human caregivers, learning words and their segmentation from continuous speech, and learning word-to-meaning mappings. The three tasks are investigated with computational models of human-like learning in ambiguous learning situations.  The first learning task considers the existing hypothesis that infants have to learn to imitate the speech of their parents, rather than the imitation skill being innate. It is hypothesized that infants can use statistical relations between their vocalic babble and caregivers' imitative responses to learn correspondences between the two. In this thesis, a mechanism for the learning of vocal imitation with ambiguous babble-response type input is introduced, and tested using human participants acting as caregivers to a virtual infant. It is also investigated how ambiguous visual information about possible word meanings can be used to bootstrap the learning of acoustic word models and word segmentation in continuous speech. Finally, it is studied what kind of cognitive constraints could explain human behaviour in so-called cross-situational learning experiments, where the subjects need to infer correct word-to-meaning mappings from ambiguous pairings of audiovisual stimuli.  The findings of this thesis indicate that statistical associative learning can be successfully used in several tasks related to language learning, and that highly specialized innate mechanisms related to speech may not be necessary in order for speech learning to take place. The findings and the computational algorithms introduced in this thesis may be of technological use in the implementation of autonomous robots able to learn from their environment, while also offer insight into what learning mechanisms may exist in the human brain and what kinds of stimuli are beneficial in order to facilitate human speech learning. en
dc.description.abstract Ihmislapset oppivat puhumaan ja ymmärtämään äidinkieltään ympäristön ja kuullun puheen vaihtelevuudesta ja monitulkintaisuudesta huolimatta. Kielenoppimismekanismien yksityiskohdat ovat kuitenkin vielä suurilta osin tuntemattomia. Viime vuosikymmenien tutkimus on osoittanut, että ihmiset hyödyntävät niin kutsuttuja tilastollisia oppimismekanismeja hahmottaessaan kieleen liittyviä rakenteita joko puhesignaalista sellaisenaan, tai yhdistäessään puheessa esiintyviä rakenteita ympäristön esineisiin ja tapahtumiin. Jopa monitulkintaisissa tilanteissa, missä yksiselitteisiä vastaavuuksia signaalien sisältämien hahmojen välillä ei ole saatavilla, tilastollinen oppiminen mahdollistaa oikeiden vastaavuuksien löytämisen, jos rakenteelliset samankaltaisuudet esiintyvät riittävän usein yhdessä eri oppimistilanteissa. Tässä väitöskirjassa tutkitaan tilastollisen oppimisen tehokkuutta kolmessa kielenomaksumiseen liittyvässä osaongelmassa: kuinka lapsi oppii matkimaan vanhempiensa puhetta, kuinka akustiset sanamallit ja niiden segmentointi voidaan oppia jatkuvasta puheesta, ja kuinka sanat ja niiden merkitykset opitaan yhdistämään. Näitä kolmea oppimistehtävää lähestytään laskennallisen mallinnuksen kautta, pyrkimyksenä ymmärtää ja kuvata ihmismäistä oppimista samoissa tehtävissä simulaation keinoin. Ensimmäinen oppimistehtävä perustuu tunnettuun hypoteesiin, jonka mukaan lapset eivät osaa synnynnäisesti matkia vanhempiensa puhetta vaan matkimistaito täytyy oppia. Tässä työssä oletetaan, että lapset voivat käyttää oman jokelluksensa ja vanhempien vastauksen välisiä tilastollisia riippuvuuksia oppimaan näiden kahden välisiä yhteyksiä. Tässä väitöskirjassa kuvataan menetelmä, jonka avulla tällaisia monitulkintaisia jokellus-vastaus pareja voidaan käyttää apuna puheen matkimisen opettelussa. Menetelmää testataan käyttämällä ihmiskoehenkilöitä jotka toimivat vanhempana virtuaaliselle lapselle. Väitöskirjassa kuvataan myös menetelmä, jonka avulla jatkuvaan puheeseen liittyviä moniselitteisiä sanamerkityksiä voidaan käyttää apuna akustisten sanamallien oppimiseen sekä sanojen segmentoimiseen jatkuvasta puheesta. Työssä tutkitaan myös, minkälaiset kognitiiviset rajoitteet ja reunaehdot johtavat ihmismäiseen sana-merkitys parien oppimiseen koetilanteissa, joissa koehenkilöt (tai malli) altistetaan monitulkintaisille audiovisuaalisille ärsykkeille. Työn tulokset osoittavat, että tilastolliset oppimisperiaatteet voivat selittää suurelta osin useita erilaisia puheenoppimisen osa-alueita, ja että ihminen ei välttämättä tarvitse vahvasti erikoistuneita kielellisiä mekanismeja puheen oppimiseksi. Väitöskirjassa kehitettyjä algoritmeja voi myös käyttää teknologisissa sovelluksissa kuten esimerkiksi roboteissa jotka oppivat autonomisesti tulkitsemaan eri signaalien välisiä yhteyksiä ympäristössään. Tulokset antavat myös vihjeitä siitä, millaisia oppimisalgoritmeja ihmisaivot mahdollisesti sisältävät ja minkälaiset virikkeet ovat tärkeitä ihmisoppijoille kielenoppimisen yhteydessä. fi
dc.format.extent 71 + app. 91
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 196/2017
dc.relation.haspart [Publication 1]: Rasilo, H., Räsänen, O., & Laine, U. K. (2013). Feedback and imitation by a caregiver guides a virtual infant to learn native phonemes and the skill of speech inversion. Speech Communication, 55 (9), 909-931. DOI: 10.1016/j.specom.2013.05.002
dc.relation.haspart [Publication 2]: Rasilo, H., Räsänen, O., & de Boer, B. (2013). Virtual infant's online acquisition of vowel categories and their mapping between dissimilar bodies. In proceedings of the Workshop on Speech Production in Automatic Speech Recognition, Lyon, France. http://ttic.uchicago.edu/~klivescu/SPASR2013/
dc.relation.haspart [Publication 3]: Rasilo, H. & Räsänen, O. (2017), An online model for vowel imitation learning, Speech Communication, 86, 1-23. DOI: 10.1016/j.specom.2016.10.010
dc.relation.haspart [Publication 4]: Rasilo, H., & Räsänen, O. (2015). Weakly-supervised word learning is improved by an active online algorithm. Proceedings of Interspeech 2015, Dresden, Germany, 1561–1565.
dc.relation.haspart [Publication 5]: Rasilo, H (2017) Weakly supervised word segmentation and HMM bootstrapping algorithm, submitted for publication
dc.relation.haspart [Publication 6]: Rasilo, H., & Räsänen, O. (2015). Computational evidence for effects of memory decay, familiarity preference and mutual exclusivity in crosssituational learning. In 37th Annual Conference of the Cognitive Science Society, Pasadena, California, 1955–1960.
dc.subject.other Acoustics en
dc.subject.other Linguistics en
dc.subject.other Computer science en
dc.title Computational models of associative learning in the acquisition of speech imitation, acoustic word models, and word-meaning mappings en
dc.title Assosiatiivisen oppimisen laskennallinen mallinnus puheen matkimisen, sanamallien ja sana-merkitysparien oppimisessa fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Sähkötekniikan korkeakoulu fi
dc.contributor.school School of Electrical Engineering en
dc.contributor.department Signaalinkäsittelyn ja akustiikan laitos fi
dc.contributor.department Department of Signal Processing and Acoustics en
dc.subject.keyword language acquisition en
dc.subject.keyword speech imitation en
dc.subject.keyword articulation en
dc.subject.keyword weakly supervised learning en
dc.subject.keyword associative learning en
dc.subject.keyword word recognition en
dc.subject.keyword segmentation en
dc.subject.keyword kielenoppiminen fi
dc.subject.keyword puheen matkiminen fi
dc.subject.keyword artikulaatio fi
dc.subject.keyword heikosti ohjattu oppiminen fi
dc.subject.keyword assosiatiivinen oppiminen fi
dc.subject.keyword sanantunnistus fi
dc.subject.keyword segmentointi fi
dc.identifier.urn URN:ISBN:978-952-60-7658-4
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Laine, Unto K., Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.supervisor Alku, Paavo, Academy Prof., Department of Signal Processing and Acoustics, Aalto University, Finland
dc.contributor.supervisor de Boer, Bart, Prof., Vrije Universiteit Brussel, Belgium
dc.opn Moore, Roger K., Prof., University of Sheffield, United Kingdom
dc.contributor.lab Vrije Universiteit Brussel en
dc.rev Kröger, Bernd J., Prof., RWTH Aachen University, Germany
dc.rev ten Bosch, Louis, Dr., Radboud University, The Netherlands
dc.date.defence 2017-11-03


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account