Computational models of associative learning in the acquisition of speech imitation, acoustic word models, and word-meaning mappings

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2017-11-03

Date

2017

Major/Subject

Mcode

Degree programme

Language

en

Pages

71 + app. 91

Series

Aalto University publication series DOCTORAL DISSERTATIONS, 196/2017

Abstract

Human infants manage to learn their native language from noisy and ambiguous language input, but the exact mechanisms underlying language learning are not known. Recent decades of research have shown that so-called statistical learning mechanisms provide a possible way to learn linguistic patterns from sensory signals, either within auditory input or as consistent relations between different perceptual domains. Statistical learning is especially powerful in situations where relevant patterns in different sensory streams do not occur in a one-to-one fashion, enabling the learning of associations that still occur at above-chance level. In this thesis, the potential role of associative statistical learning is studied in the context of three aspects of language learning: learning to imitate the speech of human caregivers, learning words and their segmentation from continuous speech, and learning word-to-meaning mappings. The three tasks are investigated with computational models of human-like learning in ambiguous learning situations.  The first learning task considers the existing hypothesis that infants have to learn to imitate the speech of their parents, rather than the imitation skill being innate. It is hypothesized that infants can use statistical relations between their vocalic babble and caregivers' imitative responses to learn correspondences between the two. In this thesis, a mechanism for the learning of vocal imitation with ambiguous babble-response type input is introduced, and tested using human participants acting as caregivers to a virtual infant. It is also investigated how ambiguous visual information about possible word meanings can be used to bootstrap the learning of acoustic word models and word segmentation in continuous speech. Finally, it is studied what kind of cognitive constraints could explain human behaviour in so-called cross-situational learning experiments, where the subjects need to infer correct word-to-meaning mappings from ambiguous pairings of audiovisual stimuli.  The findings of this thesis indicate that statistical associative learning can be successfully used in several tasks related to language learning, and that highly specialized innate mechanisms related to speech may not be necessary in order for speech learning to take place. The findings and the computational algorithms introduced in this thesis may be of technological use in the implementation of autonomous robots able to learn from their environment, while also offer insight into what learning mechanisms may exist in the human brain and what kinds of stimuli are beneficial in order to facilitate human speech learning.

Ihmislapset oppivat puhumaan ja ymmärtämään äidinkieltään ympäristön ja kuullun puheen vaihtelevuudesta ja monitulkintaisuudesta huolimatta. Kielenoppimismekanismien yksityiskohdat ovat kuitenkin vielä suurilta osin tuntemattomia. Viime vuosikymmenien tutkimus on osoittanut, että ihmiset hyödyntävät niin kutsuttuja tilastollisia oppimismekanismeja hahmottaessaan kieleen liittyviä rakenteita joko puhesignaalista sellaisenaan, tai yhdistäessään puheessa esiintyviä rakenteita ympäristön esineisiin ja tapahtumiin. Jopa monitulkintaisissa tilanteissa, missä yksiselitteisiä vastaavuuksia signaalien sisältämien hahmojen välillä ei ole saatavilla, tilastollinen oppiminen mahdollistaa oikeiden vastaavuuksien löytämisen, jos rakenteelliset samankaltaisuudet esiintyvät riittävän usein yhdessä eri oppimistilanteissa. Tässä väitöskirjassa tutkitaan tilastollisen oppimisen tehokkuutta kolmessa kielenomaksumiseen liittyvässä osaongelmassa: kuinka lapsi oppii matkimaan vanhempiensa puhetta, kuinka akustiset sanamallit ja niiden segmentointi voidaan oppia jatkuvasta puheesta, ja kuinka sanat ja niiden merkitykset opitaan yhdistämään. Näitä kolmea oppimistehtävää lähestytään laskennallisen mallinnuksen kautta, pyrkimyksenä ymmärtää ja kuvata ihmismäistä oppimista samoissa tehtävissä simulaation keinoin. Ensimmäinen oppimistehtävä perustuu tunnettuun hypoteesiin, jonka mukaan lapset eivät osaa synnynnäisesti matkia vanhempiensa puhetta vaan matkimistaito täytyy oppia. Tässä työssä oletetaan, että lapset voivat käyttää oman jokelluksensa ja vanhempien vastauksen välisiä tilastollisia riippuvuuksia oppimaan näiden kahden välisiä yhteyksiä. Tässä väitöskirjassa kuvataan menetelmä, jonka avulla tällaisia monitulkintaisia jokellus-vastaus pareja voidaan käyttää apuna puheen matkimisen opettelussa. Menetelmää testataan käyttämällä ihmiskoehenkilöitä jotka toimivat vanhempana virtuaaliselle lapselle. Väitöskirjassa kuvataan myös menetelmä, jonka avulla jatkuvaan puheeseen liittyviä moniselitteisiä sanamerkityksiä voidaan käyttää apuna akustisten sanamallien oppimiseen sekä sanojen segmentoimiseen jatkuvasta puheesta. Työssä tutkitaan myös, minkälaiset kognitiiviset rajoitteet ja reunaehdot johtavat ihmismäiseen sana-merkitys parien oppimiseen koetilanteissa, joissa koehenkilöt (tai malli) altistetaan monitulkintaisille audiovisuaalisille ärsykkeille. Työn tulokset osoittavat, että tilastolliset oppimisperiaatteet voivat selittää suurelta osin useita erilaisia puheenoppimisen osa-alueita, ja että ihminen ei välttämättä tarvitse vahvasti erikoistuneita kielellisiä mekanismeja puheen oppimiseksi. Väitöskirjassa kehitettyjä algoritmeja voi myös käyttää teknologisissa sovelluksissa kuten esimerkiksi roboteissa jotka oppivat autonomisesti tulkitsemaan eri signaalien välisiä yhteyksiä ympäristössään. Tulokset antavat myös vihjeitä siitä, millaisia oppimisalgoritmeja ihmisaivot mahdollisesti sisältävät ja minkälaiset virikkeet ovat tärkeitä ihmisoppijoille kielenoppimisen yhteydessä.

Description

Supervising professor

Laine, Unto K., Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Alku, Paavo, Academy Prof., Department of Signal Processing and Acoustics, Aalto University, Finland
de Boer, Bart, Prof., Vrije Universiteit Brussel, Belgium

Thesis advisor

Räsänen, Okko, Dr., Aalto University, Department of Signal Processing and Acoustics, Finland

Keywords

language acquisition, speech imitation, articulation, weakly supervised learning, associative learning, word recognition, segmentation, kielenoppiminen, puheen matkiminen, artikulaatio, heikosti ohjattu oppiminen, assosiatiivinen oppiminen, sanantunnistus, segmentointi

Other note

Parts

  • [Publication 1]: Rasilo, H., Räsänen, O., & Laine, U. K. (2013). Feedback and imitation by a caregiver guides a virtual infant to learn native phonemes and the skill of speech inversion. Speech Communication, 55 (9), 909-931.
    DOI: 10.1016/j.specom.2013.05.002 View at publisher
  • [Publication 2]: Rasilo, H., Räsänen, O., & de Boer, B. (2013). Virtual infant's online acquisition of vowel categories and their mapping between dissimilar bodies. In proceedings of the Workshop on Speech Production in Automatic Speech Recognition, Lyon, France. http://ttic.uchicago.edu/~klivescu/SPASR2013/
  • [Publication 3]: Rasilo, H. & Räsänen, O. (2017), An online model for vowel imitation learning, Speech Communication, 86, 1-23.
    DOI: 10.1016/j.specom.2016.10.010 View at publisher
  • [Publication 4]: Rasilo, H., & Räsänen, O. (2015). Weakly-supervised word learning is improved by an active online algorithm. Proceedings of Interspeech 2015, Dresden, Germany, 1561–1565.
  • [Publication 5]: Rasilo, H (2017) Weakly supervised word segmentation and HMM bootstrapping algorithm, submitted for publication
  • [Publication 6]: Rasilo, H., & Räsänen, O. (2015). Computational evidence for effects of memory decay, familiarity preference and mutual exclusivity in crosssituational learning. In 37th Annual Conference of the Cognitive Science Society, Pasadena, California, 1955–1960.

Citation