Emergence of representations in natural data

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2017-09-22
Date
2017
Major/Subject
Mcode
Degree programme
Language
en
Pages
151 + app. 121
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 160/2017
Abstract
This dissertation models natural image and language data with data-driven methods with focus in the interpretation of the emergent representation. Cognitive development and processing learns to handle input from the surrounding environment. Similarly, data-driven methods offer a flexible way to find exploratory views of the data. Independent Component Analysis (ICA) is a proven unsupervised method especially in the field of neural signal processing. It can extract cognitively relevant source signals from seemingly garbled signal mixtures with the assumption of statistical independence. The concept is closely related to sparse coding, which is neurobiologically efficient and is a view of how sensory information is processed in the brain. In the analysis of small video segments, another statistical concept, temporal coherence, is applied and the results are compared to those of ICA. The representations learned share major characteristics with those measured from the early processing in the visual cortex. A unified model which combines sparseness, temporal coherence and topological organization is introduced. With similar methodological tools, the focus is shifted to natural language data with only minimal preprocessing in order to create language-independent methods. The meaning of words can be modeled with contextual co-occurrence information collected from a large corpus and vector space models. In contrast to classical methods utilizing second-order statistics, the ICA method can reveal the underlying sparse structure and make the representation more interpretable. In addition to validating the applied unsupervised methodology, the experimental results indicate that the parametrization of the data has a very large effect on the representation learned. With the developed analysis tools, the structure learned is matched to syntactic and semantic features at different levels. For translated sentence pairs, the result is a multilingual representation for words. The increased sparsity of the representations learned is validated by further nonlinear thresholding. The findings can be utilized to build distributional models for words which match better with semantic theories of word classes and relationships among word meanings in natural language processing tasks where more interpretability is desired.

Tässä väitöskirjassa mallinnetaan aineistolähteisesti luonnollisia kuvia ja tekstiä sekä tarkastellaan niistä löydettyjä esitystapoja. Ympäristöstä tulevat ärsykkeet ohjaavat kognitiivista kehitystä ja aivojen toimintaa. Aineistolähtöiset laskennalliset menetelmät tarjoavat vastaavasti joustavan tavan löytää erilaisia eksploratiivisia näkökulmia. Riippumattomien komponenttien analyysi (ICA) on ansioitunut ohjaamaton tilastollinen menetelmä erityisesti hermostollisten vasteiden käsittelyssä. Se pystyy erottamaan kognitiivisesti olennaiset lähteet näennäisesti sekoittuneista signaaleista tilastollisen riippumattomuusoletuksen avulla. Tämä konsepti liittyy läheisesti harvakoodaukseen, joka on neurobiologisesti tehokas ja edustaa näkemystä aistitiedon käsittelystä aivoissa. Työssä sovelletaan myös toista tilastollista käsitettä, temporaalista koherenssia, videoanalyysissä ja verrataan sitä ICA-menetelmään. Löydetyt esitykset mallintavat samoja ominaisuuksia kuin primäärin näköaivokuoren yksittäissolut. Työssä esitetään yhteismalli, joka yhdistää harvuuden, temporaalisen koherenssin ja topologisen järjestymisen. Samanlaisia menetelmällisiä työkaluja sovelletaan myös luonnollisen kielen mallintamiseen. Työssä käytetään pelkistettyä esikäsittelyä kieliriippumattomien menetelmien aikaansaamiseksi. Sanojen merkityksiä mallinnetaan kontekstuaalisten yhteisesiintymien avulla isosta korpuksesta vektoriavaruusmalleilla. ICA-menetelmällä paljastetaan alla oleva harva rakenne ja tehdään esityksistä helpommin tulkittavia verrattuna klassisiin menetelmiin, jotka perustuvat toisen asteen tilastollisiin ominaisuuksiin. Kokeelliset tulokset vahvistavat käytettyjen ohjaamattomien menetelmien toimivuuden ja osoittavat, että aineiston parametrisoinnilla on merkittävä vaikutus löydettyihin esityksiin. Työssä kehitetyillä analyysimenetelmillä havaitaan löydettyjen piirteiden vastaavan eri tasoilla olevia perinteisiä syntaktisia ja semanttisia kategorioita sekä sanojen välisiä suhteita. Tulokset laajenevat myös monikieliseen aineistoon ja löydettyjen sanaesitysten lisääntynyt harvuus vahvistetaan epälineaarisella kynnystyksellä. Työn tuloksia voidaan käyttää rakentamaan distributionaalisia malleja luonnollisen kielen käsittelyn tehtävissä, joissa tulkittavuus on toivottu ominaisuus.
Description
Supervising professor
Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Creutz, Mathias, Dr., University of Helsinki, Finland
Keywords
lexical semantics, vision, language, meaning, computational modeling, vector space models, unsupervised learning, language independence, machine learning, leksikaalinen semantiikka, näkö, kieli, merkitys, laskennallinen mallintaminen, vektoriavaruusmalli, ohjaamaton oppiminen, kieliriippumattomuus, koneoppiminen
Other note
Parts
  • [Publication 1]: Jarmo Hurri, Jaakko Väyrynen and Aapo Hyvärinen. Spatiotemporal receptive fields maximizing temporal coherence in natural image sequences. Neurocomputing, 58–60:815–820, June 2004.
    DOI: 10.1016/j.neucom.2004.01.132 View at publisher
  • [Publication 2]: Aapo Hyvärinen, Jarmo Hurri and Jaakko Väyrynen. Bubbles: A unifying framework for low-level statistical properties of natural image sequences. Journal of the Optical Society of America A, 20(7):1237–1252, July 2003.
    DOI: 10.1364/JOSAA.20.001237 View at publisher
  • [Publication 3]: Timo Honkela, Aapo Hyvärinen and Jaakko Väyrynen. Emergence of linguistic features: Independent component analysis of contexts. In Proceedings of the Ninth Neural Computation and Psychology Workshop (NCPW9), Progress in Neural Processing, Volume 16, Modeling Language, Cognition and Action, Plymouth, England, pages 129–138, July 2005.
  • [Publication 4]: Jaakko J. Väyrynen, Timo Honkela and Aapo Hyvärinen. Independent component analysis of word contexts and comparison with traditional categories. In Proceedings of the 6th Nordic Signal Processing Symposium (NORSIG 2004), Espoo, Finland, Number 46 in Helsinki University of Technology Signal Processing Laboratory Report Series, pages. 300–303, June 2004.
  • [Publication 5]: Timo Honkela, Aapo Hyvärinen and Jaakko Väyrynen. WordICA — Emergence of linguistic representations for words by independent component analysis. Natural Language Engineering, 16(03):277–308, July 2010.
    DOI: 10.1017/S1351324910000057 View at publisher
  • [Publication 6]: Jaakko J. Väyrynen, Lasse Lindqvist and Timo Honkela. Sparse distributed representations for words with thresholded independent component analysis. In Proceedings of the 2007 International Joint Conference on Neural Networks (IJCNN), Orlando, USA, pages 1031–1036, August 2007.
    DOI: 10.1109/IJCNN.2007.4371100 View at publisher
  • [Publication 7]: Tiina Lindh-Knuutila, Jaakko Väyrynen and Timo Honkela. Semantic analysis in word vector spaces with ICA and feature selection. In The 11th Conference on Natural Language Processing (KONVENS), Vienna, Austria, pages 98–107, September 2012.
  • [Publication 8]: Jaakko J. Väyrynen and Tiina Lindh-Knuutila. Emergence of multilingual representations by independent component analysis using parallel corpora. In The Ninth Scandinavian Conference on Artificial Intelligence (SCAI 2006), Espoo, Finland, pages 101–105, October 2006.
  • [Publication 9]: Timo Honkela, Sami Virpioja and Jaakko Väyrynen. Adaptive translation: Finding interlingual mappings using self-organizing maps. In ICANN 2008, International Conference on Artificial Neural Networks, Prague, Czech Republic, pages 603–612, September 2008.
Citation