Learning Centre

Computational Modeling and Simulation of Language and Meaning: Similarity-Based Approaches

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Honkela, Timo, Prof., Aalto University, Department of Information and Computer Science, Finland
dc.contributor.advisor Creutz, Mathias, Dr., Aalto University, Department of Information and Computer Science, Finland
dc.contributor.author Lindh-Knuutila, Tiina
dc.date.accessioned 2014-04-24T09:00:10Z
dc.date.available 2014-04-24T09:00:10Z
dc.date.issued 2014
dc.identifier.isbn 978-952-60-5644-9 (electronic)
dc.identifier.isbn 978-952-60-5643-2 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/12928
dc.description.abstract This dissertation covers various similarity-based, data-driven approaches to model language and lexical semantics. The availability of large amounts of text data in electronic form allows the use of unsupervised, data-driven methodologies. Compared to linguistic models based on expert knowledge, which are often costly or unavailable, the data-driven analysis is faster and more flexible. The same methodologies can be often used regardless of the language. In addition, data-driven analysis may be exploratory and offer a new view on the data. The complexity of different European languages was analyzed at syntactic and morphological level using unsupervised methods based on compression and unsupervised morphology induction. The results showed that the unsupervised methods are able to produce useful analyses that correspond to linguistic models. The distributional word vector space models represent the meaning of words in a text context of co-occurring words, collected from a large corpus. The vector space models were evaluated with linguistic models and human semantic similarity judgment data. Two unsupervised methods, Independent Component Analysis and Latent Dirichlet Allocation, were able to find groups of semantically similar words, corresponding reasonably well to the evaluation sets. In addition to validating the results of the unsupervised methods with the evaluation data, the research was also exploratory. The unsupervised methods found semantic word sets not covered by the evaluation set, and the analysis of the categories of the evaluation sets showed quality differences between the categories. In the agent simulation models, the meaning of words was directly linked to the perceived context of the agent. Each agent had a subjective conceptual memory, in which the associations between words and perceptions were formed. In a population of simulated agents, the emergence of a shared vocabulary was studied through simulated language games. As a result of the simulations, a shared vocabulary emerges in the community. en
dc.description.abstract Tämä väitöskirja kattaa useita samankaltaisuuteen perustuvia datalähtöisiä menetelmiä, joita käytetään kielen ja merkityksen mallintamiseen. Suuret, sähköisessä muodossa olevat tekstiaineistot mahdollistavat ohjaamattomien datalähtöisten menetelmien käytön. Verrattuna asiantuntijoiden tuottamiin lingvistisiin malleihin, jotka ovat usein kalliita tai joita ei aina ole saatavilla, datalähtöinen analyysi on nopeampaa ja usein joustavampaa. Samat menetelmät sopivat usein kielestä riippumatta. Lisäksi datalähtöinen analyysi voi olla eksploratiivista ja siten tarjota uuden näkökulman aineistoon. Tässä työssä analysoitiin useiden eurooppalaisten kielten syntaktisen ja morfologisen tason kompleksisuutta ohjaamattomilla menetelmillä, jotka perustuvat datan kompressioon ja ohjaamattomaan morfologian oppimiseen. Tulokset osoittavat, että ohjaamattomat menetelmät tuottavat hyödyllisiä tuloksia, jotka vastaavat lingvistisiä malleja. Jakaumiin perustuvat sana-avaruusmallit (Vector Space Models) käyttävät sanojen merkityksen esittämiseen sanojen kontekstia eli sanojen välisiä yhteisesiintymiä, jotka kerätään laajoista tekstiaineistoista. Tässä työssä käytettiin sana-avaruusmalleja, joita evaluoitiin käyttäen lingvistisiä malleja ja semanttisia evaluaatioaineistoja. Työssä käytettiin kahta ohjaamatonta menetelmää, riippumattomien komponenttien analyysia (Independent Component Analysis) sekä latenttia Dirichlet-allokaatiota (Latent Dirichlet Allocation), joilla löydettin semanttisesti samankaltaisia sanajoukkoja, jotka vastasivat kohtuullisen hyvin evaluaatioaineistoja. Evaluaatiotulosten lisäksi tutkimuksessa oli myös eksploratiivinen komponentti. Ohjaamattomat menetelmät löysivät merkitykseltään samankaltaisia sanajoukkoja, jotka puuttuivat evaluaatioaineistoista. Lisäksi menetelmillä löydettiin laadullisia eroja kategorioiden välillä. Agenttisimulaatiomallissa sanojen merkitys liittyi suoraan agentin havaitsemaan kontekstiin. Jokaisella agentilla oli oma subjektiivinen käsitemuisti, jossa assosiaatiot sanojen ja havaintojen välillä muodostuivat. Tässä työssä jaetun kielen syntyä tutkittiin useiden simuloitujen agenttien muodostamassa populaatiossa, jossa agentit kommunikoivat simuloituja kielipelejä käyttäen. Simulaatiokokeiden tuloksena jaettu kieli syntyy agenttipopulaatiossa. fi
dc.format.extent 165 + app. 145
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 49/2014
dc.relation.haspart [Publication 1]: Timo Honkela, Tiina Lindh-Knuutila and Krista Lagus. Measuring Adjective Spaces. In The International Conference on Artificial Neural Networks (ICANN 2010), LNCS Vol. 6352, Athens, Greece, pages 351–355, September 2010.
dc.relation.haspart [Publication 2]: Tiina Lindh-Knuutila, Jaakko J. Vayrynen and Timo Honkela. Semantic analysis in word vector spaces with ICA and feature selection. In The 11th Conference on Natural Language Processing (KONVENS), Vienna, Austria, pages 98–107. OGAI, September 2012.
dc.relation.haspart [Publication 3]: Tiina Lindh-Knuutila and Timo Honkela. Exploratory text analysis: Data-driven versus human semantic similarity judgments. In The International Conference on Adaptive and Natural Computing Algorithms (ICANNGA’13), LNCS Vol. 7824, Lausanne, Switzerland, pages 428–437, April 2013.
dc.relation.haspart [Publication 4]: Tiina Lindh-Knuutila and Timo Honkela. Exploratory analysis of semantic categories: Comparing data-driven and human similarity judgments. Submitted to Computational Cognitive Science, 26 pages, January 2014.
dc.relation.haspart [Publication 5]: Tiina Lindh-Knuutila, Timo Honkela and Krista Lagus. Simulating meaning negotiation using observational language games. In The Workshop on the Emergence and Evolution of Linguistic Communication (EELC 2006), LNCS Vol. 4211, Rome, Italy, pages 168–179, September 2006.
dc.relation.haspart [Publication 6]: Tiina Lindh-Knuutila, Juha Raitio and Timo Honkela. Combining self-organizing and Bayesian models of concept formation. In Proceedings of the Eleventh Neural Computation and Psychology Workshop, Progress in Neural Processing, Vol. 18, Connectionist Models of Behaviour and Cognition II, Oxford, UK, pages 193–204, July 2009.
dc.relation.haspart [Publication 7]: Timo Honkela, Ville Kononen, Tiina Lindh-Knuutila and Mari-Sanna Paukkeri. Simulating processes of concept formation and communication. Journal of Economic Methodology, Vol. 15, No. 3, pages 245–259, September 2008.
dc.subject.other Computer science en
dc.subject.other Linguistics en
dc.title Computational Modeling and Simulation of Language and Meaning: Similarity-Based Approaches en
dc.title Kielen ja merkityksen laskennallinen mallintaminen ja simulointi: samankaltaisuuteen perustuvia menetelmiä fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietojenkäsittelytieteen laitos fi
dc.contributor.department Department of Information and Computer Science en
dc.subject.keyword lexical semantics en
dc.subject.keyword language en
dc.subject.keyword meaning en
dc.subject.keyword computational modeling en
dc.subject.keyword vector space models en
dc.subject.keyword language complexity en
dc.subject.keyword agent simulation en
dc.subject.keyword unsupervised learning en
dc.subject.keyword machine learning en
dc.subject.keyword leksikaalinen semantiikka fi
dc.subject.keyword kieli fi
dc.subject.keyword merkitys fi
dc.subject.keyword laskennallinen mallintaminen fi
dc.subject.keyword vektoriavaruusmalli fi
dc.subject.keyword kielen kompleksisuus fi
dc.subject.keyword agenttisimulaatio fi
dc.subject.keyword ohjaamaton oppiminen fi
dc.subject.keyword koneoppiminen fi
dc.identifier.urn URN:ISBN:978-952-60-5644-9
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Oja, Erkki, Aalto Distinguished Professor, Aalto University, Finland
dc.opn Karlsson, Fred, Professor (Emeritus), University of Helsinki, Finland
dc.opn Visa, Ari, Prof., Tampere University of Technology, Finland
dc.rev Suominen, Hanna, Doc., NICTA, Australia
dc.rev Bullinaria, John A., Dr., University of Birmingham, UK
dc.date.defence 2014-05-09


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse