Computational Modeling and Simulation of Language and Meaning: Similarity-Based Approaches

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2014-05-09
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

2014

Major/Subject

Mcode

Degree programme

Language

en

Pages

165 + app. 145

Series

Aalto University publication series DOCTORAL DISSERTATIONS, 49/2014

Abstract

This dissertation covers various similarity-based, data-driven approaches to model language and lexical semantics. The availability of large amounts of text data in electronic form allows the use of unsupervised, data-driven methodologies. Compared to linguistic models based on expert knowledge, which are often costly or unavailable, the data-driven analysis is faster and more flexible. The same methodologies can be often used regardless of the language. In addition, data-driven analysis may be exploratory and offer a new view on the data. The complexity of different European languages was analyzed at syntactic and morphological level using unsupervised methods based on compression and unsupervised morphology induction. The results showed that the unsupervised methods are able to produce useful analyses that correspond to linguistic models. The distributional word vector space models represent the meaning of words in a text context of co-occurring words, collected from a large corpus. The vector space models were evaluated with linguistic models and human semantic similarity judgment data. Two unsupervised methods, Independent Component Analysis and Latent Dirichlet Allocation, were able to find groups of semantically similar words, corresponding reasonably well to the evaluation sets. In addition to validating the results of the unsupervised methods with the evaluation data, the research was also exploratory. The unsupervised methods found semantic word sets not covered by the evaluation set, and the analysis of the categories of the evaluation sets showed quality differences between the categories. In the agent simulation models, the meaning of words was directly linked to the perceived context of the agent. Each agent had a subjective conceptual memory, in which the associations between words and perceptions were formed. In a population of simulated agents, the emergence of a shared vocabulary was studied through simulated language games. As a result of the simulations, a shared vocabulary emerges in the community.

Tämä väitöskirja kattaa useita samankaltaisuuteen perustuvia datalähtöisiä menetelmiä, joita käytetään kielen ja merkityksen mallintamiseen. Suuret, sähköisessä muodossa olevat tekstiaineistot mahdollistavat ohjaamattomien datalähtöisten menetelmien käytön. Verrattuna asiantuntijoiden tuottamiin lingvistisiin malleihin, jotka ovat usein kalliita tai joita ei aina ole saatavilla, datalähtöinen analyysi on nopeampaa ja usein joustavampaa. Samat menetelmät sopivat usein kielestä riippumatta. Lisäksi datalähtöinen analyysi voi olla eksploratiivista ja siten tarjota uuden näkökulman aineistoon. Tässä työssä analysoitiin useiden eurooppalaisten kielten syntaktisen ja morfologisen tason kompleksisuutta ohjaamattomilla menetelmillä, jotka perustuvat datan kompressioon ja ohjaamattomaan morfologian oppimiseen. Tulokset osoittavat, että ohjaamattomat menetelmät tuottavat hyödyllisiä tuloksia, jotka vastaavat lingvistisiä malleja. Jakaumiin perustuvat sana-avaruusmallit (Vector Space Models) käyttävät sanojen merkityksen esittämiseen sanojen kontekstia eli sanojen välisiä yhteisesiintymiä, jotka kerätään laajoista tekstiaineistoista. Tässä työssä käytettiin sana-avaruusmalleja, joita evaluoitiin käyttäen lingvistisiä malleja ja semanttisia evaluaatioaineistoja. Työssä käytettiin kahta ohjaamatonta menetelmää, riippumattomien komponenttien analyysia (Independent Component Analysis) sekä latenttia Dirichlet-allokaatiota (Latent Dirichlet Allocation), joilla löydettin semanttisesti samankaltaisia sanajoukkoja, jotka vastasivat kohtuullisen hyvin evaluaatioaineistoja. Evaluaatiotulosten lisäksi tutkimuksessa oli myös eksploratiivinen komponentti. Ohjaamattomat menetelmät löysivät merkitykseltään samankaltaisia sanajoukkoja, jotka puuttuivat evaluaatioaineistoista. Lisäksi menetelmillä löydettiin laadullisia eroja kategorioiden välillä. Agenttisimulaatiomallissa sanojen merkitys liittyi suoraan agentin havaitsemaan kontekstiin. Jokaisella agentilla oli oma subjektiivinen käsitemuisti, jossa assosiaatiot sanojen ja havaintojen välillä muodostuivat. Tässä työssä jaetun kielen syntyä tutkittiin useiden simuloitujen agenttien muodostamassa populaatiossa, jossa agentit kommunikoivat simuloituja kielipelejä käyttäen. Simulaatiokokeiden tuloksena jaettu kieli syntyy agenttipopulaatiossa.

Description

Supervising professor

Oja, Erkki, Aalto Distinguished Professor, Aalto University, Finland

Thesis advisor

Honkela, Timo, Prof., Aalto University, Department of Information and Computer Science, Finland
Creutz, Mathias, Dr., Aalto University, Department of Information and Computer Science, Finland

Keywords

lexical semantics, language, meaning, computational modeling, vector space models, language complexity, agent simulation, unsupervised learning, machine learning, leksikaalinen semantiikka, kieli, merkitys, laskennallinen mallintaminen, vektoriavaruusmalli, kielen kompleksisuus, agenttisimulaatio, ohjaamaton oppiminen, koneoppiminen

Other note

Parts

  • [Publication 1]: Timo Honkela, Tiina Lindh-Knuutila and Krista Lagus. Measuring Adjective Spaces. In The International Conference on Artificial Neural Networks (ICANN 2010), LNCS Vol. 6352, Athens, Greece, pages 351–355, September 2010.
  • [Publication 2]: Tiina Lindh-Knuutila, Jaakko J. Vayrynen and Timo Honkela. Semantic analysis in word vector spaces with ICA and feature selection. In The 11th Conference on Natural Language Processing (KONVENS), Vienna, Austria, pages 98–107. OGAI, September 2012.
  • [Publication 3]: Tiina Lindh-Knuutila and Timo Honkela. Exploratory text analysis: Data-driven versus human semantic similarity judgments. In The International Conference on Adaptive and Natural Computing Algorithms (ICANNGA’13), LNCS Vol. 7824, Lausanne, Switzerland, pages 428–437, April 2013.
  • [Publication 4]: Tiina Lindh-Knuutila and Timo Honkela. Exploratory analysis of semantic categories: Comparing data-driven and human similarity judgments. Submitted to Computational Cognitive Science, 26 pages, January 2014.
  • [Publication 5]: Tiina Lindh-Knuutila, Timo Honkela and Krista Lagus. Simulating meaning negotiation using observational language games. In The Workshop on the Emergence and Evolution of Linguistic Communication (EELC 2006), LNCS Vol. 4211, Rome, Italy, pages 168–179, September 2006.
  • [Publication 6]: Tiina Lindh-Knuutila, Juha Raitio and Timo Honkela. Combining self-organizing and Bayesian models of concept formation. In Proceedings of the Eleventh Neural Computation and Psychology Workshop, Progress in Neural Processing, Vol. 18, Connectionist Models of Behaviour and Cognition II, Oxford, UK, pages 193–204, July 2009.
  • [Publication 7]: Timo Honkela, Ville Kononen, Tiina Lindh-Knuutila and Mari-Sanna Paukkeri. Simulating processes of concept formation and communication. Journal of Economic Methodology, Vol. 15, No. 3, pages 245–259, September 2008.

Citation