Computational Modeling and Simulation of Language and Meaning: Similarity-Based Approaches

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorHonkela, Timo, Prof., Aalto University, Department of Information and Computer Science, Finland
dc.contributor.advisorCreutz, Mathias, Dr., Aalto University, Department of Information and Computer Science, Finland
dc.contributor.authorLindh-Knuutila, Tiina
dc.contributor.departmentTietojenkäsittelytieteen laitosfi
dc.contributor.departmentDepartment of Information and Computer Scienceen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorOja, Erkki, Aalto Distinguished Professor, Aalto University, Finland
dc.date.accessioned2014-04-24T09:00:10Z
dc.date.available2014-04-24T09:00:10Z
dc.date.defence2014-05-09
dc.date.issued2014
dc.description.abstractThis dissertation covers various similarity-based, data-driven approaches to model language and lexical semantics. The availability of large amounts of text data in electronic form allows the use of unsupervised, data-driven methodologies. Compared to linguistic models based on expert knowledge, which are often costly or unavailable, the data-driven analysis is faster and more flexible. The same methodologies can be often used regardless of the language. In addition, data-driven analysis may be exploratory and offer a new view on the data. The complexity of different European languages was analyzed at syntactic and morphological level using unsupervised methods based on compression and unsupervised morphology induction. The results showed that the unsupervised methods are able to produce useful analyses that correspond to linguistic models. The distributional word vector space models represent the meaning of words in a text context of co-occurring words, collected from a large corpus. The vector space models were evaluated with linguistic models and human semantic similarity judgment data. Two unsupervised methods, Independent Component Analysis and Latent Dirichlet Allocation, were able to find groups of semantically similar words, corresponding reasonably well to the evaluation sets. In addition to validating the results of the unsupervised methods with the evaluation data, the research was also exploratory. The unsupervised methods found semantic word sets not covered by the evaluation set, and the analysis of the categories of the evaluation sets showed quality differences between the categories. In the agent simulation models, the meaning of words was directly linked to the perceived context of the agent. Each agent had a subjective conceptual memory, in which the associations between words and perceptions were formed. In a population of simulated agents, the emergence of a shared vocabulary was studied through simulated language games. As a result of the simulations, a shared vocabulary emerges in the community.en
dc.description.abstractTämä väitöskirja kattaa useita samankaltaisuuteen perustuvia datalähtöisiä menetelmiä, joita käytetään kielen ja merkityksen mallintamiseen. Suuret, sähköisessä muodossa olevat tekstiaineistot mahdollistavat ohjaamattomien datalähtöisten menetelmien käytön. Verrattuna asiantuntijoiden tuottamiin lingvistisiin malleihin, jotka ovat usein kalliita tai joita ei aina ole saatavilla, datalähtöinen analyysi on nopeampaa ja usein joustavampaa. Samat menetelmät sopivat usein kielestä riippumatta. Lisäksi datalähtöinen analyysi voi olla eksploratiivista ja siten tarjota uuden näkökulman aineistoon. Tässä työssä analysoitiin useiden eurooppalaisten kielten syntaktisen ja morfologisen tason kompleksisuutta ohjaamattomilla menetelmillä, jotka perustuvat datan kompressioon ja ohjaamattomaan morfologian oppimiseen. Tulokset osoittavat, että ohjaamattomat menetelmät tuottavat hyödyllisiä tuloksia, jotka vastaavat lingvistisiä malleja. Jakaumiin perustuvat sana-avaruusmallit (Vector Space Models) käyttävät sanojen merkityksen esittämiseen sanojen kontekstia eli sanojen välisiä yhteisesiintymiä, jotka kerätään laajoista tekstiaineistoista. Tässä työssä käytettiin sana-avaruusmalleja, joita evaluoitiin käyttäen lingvistisiä malleja ja semanttisia evaluaatioaineistoja. Työssä käytettiin kahta ohjaamatonta menetelmää, riippumattomien komponenttien analyysia (Independent Component Analysis) sekä latenttia Dirichlet-allokaatiota (Latent Dirichlet Allocation), joilla löydettin semanttisesti samankaltaisia sanajoukkoja, jotka vastasivat kohtuullisen hyvin evaluaatioaineistoja. Evaluaatiotulosten lisäksi tutkimuksessa oli myös eksploratiivinen komponentti. Ohjaamattomat menetelmät löysivät merkitykseltään samankaltaisia sanajoukkoja, jotka puuttuivat evaluaatioaineistoista. Lisäksi menetelmillä löydettiin laadullisia eroja kategorioiden välillä. Agenttisimulaatiomallissa sanojen merkitys liittyi suoraan agentin havaitsemaan kontekstiin. Jokaisella agentilla oli oma subjektiivinen käsitemuisti, jossa assosiaatiot sanojen ja havaintojen välillä muodostuivat. Tässä työssä jaetun kielen syntyä tutkittiin useiden simuloitujen agenttien muodostamassa populaatiossa, jossa agentit kommunikoivat simuloituja kielipelejä käyttäen. Simulaatiokokeiden tuloksena jaettu kieli syntyy agenttipopulaatiossa.fi
dc.format.extent165 + app. 145
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-5644-9 (electronic)
dc.identifier.isbn978-952-60-5643-2 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/12928
dc.identifier.urnURN:ISBN:978-952-60-5644-9
dc.language.isoenen
dc.opnKarlsson, Fred, Professor (Emeritus), University of Helsinki, Finland
dc.opnVisa, Ari, Prof., Tampere University of Technology, Finland
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Timo Honkela, Tiina Lindh-Knuutila and Krista Lagus. Measuring Adjective Spaces. In The International Conference on Artificial Neural Networks (ICANN 2010), LNCS Vol. 6352, Athens, Greece, pages 351–355, September 2010.
dc.relation.haspart[Publication 2]: Tiina Lindh-Knuutila, Jaakko J. Vayrynen and Timo Honkela. Semantic analysis in word vector spaces with ICA and feature selection. In The 11th Conference on Natural Language Processing (KONVENS), Vienna, Austria, pages 98–107. OGAI, September 2012.
dc.relation.haspart[Publication 3]: Tiina Lindh-Knuutila and Timo Honkela. Exploratory text analysis: Data-driven versus human semantic similarity judgments. In The International Conference on Adaptive and Natural Computing Algorithms (ICANNGA’13), LNCS Vol. 7824, Lausanne, Switzerland, pages 428–437, April 2013.
dc.relation.haspart[Publication 4]: Tiina Lindh-Knuutila and Timo Honkela. Exploratory analysis of semantic categories: Comparing data-driven and human similarity judgments. Submitted to Computational Cognitive Science, 26 pages, January 2014.
dc.relation.haspart[Publication 5]: Tiina Lindh-Knuutila, Timo Honkela and Krista Lagus. Simulating meaning negotiation using observational language games. In The Workshop on the Emergence and Evolution of Linguistic Communication (EELC 2006), LNCS Vol. 4211, Rome, Italy, pages 168–179, September 2006.
dc.relation.haspart[Publication 6]: Tiina Lindh-Knuutila, Juha Raitio and Timo Honkela. Combining self-organizing and Bayesian models of concept formation. In Proceedings of the Eleventh Neural Computation and Psychology Workshop, Progress in Neural Processing, Vol. 18, Connectionist Models of Behaviour and Cognition II, Oxford, UK, pages 193–204, July 2009.
dc.relation.haspart[Publication 7]: Timo Honkela, Ville Kononen, Tiina Lindh-Knuutila and Mari-Sanna Paukkeri. Simulating processes of concept formation and communication. Journal of Economic Methodology, Vol. 15, No. 3, pages 245–259, September 2008.
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries49/2014
dc.revSuominen, Hanna, Doc., NICTA, Australia
dc.revBullinaria, John A., Dr., University of Birmingham, UK
dc.subject.keywordlexical semanticsen
dc.subject.keywordlanguageen
dc.subject.keywordmeaningen
dc.subject.keywordcomputational modelingen
dc.subject.keywordvector space modelsen
dc.subject.keywordlanguage complexityen
dc.subject.keywordagent simulationen
dc.subject.keywordunsupervised learningen
dc.subject.keywordmachine learningen
dc.subject.keywordleksikaalinen semantiikkafi
dc.subject.keywordkielifi
dc.subject.keywordmerkitysfi
dc.subject.keywordlaskennallinen mallintaminenfi
dc.subject.keywordvektoriavaruusmallifi
dc.subject.keywordkielen kompleksisuusfi
dc.subject.keywordagenttisimulaatiofi
dc.subject.keywordohjaamaton oppiminenfi
dc.subject.keywordkoneoppiminenfi
dc.subject.otherComputer scienceen
dc.subject.otherLinguisticsen
dc.titleComputational Modeling and Simulation of Language and Meaning: Similarity-Based Approachesen
dc.titleKielen ja merkityksen laskennallinen mallintaminen ja simulointi: samankaltaisuuteen perustuvia menetelmiäfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_64523
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526056449.pdf
Size:
2.4 MB
Format:
Adobe Portable Document Format