Learning linguistic features from natural text data by independent component analysis

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorHyvärinen, Aapo
dc.contributor.authorVäyrynen, Jaakko
dc.contributor.departmentTietotekniikan osastofi
dc.contributor.schoolTeknillinen korkeakoulufi
dc.contributor.schoolHelsinki University of Technologyen
dc.contributor.supervisorHonkela, Timo
dc.date.accessioned2020-12-04T19:08:21Z
dc.date.available2020-12-04T19:08:21Z
dc.date.issued2005
dc.description.abstractThe analysis of natural language is an important field for language technology. The symbolic nature of written language can be encoded in numeric form and analyzed using statistical signal processing methods. In this thesis, it is assumed that word usage statistics, namely word frequencies in different contexts, contain linguistic information that can be extracted using statistical feature extraction methods. Independent component analysis, an unsupervised statistical method for blind source separation, is applied to extracting features for words using a text corpus. A study between the closeness of match between the emergent features and traditional syntactic word categories for words shows that independent component analysis extracts features that resemble more linguistic categories than features extracted with principal component analysis.en
dc.description.abstractLuonnollisen kielen analysointi on tärkeä tutkimusaihe kieliteknologian kannalta. Symbolinen kirjoitettu kieli voidaan koodata numeerisessa muodossa ja analysoida käyttäen tilastollisia signaalinkäsittelymenetelmiä. Tässä diplomityössä oletetaan sanojen käytön, erityisesti sanojen esiintymistaajuuksien konteksteissa, sisaltavan tilastollisilla menetelmillä irrotettavaa kielellistä informaatiota. Riippumattomien komponenttien analyysia, erästä ohjaamattoman oppimisen menetelmää sokeaan lähde-erotteluun, sovelletaan piirreirrotukseen tekstikorpuksesta. Vertailu löydettyjen piirteiden ja perinteisten syntaktisten sanakategorioiden samankaltaisuuden välillä osoitti, että riippumattomien komponenttien analyysi irrotti piirteitä jotka muistuttavat enemmän kielellisiä kategorioita kuin pääkomponenttianalyysilla irrotetut piirteet.fi
dc.format.extent63
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/92343
dc.identifier.urnURN:NBN:fi:aalto-2020120451178
dc.language.isoenen
dc.programme.majorInformaatiotekniikkafi
dc.programme.mcodeT-61fi
dc.rights.accesslevelopenAccess
dc.subject.keywordindependent component analysisen
dc.subject.keywordriippumattomien komponenttien analyysifi
dc.subject.keywordstatistical natural language processingen
dc.subject.keywordluonnollisen kielen tilastollinen käsittelyfi
dc.titleLearning linguistic features from natural text data by independent component analysisen
dc.titleKielipiirteiden oppiminen luonnollisesta tekstistä riippumattomien komponenttien analyysillafi
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotPro gradu -tutkielmafi
dc.type.publicationmasterThesis
local.aalto.digiauthyes
local.aalto.digifolderAalto_74609
local.aalto.idinssi28105
local.aalto.inssilocationP1 Ark Aalto
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
master_Väyrynen_Jaakko_2005.pdf
Size:
21.6 MB
Format:
Adobe Portable Document Format