Spoken document retrieval in Finnish based on morpheme-like subword units

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKurimo, Mikko
dc.contributor.authorTurunen, Ville Tapani
dc.contributor.departmentTietotekniikan osastofi
dc.contributor.schoolTeknillinen korkeakoulufi
dc.contributor.schoolHelsinki University of Technologyen
dc.contributor.supervisorOja, Erkki
dc.date.accessioned2020-12-04T19:51:24Z
dc.date.available2020-12-04T19:51:24Z
dc.date.issued2005
dc.description.abstractPuhedokumenttien haku, eli kiinnostavien kohtien löytäminen tallennetusta puheesta, on haastava ongelma. Muita kieliä varten kehitettyjä menetelmiä ei voi käyttää suomenkieliseen puhehakuun sellaisenaan, koska suomenkielessä on erityispiirteitä, kuten suuri määrä eri sijamuotoja. Aiemmin on käytetty sanoihin tai fooneihin perustuvia ratkaisumalleja. Sanapohjaisen järjestelmän haittapuoli on puheentunnistimen rajoitettu sanasto, kun taas foonipohjainen järjestelmä kärsii korkeista virhemääristä. Tässä työssä käytetään morfeemien kaltaisiin yksiköihin perustuvaa puheentunnistinta, joka pystyy saavuttamaan alhaisen virhemäärän ja samalla tarjoamaan rajoittamattoman sanaston tunnistuksen. Puhe tunnistetaan jonona morfeemien kaltaisia yksiköitä, sanarajat merkattuina. Transkriptio voidaan indeksoida käyttäen indeksitermeinä joko sanoja tai morfeemein kaltaisia yksiköitä. Sanaindeksiä varten sananmuodot palautetaan perusmuotoihinsa morfologista analysaattoria käyttäen. Morfeemien kaltaiset yksiköt todetaan toimivan hyvin indeksitermeinä, suorituskyky on yhtä hyvä tai parempi kuin perusmuotoisilla sanoilla. Morfologisen analysaattorin käyttö voidaan siis välttää ja prosessi yksinkertaistuu. Työssä tutkittiin ja kokeiltiin myös menetelmiä tunnistusvirheiden haittavaikutuksen pienentämiseen. Ensimmäiseksi muodostettiin indeksi, joka yhdistää morfeemi- ja perusmuotoindeksit. Toiseksi muokattiin puheentunnistinta niin, että transkriptioon lisättiin vaihtoehtoisia tunnistustuloksia. Kolmanneksi laajennettiin kysymyslauseita niin, että rinnakkaisesta tekstikorpuksesta lisättiin niihin relevantteja sanoja. Kaikki menetelmät havaittiin hyödyllisiksi sekä absoluuttisen suorituskyvyn parantamiseen, että tunnistetun tekstin ja alkuperäisen tekstin hakujen suorituskykyjen välisen eron pienentämiseen. Parhaat tulokset saavutettiin kysymyslauseiden laajentamisella, jolla suorituskyky nousee samalle tasolle kuin tekstidokumenttien haulla, jopa tunnistuksi11a, joiden virhemäärä on suuri. Lopuksi todettiin, että hakujen suorituskyky ei huonone herkästi vaikka tunnistusvirheiden määrä lisääntyisi.fi
dc.format.extent61
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/93171
dc.identifier.urnURN:NBN:fi:aalto-2020120452006
dc.language.isoenen
dc.programme.majorInformaatiotekniikkafi
dc.programme.mcodeT-61fi
dc.rights.accesslevelclosedAccess
dc.subject.keywordspoken document retrievalen
dc.subject.keywordpuhehakufi
dc.subject.keywordspeech recognitionen
dc.subject.keywordpuhetiedonhakufi
dc.subject.keywordinformation retrievalen
dc.subject.keywordpuheentunnistusfi
dc.subject.keywordtiedonhakufi
dc.titleSpoken document retrieval in Finnish based on morpheme-like subword unitsen
dc.titleMorfeemien kaltaisiin yksiköihin perustuva suomenkielinen puhehakufi
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotPro gradu -tutkielmafi
dc.type.publicationmasterThesis
local.aalto.digiauthask
local.aalto.digifolderAalto_10454
local.aalto.idinssi30461
local.aalto.openaccessno

Files