Spoken document retrieval in Finnish based on morpheme-like subword units
dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.advisor | Kurimo, Mikko | |
dc.contributor.author | Turunen, Ville Tapani | |
dc.contributor.department | Tietotekniikan osasto | fi |
dc.contributor.school | Teknillinen korkeakoulu | fi |
dc.contributor.school | Helsinki University of Technology | en |
dc.contributor.supervisor | Oja, Erkki | |
dc.date.accessioned | 2020-12-04T19:51:24Z | |
dc.date.available | 2020-12-04T19:51:24Z | |
dc.date.issued | 2005 | |
dc.description.abstract | Puhedokumenttien haku, eli kiinnostavien kohtien löytäminen tallennetusta puheesta, on haastava ongelma. Muita kieliä varten kehitettyjä menetelmiä ei voi käyttää suomenkieliseen puhehakuun sellaisenaan, koska suomenkielessä on erityispiirteitä, kuten suuri määrä eri sijamuotoja. Aiemmin on käytetty sanoihin tai fooneihin perustuvia ratkaisumalleja. Sanapohjaisen järjestelmän haittapuoli on puheentunnistimen rajoitettu sanasto, kun taas foonipohjainen järjestelmä kärsii korkeista virhemääristä. Tässä työssä käytetään morfeemien kaltaisiin yksiköihin perustuvaa puheentunnistinta, joka pystyy saavuttamaan alhaisen virhemäärän ja samalla tarjoamaan rajoittamattoman sanaston tunnistuksen. Puhe tunnistetaan jonona morfeemien kaltaisia yksiköitä, sanarajat merkattuina. Transkriptio voidaan indeksoida käyttäen indeksitermeinä joko sanoja tai morfeemein kaltaisia yksiköitä. Sanaindeksiä varten sananmuodot palautetaan perusmuotoihinsa morfologista analysaattoria käyttäen. Morfeemien kaltaiset yksiköt todetaan toimivan hyvin indeksitermeinä, suorituskyky on yhtä hyvä tai parempi kuin perusmuotoisilla sanoilla. Morfologisen analysaattorin käyttö voidaan siis välttää ja prosessi yksinkertaistuu. Työssä tutkittiin ja kokeiltiin myös menetelmiä tunnistusvirheiden haittavaikutuksen pienentämiseen. Ensimmäiseksi muodostettiin indeksi, joka yhdistää morfeemi- ja perusmuotoindeksit. Toiseksi muokattiin puheentunnistinta niin, että transkriptioon lisättiin vaihtoehtoisia tunnistustuloksia. Kolmanneksi laajennettiin kysymyslauseita niin, että rinnakkaisesta tekstikorpuksesta lisättiin niihin relevantteja sanoja. Kaikki menetelmät havaittiin hyödyllisiksi sekä absoluuttisen suorituskyvyn parantamiseen, että tunnistetun tekstin ja alkuperäisen tekstin hakujen suorituskykyjen välisen eron pienentämiseen. Parhaat tulokset saavutettiin kysymyslauseiden laajentamisella, jolla suorituskyky nousee samalle tasolle kuin tekstidokumenttien haulla, jopa tunnistuksi11a, joiden virhemäärä on suuri. Lopuksi todettiin, että hakujen suorituskyky ei huonone herkästi vaikka tunnistusvirheiden määrä lisääntyisi. | fi |
dc.format.extent | 61 | |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/93171 | |
dc.identifier.urn | URN:NBN:fi:aalto-2020120452006 | |
dc.language.iso | en | en |
dc.programme.major | Informaatiotekniikka | fi |
dc.programme.mcode | T-61 | fi |
dc.rights.accesslevel | closedAccess | |
dc.subject.keyword | spoken document retrieval | en |
dc.subject.keyword | puhehaku | fi |
dc.subject.keyword | speech recognition | en |
dc.subject.keyword | puhetiedonhaku | fi |
dc.subject.keyword | information retrieval | en |
dc.subject.keyword | puheentunnistus | fi |
dc.subject.keyword | tiedonhaku | fi |
dc.title | Spoken document retrieval in Finnish based on morpheme-like subword units | en |
dc.title | Morfeemien kaltaisiin yksiköihin perustuva suomenkielinen puhehaku | fi |
dc.type.okm | G2 Pro gradu, diplomityö | |
dc.type.ontasot | Master's thesis | en |
dc.type.ontasot | Pro gradu -tutkielma | fi |
dc.type.publication | masterThesis | |
local.aalto.digiauth | ask | |
local.aalto.digifolder | Aalto_10454 | |
local.aalto.idinssi | 30461 | |
local.aalto.openaccess | no |