Spoken document retrieval in Finnish based on morpheme-like subword units
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Helsinki University of Technology |
Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Authors
Date
2005
Department
Major/Subject
Informaatiotekniikka
Mcode
T-61
Degree programme
Language
en
Pages
61
Series
Abstract
Puhedokumenttien haku, eli kiinnostavien kohtien löytäminen tallennetusta puheesta, on haastava ongelma. Muita kieliä varten kehitettyjä menetelmiä ei voi käyttää suomenkieliseen puhehakuun sellaisenaan, koska suomenkielessä on erityispiirteitä, kuten suuri määrä eri sijamuotoja. Aiemmin on käytetty sanoihin tai fooneihin perustuvia ratkaisumalleja. Sanapohjaisen järjestelmän haittapuoli on puheentunnistimen rajoitettu sanasto, kun taas foonipohjainen järjestelmä kärsii korkeista virhemääristä. Tässä työssä käytetään morfeemien kaltaisiin yksiköihin perustuvaa puheentunnistinta, joka pystyy saavuttamaan alhaisen virhemäärän ja samalla tarjoamaan rajoittamattoman sanaston tunnistuksen. Puhe tunnistetaan jonona morfeemien kaltaisia yksiköitä, sanarajat merkattuina. Transkriptio voidaan indeksoida käyttäen indeksitermeinä joko sanoja tai morfeemein kaltaisia yksiköitä. Sanaindeksiä varten sananmuodot palautetaan perusmuotoihinsa morfologista analysaattoria käyttäen. Morfeemien kaltaiset yksiköt todetaan toimivan hyvin indeksitermeinä, suorituskyky on yhtä hyvä tai parempi kuin perusmuotoisilla sanoilla. Morfologisen analysaattorin käyttö voidaan siis välttää ja prosessi yksinkertaistuu. Työssä tutkittiin ja kokeiltiin myös menetelmiä tunnistusvirheiden haittavaikutuksen pienentämiseen. Ensimmäiseksi muodostettiin indeksi, joka yhdistää morfeemi- ja perusmuotoindeksit. Toiseksi muokattiin puheentunnistinta niin, että transkriptioon lisättiin vaihtoehtoisia tunnistustuloksia. Kolmanneksi laajennettiin kysymyslauseita niin, että rinnakkaisesta tekstikorpuksesta lisättiin niihin relevantteja sanoja. Kaikki menetelmät havaittiin hyödyllisiksi sekä absoluuttisen suorituskyvyn parantamiseen, että tunnistetun tekstin ja alkuperäisen tekstin hakujen suorituskykyjen välisen eron pienentämiseen. Parhaat tulokset saavutettiin kysymyslauseiden laajentamisella, jolla suorituskyky nousee samalle tasolle kuin tekstidokumenttien haulla, jopa tunnistuksi11a, joiden virhemäärä on suuri. Lopuksi todettiin, että hakujen suorituskyky ei huonone herkästi vaikka tunnistusvirheiden määrä lisääntyisi.Description
Supervisor
Oja, ErkkiThesis advisor
Kurimo, MikkoKeywords
spoken document retrieval, puhehaku, speech recognition, puhetiedonhaku, information retrieval, puheentunnistus, tiedonhaku