Spoken document retrieval in Finnish based on morpheme-like subword units

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Helsinki University of Technology | Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

2005

Major/Subject

Informaatiotekniikka

Mcode

T-61

Degree programme

Language

en

Pages

61

Series

Abstract

Puhedokumenttien haku, eli kiinnostavien kohtien löytäminen tallennetusta puheesta, on haastava ongelma. Muita kieliä varten kehitettyjä menetelmiä ei voi käyttää suomenkieliseen puhehakuun sellaisenaan, koska suomenkielessä on erityispiirteitä, kuten suuri määrä eri sijamuotoja. Aiemmin on käytetty sanoihin tai fooneihin perustuvia ratkaisumalleja. Sanapohjaisen järjestelmän haittapuoli on puheentunnistimen rajoitettu sanasto, kun taas foonipohjainen järjestelmä kärsii korkeista virhemääristä. Tässä työssä käytetään morfeemien kaltaisiin yksiköihin perustuvaa puheentunnistinta, joka pystyy saavuttamaan alhaisen virhemäärän ja samalla tarjoamaan rajoittamattoman sanaston tunnistuksen. Puhe tunnistetaan jonona morfeemien kaltaisia yksiköitä, sanarajat merkattuina. Transkriptio voidaan indeksoida käyttäen indeksitermeinä joko sanoja tai morfeemein kaltaisia yksiköitä. Sanaindeksiä varten sananmuodot palautetaan perusmuotoihinsa morfologista analysaattoria käyttäen. Morfeemien kaltaiset yksiköt todetaan toimivan hyvin indeksitermeinä, suorituskyky on yhtä hyvä tai parempi kuin perusmuotoisilla sanoilla. Morfologisen analysaattorin käyttö voidaan siis välttää ja prosessi yksinkertaistuu. Työssä tutkittiin ja kokeiltiin myös menetelmiä tunnistusvirheiden haittavaikutuksen pienentämiseen. Ensimmäiseksi muodostettiin indeksi, joka yhdistää morfeemi- ja perusmuotoindeksit. Toiseksi muokattiin puheentunnistinta niin, että transkriptioon lisättiin vaihtoehtoisia tunnistustuloksia. Kolmanneksi laajennettiin kysymyslauseita niin, että rinnakkaisesta tekstikorpuksesta lisättiin niihin relevantteja sanoja. Kaikki menetelmät havaittiin hyödyllisiksi sekä absoluuttisen suorituskyvyn parantamiseen, että tunnistetun tekstin ja alkuperäisen tekstin hakujen suorituskykyjen välisen eron pienentämiseen. Parhaat tulokset saavutettiin kysymyslauseiden laajentamisella, jolla suorituskyky nousee samalle tasolle kuin tekstidokumenttien haulla, jopa tunnistuksi11a, joiden virhemäärä on suuri. Lopuksi todettiin, että hakujen suorituskyky ei huonone herkästi vaikka tunnistusvirheiden määrä lisääntyisi.

Description

Supervisor

Oja, Erkki

Thesis advisor

Kurimo, Mikko

Keywords

spoken document retrieval, puhehaku, speech recognition, puhetiedonhaku, information retrieval, puheentunnistus, tiedonhaku

Other note

Citation