Speaker-Based Segmentation and Adaptation in Automatic Speech Recognition

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Helsinki University of Technology | Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

Mcode

T-61

Degree programme

Language

en

Pages

68

Series

Abstract

Huolella opetettu puheentunnistusjärjestelmä toimii varsin hyvin opetusvaiheesta tutuissa olosuhteissa, mutta uusi puhuja tai ympäristö usein heikentää järjestelmän suorituskykyä. Puheentunnistustuloksia voidaan siksi parantaa antamalla järjestelmän mukautua kullekin puhujalle paremmin soveltuvaksi. Puhujakohtainen mukautuminen ei kuitenkaan ole mahdollista, ellei järjestelmä tiedä, kuka milloinkin on äänessä. Puhetallenteita ei ole tavallisesti jaettu osiin puhujan mukaan, joten tarvitaan automaattisia menetelmiä puhujien erotteluun. Puhujakohtaisen segmentoinnin tavoitteena on jakaa annettu aineisto puheenvuoroihin, joista voidaan sekä lukea puhujanvaihdosten ajankohdat että seurata kulloinkin vuorossa olevaa puhujaa. Tässä työssä selvitetään, kuinka puhujanvaihdokset voidaan havaita erilaisuusmittoihin perustuvilla menetelmillä, sekä tarkastellaan kahta nimeämättömien puheenvuorojen ryhmittelyyn soveltuvaa menetelmää. Ryhmittely on keino koota ja nimetä havaitut puheenvuorot puhujan mukaan, kun puhujia tai heidän määräänsä ei tunneta ennakkoon. Puhujasegmentoinnin toimivuutta kokeillaan yhdessä puhujakohtaisen mukautumisen kanssa laajan sanaston jatkuvan puheen tunnistuksessa. Koeaineistona käytetään otteita suomen- ja englanninkielisistä uutislähetyksistä. Saadut tulokset osoittavat, että puhujakohtainen segmentointi ja mukautuminen yhdessä parantavat puheentunnistustuloksia merkittävästi.

Description

Supervisor

Oja, Erkki

Thesis advisor

Kurimo, Mikko

Other note

Citation