Finland Swedish Automatic Speech Recognition

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Mcode

SCI3044

Language

en

Pages

53

Series

Abstract

Nonstandard dialects, characterized by atypical lexical items, pronunciation and grammar, often degrade the performance of generic automatic speech recognition (ASR) systems. This poor performance can usually be attributed to a dialectal imbalance in the training data, which is a common scenario as many dialects are under-resourced. Often, the first response to this data scarcity is to conduct data collection and make use of cross-dialectal data sharing. This work follows a data collection effort conducted in the Aalto Speech Recognition research group, where Finland Swedish was automatically extracted from recordings of plenary speeches held in the Parliament of Finland. Here, the resulting dataset, the Aalto Finland Swedish Parliament ASR Corpus, is used to build ASR systems for the Finland Swedish dialects. In one of the experiments, only the six hours of speech from this dataset are used. In additional experiments, the new dataset is pooled together with larger corpora featuring both Finland Swedish and Sweden Swedish. The developed systems are evaluated against Finland Swedish test sets. The system built using only the new parliament data achieves a WER of 17.27% on the in-domain test set. The best overall system is built by pooling together all available Swedish data, regardless of where it was collected. The best WER on the parliament test set is 14.50%. On a test set of conversational Finland Swedish from the Talko dataset, the best WER is 33.36%. On an out-of-domain test set of recordings from Finland Swedish broadcast media, the best achieved WER is 35.98%.

Automaattisten puheentunnistusjärjestelmien suorituskyky on murteita tunnistettaessa usein huomattavasti heikompi. Tämä heikentynyt suorituskyky on usein selitettävissä sillä, että järjestelmän koulutusvaiheessa murteellista aineistoa ei ole ollut riittävästi saatavilla. Kun puheentunnistinta halutaan kehittää murteelle, ensimmäisenä askeleena on usein aineistonkeruu. Monissa tapauksissa aineistonpuutetta voidaan lievittää myös yhdistelemällä kohdemurretta muiden murteiden kanssa. Tämä tutkielma on jatkoa Aalto-yliopiston puheentunnistuksen tutkimusryhmässä tehtyyn aineistonkeräykseen, jossa eduskunnan täysistuntojen nauhoitteista leikattiin automaattisesti suomenruotsin näytteitä. Tutkielmassa tätä uutta aineistoa käytetään suomenruotsin puheentunnistimien kehittämiseen. Yhdessä kokeista käytetään vain tätä kuusituntista aineistoa. Uutta aineistoa käytetään myös yhdessä muiden ruotsin puheaineistojen kanssa. Nämä muut puheaineistot edustavat sekä suomenruotsia että ruotsinruotsia. Luotujen puheentunnistusjärjestelmien evaluointia varten on luotu erilaisia suomenruotsia edustavia testiaineistoja. Ainoastaan eduskunnasta kerätyllä puheella koulutetulla järjestelmällä saavutetaan WER 17,27 % eduskuntapuhetta sisältävällä testiaineistolla. Paras järjestelmä, jonka koulutukseen on käytetty sekä suomenruotsia että ruotsinruotsia, saavuttaa samalla testiaineistolla tuloksen WER 14,50 %. Talko-datasetistä eriytetyllä suomenruotsalaisten käymää keskustelua sisältävällä testiaineistolla paras WER on 33,3 6 %. Suomenruotsalaisista televisio-ohjelmista kerätyllä testiaineistolla paras WER on 35,98.

Description

Supervisor

Kurimo, Mikko

Thesis advisor

Virkkunen, Anja

Other note

Citation