Towards multilingual speech recognition Decreasing foreign word error rate
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Authors
Date
2012
Department
Major/Subject
Tietokoneverkot
Mcode
T-110
Degree programme
Language
en
Pages
61
Series
Abstract
Word pronunciation is an essential piece in a speech recognition or synthesis system. Words are pronounced by rules specific to the language. Some words and names are commonly used and pronounced similarly across languages. For a system to be able to recognize or pronounce these loanwords and foreign names, one needs a method to determine the language of the word and a method for converting the letters of the word to a phoneme sequence in that language. In this thesis we present methods that can be used to achieve a multilingual speech recognition system that would be able to recognize some commonly used foreign names and words in Finnish speech. To achieve this we first applied a method to determine how foreign each word in our dictionary is by comparing the word or subword occurrence frequencies across languages. For pronouncing the most foreign-like words, we chose the joint-sequence model. The model aligns known letter and phoneme sequences and applies a probabilistic framework to find the most probable joint sequence for unknown words. To evaluate the methods, we used three types of datasets. First a dataset of almost purely Finnish speech was used to see how much the pronunciation variants degrade the baseline system. The second dataset contained sentences with a lot of foreign words and the last dataset utterances of single foreign words. The foreign pronunciation variants produced by the joint-sequence model were applied to a morpheme-based speech recognition system. The lexicon in this work contained 15152 morphemes. The results show up to 6.74% decrease in the letter error rate on documents with a lot of foreign words. For documents that contain a minimal amount of foreign words, letter error rate increases almost linearly from 8.47% to 9.13% as foreign pronunciation variants are given from 0 to 8000 morphemes respectively. These results indicate that foreign words can be recognized with pronunciation from the joint-sequence model.Sanojen ääntämys on yksi puheentunnistuksen tärkeimmistä osista. Ääntämys on usein vahvasti sääntöpohjainen tapa muuttaa jono kirjaimia jonoksi foneemeita. Koska sanojen ääntämys on kieliriippuvaista ja koska sanoja lainataan kielirajojen yli, täytyy puheentunnistus järjestelmän kyetä muodostamaan ääntämys sanalle eri kielien ääntämyssääntöjen mukaisesti. Tässä työssä tutkittiin vierasperäisten sanojen tunnistusta suomenkielisen puheen tunnistukseen suunnatussa järjestelmässä. Rakensimme menetelmän, jonka avulla pieni joukko vierasperäisiä sanoja pyrittiin tunnistamaan sanojen alkuperäisen ääntämyssäännöstön perusteella. Menetelmään kuului kyky määrittää sanan vierasperäisyyden numeerinen arvo ja ääntämysmalli, jolla sanan kirjaimien perusteella kyettiin määrittämään todennäköisimmät tavat lausua kukin sana. Vierasperäisten sanojen kohdalla käytettiin alan kehittyneintä yhdistettyjen jonojen mallinnusta (eng. joint-sequence model). Menetelmän evaluointiin rakensimme kolme testiaineistoa. Ensimmäinen aineisto rakennettiin lähes puhtaasta Suomen kielestä. Tämän avulla pyrimme arvioimaan kuinka paljon vierasperäisten sanojen ääntämysasut tuovat heikennystä alkuperäiseen puhtaan suomenkielen tunnistukseen. Toinen aineisto sisälsi lauseita joissa oli vähintään yksi vierasperäinen sana. Viimeisessä aineistossa oli vain yksittäisiä vierasperäisiä sanoja. Näiden aineistojen avulla selvitettiin kuinka paljon vierasperäisten sanojen tunnistus parantui. Työssä käytettiin morfeemi-pohjaista sanalistaa, joka sisälsi 15152 morfeemia. Tulokset antoivat parhaimmillaan 6.74 % vähemmän kirjainvirheitä lauseissa, joissa esiintyi paljon vierasperäisiä sanoja. Puhtaasti suomenkieltä sisältävien lauseiden kohdalla kirjainvirheet lisääntyivät lähes lineaarisesti 8,47 %:sta 9,13 %:iin kun vierasperaisiä ääntämysasuja annettiin 0:sta 8000:een todennäköisimmin vierasperäiseen sanaan. Tulosten perusteella voidaan päätellä, että vierasperäisiä sanoja voidaan tunnistaa ääntämysasuilla jotka ovat rakennettu yhdistettyjen jonojen mallinnuksella.Description
Supervisor
Kurimo, MikkoThesis advisor
Varjokallio, MattiPylkkönen, Janne
Keywords
speech recognition, puheentunnistus, joint-sequence model, ääntäminen, pronunciation