Speech Recognition Application in an Embedded System

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

2010

Major/Subject

Signaalinkäsittelytekniikka

Mcode

S-88

Degree programme

Tietotekniikan tutkinto-ohjelma

Language

en

Pages

x + 69

Series

Abstract

Availability of low-cost and high-performance embedded computing platforms has created new possibilities to develop complex embedded systems. By combining this with adoption of design methodologies from the computer science and by using readily available software makes possible to develop embedded systems without high investments and expertise. The purpose of this thesis was to implement a prototype of embedded speech recognition application and to evaluate the suitability of the prototype for use in home kind of environment. The thesis studies the theory of modern speech recognition based on hidden Markov models and studies design methodologies that are relevant to design of embedded speech recognition system. Implementation part of the thesis describes the embedded computing platform used in this thesis, evaluates available speech recognition software for the GNU Linux operating system and depicts the implementation details of the prototype. The usability of the prototype in home environment was evaluated with a measurement setup that was testing the speech recognition accuracy of the whole system. The home environment was modelled by decreasing the quality of the speech signal by modelling the speech signal degradation in acoustic environment. Sample sentences from six speakers were used as test material. Five of those speakers were humans while one of them was a speech synthesizer. Results show that the speech recognition accuracy is very sensitive to signal strength, additive white Gaussian noise and background talk. Thesis concludes that by using open-source software combined with low-cost and high-performance embedded computing platform makes possible to implement a prototype of embedded speech recognition application rapidly without high development investments. However, the robustness of speech recognition accuracy to the real-world speech signal conditions limits the use of prototype in home environment. A few improvement ideas are proposed for improving the speech recognition accuracy as a possible future study.

Edullisten ja suorituskykyisten sulautettujen laskenta-alustojen yleistyminen on luonut uusia mahdollisuuksia kehittää monimutkaisia sulautettuja järjestelmiä. Tämä yhdessä tietojenkäsittelytieteestä tuttujen suunnittelumetodiikkojen käyttöönoton kanssa ja saatavilla olevien valmiiden ohjelmistojen runsaus mahdollistavat sulautettujen järjestelmien tuotekehityksen ilman suuria investointeja ja laajaa erityisosaamista. Tuotekehityksessä tarvittavia resursseja voidaan vähentää huomattavasti suunnittelemalla järjestelmä modulaarisesti ja käyttämällä mahdollisimman paljon valmiita laitteisto- ja ohjelmistoratkaisuja. Tämän diplomityön tavoitteena oli toteuttaa prototyyppi puheohjatusta sulautetusta järjestelmästä ja arvioida sen käyttökelpoisuutta kotiympäristöön. Työssä tutustutaan nykyisin vallitsevaan kätkettyihin Markov-malleihin perustuvan puheentunnistuksen teoriaan ja niihin metodiikkoihin, joilla sulautettu puheentunnistusjärjestelmä voidaan toteuttaa. Toteutusosassa annetaan katsaus käytettyyn laskenta-alustaan, vertaillaan GNU/Linux-käyttöjärjestelmään saatavia puheentunnistusohjelmistoja ja kuvataan prototyypin toteutusratkaisut. Prototyypin käyttökelpoisuutta kotiympäristöön arvioitiin mittausjärjestelyllä, joka testasi koko järjestelmän puheentunnistuksen tarkkuutta. Mittauksissa kotiympäristöä mallinnettiin malleilla, joilla kuvattiin puhesignaalin laadun heikkenemistä kotiympäristössä. Testiaineistona käytettiin lausenäytteitä kuudelta puhujalta. Puhujista viisi oli luonnollisia henkilöitä ja yksi oli puhesyntetisaattori. Mittaustuloksista havaittiin, että puheentunnistus on erittäin herkkä signaalivoimakkuudelle, additiiviselle Gaussian-jakautuneelle valkoiselle kohinalle ja taustapuheelle. Työn tuloksena todetaan, että käyttämällä edullista suorituskykyistä sulautettua laskenta-alustaa ja avoimen lähdekoodin ohjelmistoja on mahdollista toteuttaa ominaisuuksiltaan monimutkainen sulautettu järjestelmä ilman merkittäviä kehityskustannuksia. Prototyypin puheentunnistuksen tarkkuus on kuitenkin käytännössä riittämätön, jotta sitä voisi ajatella käytettäväksi kodinjärjestelmien ohjaukseen oikeassa käyttöympäristössä. Jatkotutkimusta varten esitetään muutamia parannusehdotuksia, joilla puheentunnistustarkkuutta voitaisiin parantaa.

Description

Supervisor

Skyttä, Jorma

Thesis advisor

Forsten, Juha

Keywords

speech recognition, puheentunnistus, hidden Markov models, kätketyt Markov-mallit, embedded system, sulautettu järjestelmä, Linux, Linux

Other note

Citation