Voice-based interaction with digital services

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Date

2025-02-07

Department

Major/Subject

Computer Science

Mcode

Degree programme

Master's Programme in Computer, Communication and Information Sciences

Language

en

Pages

46

Series

Abstract

Automatic Speech Recognition (ASR) technology has seen significant advancements, especially with the rise of deep neural network-based ASR models that enable more accurate and efficient speech-to-text processes. However, despite these advancements, offline ASR systems, particularly on mobile platforms, face inherent challenges due to hardware constraints such as limited processing power and memory. This thesis aims to investigate both cloud-based and non-cloud-based ASR systems, assessing their performance in terms of transcription accuracy and speed under real-world conditions. The research is divided into two case studies. The first focuses on cloud-based ASR systems—specifically OpenAI’s Whisper and Assembly AI—comparing their transcription capabilities, especially in noisy environments. The second case study evaluates offline ASR systems, using Whisper.cpp and Vosk on Android platforms, exploring how model size, fine-tuning, and creating a custom ASR model impact transcription performance. Results show that while cloud-based systems provide high transcription accuracy, offline systems are significantly constrained. Whisper.cpp’s fine-tuned model surprisingly underperformed, while the custom Vosk model demonstrated improved accuracy over the baseline but at the cost of slower transcription speeds, reflecting the computational overhead of the larger model. Our findings demonstrate the feasibility of cloud-based ASR systems in high-accuracy applications but highlight the limitations of offline ASR systems, especially for challenging audio samples. Future work could focus on enhancing the fine-tuning of offline models, leveraging larger and more domain-specific datasets, and integrating noise-canceling techniques to improve performance for noisy audio samples.

Automatic Speech Recognition (ASR) teknologia on edistynyt merkittävästi, varsinkin syviin neuroverkkoihin perustuvien ASR-mallien myötä, jotka mahdollistavat tarkempia ja tehokkaampia speech-to-text prosesseja. Näistä edistysaskelista huolimatta offline ASR- järjestelmät, erityisesti mobiilialustoilla, kohtaavat luontaisia haasteita laitteistorajoitteiden, kuten rajoitetun prosessointitehon ja muistin, vuoksi. Tämän opinnäytetyön tavoitteena on tutkia sekä pilvipohjaisia että offline-ASR-järjestelmiä ja arvioida niiden suorituskykyä transkription tarkkuuden ja nopeuden suhteen realistisissa olosuhteissa. Tämän työn tutkimus on jaettu kahteen tapaustutkimukseen. Ensimmäinen keskittyy pilvipohjaisiin ASR-järjestelmiin – OpenAI Whisper- ja Assembly AI – ja vertailee niiden transkriptiokykyä erityisesti meluisissa ympäristöissä. Toisessa tapaustutkimuksessa arvioidaan offline ASR-järjestelmiä käyttämällä Whisper.cpp:tä ja Voskia Android-alustoilla ja tutkitaan, kuinka mallin koko ja hienosäätö vaikuttavat transkription suorituskykyyn. Tulokset osoittavat, että vaikka pilvipohjaiset järjestelmät tarjoavat korkean transkription tarkkuuden, offline-järjestelmät ovat merkittävästi rajoitettuja, ja Whisper.cpp:n hienosäädetty malli yllättävästi huonompi. Toisaalta, mukautettu Vosk-malli tuotti parempia tarkkuustuloksia verrattuna Voskin viralliseen vosk-model-small-en-us malliin. Tuloksemme osoittavat pilvipohjaisten ASR-järjestelmien toteutettavuuden korkean tarkkuuden sovelluksissa, mutta korostavat offline ASR-järjestelmien rajoituksia erityisesti mobiilikäyttötapauksissa. Tulevassa työssä voitaisiin keskittyä offline-mallien fine-tuning prosessin parantamiseen, suurempien datalähteiden hyödyntämiseen ja melunvaimennustekniikoiden integrointiin tarkkuuden parantamiseksi.

Description

Supervisor

Bäckström, Tom

Thesis advisor

Saarela, Janne

Keywords

Automatic speech recognition, Whisper, Vosk, Offline ASR, Cloud- based ASR, Fine-tuning

Other note

Citation