Puheentunnistus rajallisilla resursseilla

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKurimo, Mikko
dc.contributor.authorMuhammad, Moaeez
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorLassila, Pasi
dc.date.accessioned2025-09-23T08:22:20Z
dc.date.available2025-09-23T08:22:20Z
dc.date.issued2025-09-05
dc.description.abstractTämän työn aiheena on puheentunnistus rajallisilla resursseilla. Työ keskittyy erityisesti vähäresurssisiin kieliin, joissa puheentunnistuksen kehittäminen on haastavaa. Suurilla kielillä, kuten englannilla, kehitys on ollut nopeaa, koska aineistoa on saatavilla runsaasti. Osa on avointa dataa, jota kuka tahansa voi käyttää ja osa suljettua dataa, jota keräävät yritykset ja tutkimuslaitokset ja jonka käyttö on rajoitettua esimerkiksi lisenssien ja yksityisyyden vuoksi. Vähäresurssisissa kielissä tilanne on erilainen, sillä litteroitua aineistoa on vähän, murteet vaihtelevat ja kirjoitusjärjestelmä voi olla osittain vakiintumaton. Työssä tarkastellaan kolmea lähestymistapaa. Ensimmäinen on transfer learning eli siirto-oppiminen, jossa suuri malli koulutetaan ensin toisella kielellä ja sovitetaan kohdekielen merkistöön translitteraation avulla. Toinen on meta learning eli meta-oppiminen, jossa malli opetetaan siirtymään useista lähdekielistä uuteen kohdekieleen. Kolmas on self supervised pretraining eli itseohjautuva esikoulutus, jossa malli oppii akustisia piirteitä raakapuheesta ja hienosäädetään pienellä määrällä litteroitua dataa. Näitä täydennetään yhteisön avulla kerätyllä aineistolla, datan muuntelulla ja synteettisen puheen käytöllä. Tulokset osoittavat, että parhaat tulokset saavutetaan yhdistämällä eri menetelmiä. Esikoulutus ja siirto-oppiminen antavat vahvan pohjan, yhteisön tekemä keruu varmistaa aineiston eettisyyden ja kattavuuden, ja muut täydentävät menetelmät tukevat järjestelmän toimivuutta. Työ tarjoaa viitekehyksen, jonka avulla voidaan kehittää käytännöllisiä puheentunnistusjärjestelmiä myös pienille kieliyhteisöille.fi
dc.description.abstractThe topic of this thesis is speech recognition under limited resources with a focus on low resource languages. Progress has been rapid in high resource languages because data is widely available. Some datasets are open and can be used by anyone, while others are proprietary and their use is limited by licenses and privacy. In low resource languages only a small amount of transcribed material exists, dialectal variation is wide and the writing system may not be fully standardised. Three complementary approaches are examined. Transfer learning with transliteration ensures that the model uses the correct script from the start. Multilingual meta learning helps the model adapt to a new language faster. Self supervised pretraining allows the use of raw speech without transcripts, after which a small amount of carefully transcribed target language speech is used for fine tuning. These are complemented with community driven data collection, data augmentation and the use of synthetic speech for rare words and forms. The thesis provides a practical roadmap for languages like Sámi. Work starts with community agreements on dialects, sentences, speakers and licenses. A small high quality transcribed set is combined with a larger raw speech set. The model is first pretrained with self supervised methods, then adapted with transliteration based transfer from a high resource language, and finally fine tuned with a few hours of transcribed target language speech supported by moderate augmentation and targeted synthetic data. The results show that low resource ASR is feasible when technical methods and community work are combined.en
dc.format.extent20
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/139078
dc.identifier.urnURN:NBN:fi:aalto-202509237276
dc.language.isofien
dc.programmeSähkötekniikan kandidaattiohjelmafi
dc.programme.majorInformaatioteknologiafi
dc.programme.mcodeELEC3015fi
dc.subject.keywordpuheentunnistusfi
dc.subject.keywordvähäresurssiset kieletfi
dc.subject.keywordsiirto-oppiminenfi
dc.subject.keywordmonikielinen mallinnusfi
dc.subject.keyworddata-augmentointifi
dc.subject.keywordsynteettinen puhefi
dc.titlePuheentunnistus rajallisilla resursseillafi
dc.typeG1 Kandidaatintyöfi
dc.type.dcmitypetexten
dc.type.ontasotBachelor's thesisen
dc.type.ontasotKandidaatintyöfi
local.aalto.openaccessno

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Muhammad_Moaeez_2025.pdf
Size:
604.77 KB
Format:
Adobe Portable Document Format