Modeling Conversational Finnish for Automatic Speech Recognition

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2018-05-03
Date
2018
Major/Subject
Mcode
Degree programme
Language
en
Pages
117 + app. 73
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 52/2018
Abstract
The accuracy of automatic speech recognizers has been constantly improving for decades. Aalto University has developed automatic recognition of Finnish speech and achieved very low error rates on clearly spoken standard Finnish, such as news broadcasts. Recognition of natural conversations is much more challenging. The language that is spoken in Finnish conversations also differs in many ways from standard Finnish, and its recognition requires data that has previously been unavailable.  This thesis develops automatic speech recognition for conversational Finnish, starting by collection of training and evaluation data. For language modeling, large amounts of text are collected from the Internet, and filtered to match the colloquial speaking style. An evaluation set is published and used to benchmark the progress in conversational Finnish speech recognition. The thesis addresses many difficulties that arise from the fact that the vocabulary that is used in Finnish conversations is very large. Using deep neural networks for acoustic modeling and recurrent neural networks for language modeling, accuracy that is already useful in practical applications is achieved in conversational speech recognition.

Automaattisen puheentunnistuksen tarkkuus on jatkuvasti parantunut viimeisten vuosikymmenien aikana. Aalto-yliopistossa on kehitetty automaattista puheentunnistusta suomen kielelle ja päästy hyvin pieniin virheprosentteihin selkeästi puhutun kirjakielen tunnistuksessa, esimerkiksi uutislähetyksistä. Luonnolliten keskustelujen tunnistaminen on paljon haastavampaa. Suomen puhekieli eroaa myös monella tavalla kirjakielestä, ja sen tunnistamiseen tarvitaan tietoaineistoa, jota ei aikaisemmin ole ollut saatavilla.  Tämä väitöskirja kehittää automaattista puheentunnistusta suomen puhekielelle, alkaen opetus- ja testiaineiston keräämisestä. Kielen mallintamista varten Internetistä kerätään suuri määrä tekstiä ja aineisto suodatetaan vastaamaan puhekielen tyyliä. Testiaineisto julkaistaan ja sitä käytetään kriteerinä, kun arvioidaan suomen kielen keskustelumuotoisen puheen tunnistuksen kehitystä. Väitöskirjassa tutkitaan monia ongelmia jotka juontuvat siitä, että sanasto jota käytetään suomenkielisissä keskusteluissa on todella iso. Kun syviä neuroverkkoja käytetään akustiseen mallinnukseen ja takaisinkytkettyjä neuroverkkoja käytetään kielen mallinnukseen, saavutetaan keskustelupuheen tunnistuksessa tarkkuus joka on jo kelvollinen käytännön sovelluksiin.
Description
Supervising professor
Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Virpioja, Sami, Dr., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
automatic speech recognition, language modeling, word classes, artificial neural networks, data collection, automaattinen puheentunnistus, kielen mallintaminen, sanaluokat, neuroverkot, tiedonkeruu
Parts
  • [Publication 1]: Seppo Enarvi and Mikko Kurimo. A Novel Discriminative Method for Pruning Pronunciation Dictionary Entries. In Proceedings of the 7th International Conference on Speech Technology and Human-Computer Dialogue (SpeD), Cluj-Napoca, Romania, pages 113–116, October 2013. Full text in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201708036410.
    DOI: 10.1109/SpeD.2013.6682659 View at publisher
  • [Publication 2]: Seppo Enarvi and Mikko Kurimo. Studies on Training Text Selection for Conversational Finnish Language Modeling. In Proceedings of the 10th International Workshop on Spoken Language Translation (IWSLT), Heidelberg, Germany, pages 256–263, December 2013. Fulltext in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201708036342.
  • [Publication 3]: Mikko Kurimo, Seppo Enarvi, Ottokar Tilk, Matti Varjokallio, André Mansikkaniemi, and Tanel Alumäe. Modeling under-resourced languages for speech recognition. Language Resources and Evaluation, volume 51, issue 4, pages 961–987, December 2017. Fulltext in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201708036363.
    DOI: 10.1007/s10579-016-9336-9 View at publisher
  • [Publication 4]: Seppo Enarvi and Mikko Kurimo. TheanoLM — An Extensible Toolkit for Neural Network Language Modeling. In Proceedings of the 17th Annual Conference of the International Speech Communication Association (INTERSPEECH), San Francisco, CA, USA, pages 3052–3056, September 2016. Fulltext in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201708036333.
  • [Publication 5]: Seppo Enarvi, Peter Smit, Sami Virpioja, and Mikko Kurimo. Automatic Speech Recognition with Very Large Conversational Finnish and Estonian Vocabularies. IEEE/ACM Transactions on Audio, Speech, and Language Processing, volume 25, issue 11, pages 2085–2097, November 2017. Fulltext in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201710157079.
    DOI: 10.1109/TASLP.2017.2743344 View at publisher
  • [Errata file]: Errata Seppo Enarvi DD-52/2018 Publications P1, P3, P4, P5
Citation