Modeling Conversational Finnish for Automatic Speech Recognition

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorVirpioja, Sami, Dr., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.authorEnarvi, Seppo
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.labSpeech Recognition Research Groupen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorKurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.date.accessioned2018-04-24T09:02:49Z
dc.date.available2018-04-24T09:02:49Z
dc.date.defence2018-05-03
dc.date.issued2018
dc.description.abstractThe accuracy of automatic speech recognizers has been constantly improving for decades. Aalto University has developed automatic recognition of Finnish speech and achieved very low error rates on clearly spoken standard Finnish, such as news broadcasts. Recognition of natural conversations is much more challenging. The language that is spoken in Finnish conversations also differs in many ways from standard Finnish, and its recognition requires data that has previously been unavailable.  This thesis develops automatic speech recognition for conversational Finnish, starting by collection of training and evaluation data. For language modeling, large amounts of text are collected from the Internet, and filtered to match the colloquial speaking style. An evaluation set is published and used to benchmark the progress in conversational Finnish speech recognition. The thesis addresses many difficulties that arise from the fact that the vocabulary that is used in Finnish conversations is very large. Using deep neural networks for acoustic modeling and recurrent neural networks for language modeling, accuracy that is already useful in practical applications is achieved in conversational speech recognition.en
dc.description.abstractAutomaattisen puheentunnistuksen tarkkuus on jatkuvasti parantunut viimeisten vuosikymmenien aikana. Aalto-yliopistossa on kehitetty automaattista puheentunnistusta suomen kielelle ja päästy hyvin pieniin virheprosentteihin selkeästi puhutun kirjakielen tunnistuksessa, esimerkiksi uutislähetyksistä. Luonnolliten keskustelujen tunnistaminen on paljon haastavampaa. Suomen puhekieli eroaa myös monella tavalla kirjakielestä, ja sen tunnistamiseen tarvitaan tietoaineistoa, jota ei aikaisemmin ole ollut saatavilla.  Tämä väitöskirja kehittää automaattista puheentunnistusta suomen puhekielelle, alkaen opetus- ja testiaineiston keräämisestä. Kielen mallintamista varten Internetistä kerätään suuri määrä tekstiä ja aineisto suodatetaan vastaamaan puhekielen tyyliä. Testiaineisto julkaistaan ja sitä käytetään kriteerinä, kun arvioidaan suomen kielen keskustelumuotoisen puheen tunnistuksen kehitystä. Väitöskirjassa tutkitaan monia ongelmia jotka juontuvat siitä, että sanasto jota käytetään suomenkielisissä keskusteluissa on todella iso. Kun syviä neuroverkkoja käytetään akustiseen mallinnukseen ja takaisinkytkettyjä neuroverkkoja käytetään kielen mallinnukseen, saavutetaan keskustelupuheen tunnistuksessa tarkkuus joka on jo kelvollinen käytännön sovelluksiin.fi
dc.format.extent117 + app. 73
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-7908-0 (electronic)
dc.identifier.isbn978-952-60-7907-3 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/30638
dc.identifier.urnURN:ISBN:978-952-60-7908-0
dc.language.isoenen
dc.opnČernocký, Jan, Associate Prof., Brno University of Technology, Czech Republic
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Seppo Enarvi and Mikko Kurimo. A Novel Discriminative Method for Pruning Pronunciation Dictionary Entries. In Proceedings of the 7th International Conference on Speech Technology and Human-Computer Dialogue (SpeD), Cluj-Napoca, Romania, pages 113–116, October 2013. Full text in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201708036410. DOI: 10.1109/SpeD.2013.6682659
dc.relation.haspart[Publication 2]: Seppo Enarvi and Mikko Kurimo. Studies on Training Text Selection for Conversational Finnish Language Modeling. In Proceedings of the 10th International Workshop on Spoken Language Translation (IWSLT), Heidelberg, Germany, pages 256–263, December 2013. Fulltext in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201708036342.
dc.relation.haspart[Publication 3]: Mikko Kurimo, Seppo Enarvi, Ottokar Tilk, Matti Varjokallio, André Mansikkaniemi, and Tanel Alumäe. Modeling under-resourced languages for speech recognition. Language Resources and Evaluation, volume 51, issue 4, pages 961–987, December 2017. Fulltext in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201708036363. DOI: 10.1007/s10579-016-9336-9
dc.relation.haspart[Publication 4]: Seppo Enarvi and Mikko Kurimo. TheanoLM — An Extensible Toolkit for Neural Network Language Modeling. In Proceedings of the 17th Annual Conference of the International Speech Communication Association (INTERSPEECH), San Francisco, CA, USA, pages 3052–3056, September 2016. Fulltext in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201708036333.
dc.relation.haspart[Publication 5]: Seppo Enarvi, Peter Smit, Sami Virpioja, and Mikko Kurimo. Automatic Speech Recognition with Very Large Conversational Finnish and Estonian Vocabularies. IEEE/ACM Transactions on Audio, Speech, and Language Processing, volume 25, issue 11, pages 2085–2097, November 2017. Fulltext in Aaltodoc/Acris: http://urn.fi/URN:NBN:fi:aalto-201710157079. DOI: 10.1109/TASLP.2017.2743344
dc.relation.haspart[Errata file]: Errata Seppo Enarvi DD-52/2018 Publications P1, P3, P4, P5
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries52/2018
dc.revKlakow, Dietrich, Prof., Saarland University, Germany
dc.revStolcke, Andreas, Dr., Microsoft Research, USA
dc.subject.keywordautomatic speech recognitionen
dc.subject.keywordlanguage modelingen
dc.subject.keywordword classesen
dc.subject.keywordartificial neural networksen
dc.subject.keyworddata collectionen
dc.subject.keywordautomaattinen puheentunnistusfi
dc.subject.keywordkielen mallintaminenfi
dc.subject.keywordsanaluokatfi
dc.subject.keywordneuroverkotfi
dc.subject.keywordtiedonkeruufi
dc.subject.otherAcousticsen
dc.subject.otherElectrical engineeringen
dc.subject.otherLinguisticsen
dc.titleModeling Conversational Finnish for Automatic Speech Recognitionen
dc.titleSuomen puhekielen mallintaminen automaattista puheentunnistusta vartenfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.acrisexportstatuschecked
local.aalto.archiveyes
local.aalto.formfolder2018_04_24_klo_11_50
Files
Original bundle
Now showing 1 - 2 of 2
No Thumbnail Available
Name:
isbn9789526079080.pdf
Size:
712.44 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Errata_enarvi_seppo_DD_52_2018_publications_P1_P3_P4_P5.pdf
Size:
118.3 KB
Format:
Adobe Portable Document Format