Deep learning methods for visual speech recognition

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorVirkkunen, Anja
dc.contributor.authorVehviläinen, Tommi
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorKurimo, Mikko
dc.date.accessioned2020-06-21T17:13:00Z
dc.date.available2020-06-21T17:13:00Z
dc.date.issued2020-06-16
dc.description.abstractVisual speech recognition, or automatic lipreading, involves decoding text from speaker's lip movements and other facial gestures. Whereas automatic speech recognition systems model speech using phonemes, the visual modality of speech is commonly modeled using their visual counterparts, visemes. Classical visual speech recognition systems typically predict visemes or focus on word classification. However, recent advances in deep learning, increased availability of computational resources, and larger datasets have resulted in dramatic improvements in a short amount of time. The latest visual speech recognition models rely on end-to-end neural networks that predict the word class or transcription based on the video frames and do not explicitly model visemes. The most recent models are capable of performing continuous visual speech recognition on recorded videos with reasonable error rates. As recent models have been diverse and trained on different datasets, we believe that combining the best ideas could result in better models and further performance improvements. In this work, we look at contemporary visual speech recognition models and study whether the recent improvements are attributable to better models or a larger amount of data. We will describe our experiments on a continuous visual speech recognition task and a comparison of two feature extraction methods inspired by recent work. Our results indicate that the state-of-the-art models could be further improved by adopting some simple changes. We also obtained encouraging initial results using subword tokens in continuous visual speech recognition. We see an opportunity in improving the models by using subword tokens, deep front-end models capable of extracting high-quality visual features, and end-to-end training on modern hardware.en
dc.description.abstractVisuaalinen puheentunnistus eli automaattinen huuliltaluku kattaa tekstin tunnistamisen puhujan huulien liikkeistä tai muista kasvon eleistä. Siinä missä puheentunnistusjärjestelmät mallintavat puhetta foneemien avulla, visuaalisessa modaliteetissa puhetta mallinnetaan tavallisesti niiden visuaalisilla vastinpareilla, viseemeillä. Klassiset visuaaliset puheentunnistusjärjestelmät ennustavat tyypillisesti viseemejä tai keskittyvät sanojen luokitteluun. Edistysaskeleet syväoppimisessa, helpommin saatavilla olevat laskentaresurssit ja suuremmat data-aineistot ovat johtaneet merkittäviin parannuksiin lyhyessä ajassa. Viimeisimmät visuaaliset puheentunnistusmallit pohjautuvat "päästä päähän"~\mbox{-neuroverkkoihin}, jotka ennustavat yksittäisen sanan tai koko tekstin videon perusteella eivätkä eksplisiittisesti mallinna viseemejä. Viimeisimmät mallit kykenevät tekemään visuaalista puheentunnistusta videoista kohtuullisella määrällä virheitä. Koska viimeaikaiset mallit ovat olleet monimuotoisia ja koulutettu eri data-aineistoilla, uskomme että parhaita ideoita yhdistelemällä on mahdollista rakentaa parempia ja tarkempia malleja. Tässä työssä tarkastelemme nykyaikaisia visuaalisen puheentunnistuksen metodeja ja tutkimme johtuvatko viimeaikaiset parannukset paremmista malleista vai laajemmista data-aineistoista. Kuvailemme jatkuvan visuaalisen puheentunnistuksen kokeemme ja vertailumme kahta piirreirroitusmetodia, jotka pohjautuvat viimeaikaisiin tutkimuksiin. Tuloksemme antavat ymmärtää, että tämän hetken parhaimpia malleja voisi parantaa käyttämällä syviä korkealaatuisia visuaalisia piirteitä irrottavia neuroverkkoja ja "päästä päähän"~-metodia opetuksessa nykyaikaisella laitteistolla. Lisäksi hyötyä voidaan saada osasanoilla, sillä saavutimme lupaavia alustavia tuloksia mallintamalla osasanoja jatkuvassa visuaalisessa puheentunnistuksessa.fi
dc.format.extent65 + 1
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/45037
dc.identifier.urnURN:NBN:fi:aalto-202006213994
dc.language.isoenen
dc.programmeMaster’s Programme in Computer, Communication and Information Sciencesfi
dc.programme.majorMachine Learning, Data Science and Artificial Intelligence (Macadamia)fi
dc.programme.mcodeSCI3044fi
dc.subject.keywordvisual speech recognitionen
dc.subject.keywordautomatic lipreadingen
dc.subject.keyworddeep learningen
dc.subject.keywordmachine learningen
dc.titleDeep learning methods for visual speech recognitionen
dc.titleSyväoppimismenetelmät visuaalisessa puheentunnistuksessafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Vehviläinen_Tommi_2020.pdf
Size:
9.13 MB
Format:
Adobe Portable Document Format