Deep learning methods for visual speech recognition
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2020-06-16
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence (Macadamia)
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
65 + 1
Series
Abstract
Visual speech recognition, or automatic lipreading, involves decoding text from speaker's lip movements and other facial gestures. Whereas automatic speech recognition systems model speech using phonemes, the visual modality of speech is commonly modeled using their visual counterparts, visemes. Classical visual speech recognition systems typically predict visemes or focus on word classification. However, recent advances in deep learning, increased availability of computational resources, and larger datasets have resulted in dramatic improvements in a short amount of time. The latest visual speech recognition models rely on end-to-end neural networks that predict the word class or transcription based on the video frames and do not explicitly model visemes. The most recent models are capable of performing continuous visual speech recognition on recorded videos with reasonable error rates. As recent models have been diverse and trained on different datasets, we believe that combining the best ideas could result in better models and further performance improvements. In this work, we look at contemporary visual speech recognition models and study whether the recent improvements are attributable to better models or a larger amount of data. We will describe our experiments on a continuous visual speech recognition task and a comparison of two feature extraction methods inspired by recent work. Our results indicate that the state-of-the-art models could be further improved by adopting some simple changes. We also obtained encouraging initial results using subword tokens in continuous visual speech recognition. We see an opportunity in improving the models by using subword tokens, deep front-end models capable of extracting high-quality visual features, and end-to-end training on modern hardware.Visuaalinen puheentunnistus eli automaattinen huuliltaluku kattaa tekstin tunnistamisen puhujan huulien liikkeistä tai muista kasvon eleistä. Siinä missä puheentunnistusjärjestelmät mallintavat puhetta foneemien avulla, visuaalisessa modaliteetissa puhetta mallinnetaan tavallisesti niiden visuaalisilla vastinpareilla, viseemeillä. Klassiset visuaaliset puheentunnistusjärjestelmät ennustavat tyypillisesti viseemejä tai keskittyvät sanojen luokitteluun. Edistysaskeleet syväoppimisessa, helpommin saatavilla olevat laskentaresurssit ja suuremmat data-aineistot ovat johtaneet merkittäviin parannuksiin lyhyessä ajassa. Viimeisimmät visuaaliset puheentunnistusmallit pohjautuvat "päästä päähän"~\mbox{-neuroverkkoihin}, jotka ennustavat yksittäisen sanan tai koko tekstin videon perusteella eivätkä eksplisiittisesti mallinna viseemejä. Viimeisimmät mallit kykenevät tekemään visuaalista puheentunnistusta videoista kohtuullisella määrällä virheitä. Koska viimeaikaiset mallit ovat olleet monimuotoisia ja koulutettu eri data-aineistoilla, uskomme että parhaita ideoita yhdistelemällä on mahdollista rakentaa parempia ja tarkempia malleja. Tässä työssä tarkastelemme nykyaikaisia visuaalisen puheentunnistuksen metodeja ja tutkimme johtuvatko viimeaikaiset parannukset paremmista malleista vai laajemmista data-aineistoista. Kuvailemme jatkuvan visuaalisen puheentunnistuksen kokeemme ja vertailumme kahta piirreirroitusmetodia, jotka pohjautuvat viimeaikaisiin tutkimuksiin. Tuloksemme antavat ymmärtää, että tämän hetken parhaimpia malleja voisi parantaa käyttämällä syviä korkealaatuisia visuaalisia piirteitä irrottavia neuroverkkoja ja "päästä päähän"~-metodia opetuksessa nykyaikaisella laitteistolla. Lisäksi hyötyä voidaan saada osasanoilla, sillä saavutimme lupaavia alustavia tuloksia mallintamalla osasanoja jatkuvassa visuaalisessa puheentunnistuksessa.Description
Supervisor
Kurimo, MikkoThesis advisor
Virkkunen, AnjaKeywords
visual speech recognition, automatic lipreading, deep learning, machine learning