Deep learning methods for visual speech recognition

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2020-06-16

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence (Macadamia)

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

65 + 1

Series

Abstract

Visual speech recognition, or automatic lipreading, involves decoding text from speaker's lip movements and other facial gestures. Whereas automatic speech recognition systems model speech using phonemes, the visual modality of speech is commonly modeled using their visual counterparts, visemes. Classical visual speech recognition systems typically predict visemes or focus on word classification. However, recent advances in deep learning, increased availability of computational resources, and larger datasets have resulted in dramatic improvements in a short amount of time. The latest visual speech recognition models rely on end-to-end neural networks that predict the word class or transcription based on the video frames and do not explicitly model visemes. The most recent models are capable of performing continuous visual speech recognition on recorded videos with reasonable error rates. As recent models have been diverse and trained on different datasets, we believe that combining the best ideas could result in better models and further performance improvements. In this work, we look at contemporary visual speech recognition models and study whether the recent improvements are attributable to better models or a larger amount of data. We will describe our experiments on a continuous visual speech recognition task and a comparison of two feature extraction methods inspired by recent work. Our results indicate that the state-of-the-art models could be further improved by adopting some simple changes. We also obtained encouraging initial results using subword tokens in continuous visual speech recognition. We see an opportunity in improving the models by using subword tokens, deep front-end models capable of extracting high-quality visual features, and end-to-end training on modern hardware.

Visuaalinen puheentunnistus eli automaattinen huuliltaluku kattaa tekstin tunnistamisen puhujan huulien liikkeistä tai muista kasvon eleistä. Siinä missä puheentunnistusjärjestelmät mallintavat puhetta foneemien avulla, visuaalisessa modaliteetissa puhetta mallinnetaan tavallisesti niiden visuaalisilla vastinpareilla, viseemeillä. Klassiset visuaaliset puheentunnistusjärjestelmät ennustavat tyypillisesti viseemejä tai keskittyvät sanojen luokitteluun. Edistysaskeleet syväoppimisessa, helpommin saatavilla olevat laskentaresurssit ja suuremmat data-aineistot ovat johtaneet merkittäviin parannuksiin lyhyessä ajassa. Viimeisimmät visuaaliset puheentunnistusmallit pohjautuvat "päästä päähän"~\mbox{-neuroverkkoihin}, jotka ennustavat yksittäisen sanan tai koko tekstin videon perusteella eivätkä eksplisiittisesti mallinna viseemejä. Viimeisimmät mallit kykenevät tekemään visuaalista puheentunnistusta videoista kohtuullisella määrällä virheitä. Koska viimeaikaiset mallit ovat olleet monimuotoisia ja koulutettu eri data-aineistoilla, uskomme että parhaita ideoita yhdistelemällä on mahdollista rakentaa parempia ja tarkempia malleja. Tässä työssä tarkastelemme nykyaikaisia visuaalisen puheentunnistuksen metodeja ja tutkimme johtuvatko viimeaikaiset parannukset paremmista malleista vai laajemmista data-aineistoista. Kuvailemme jatkuvan visuaalisen puheentunnistuksen kokeemme ja vertailumme kahta piirreirroitusmetodia, jotka pohjautuvat viimeaikaisiin tutkimuksiin. Tuloksemme antavat ymmärtää, että tämän hetken parhaimpia malleja voisi parantaa käyttämällä syviä korkealaatuisia visuaalisia piirteitä irrottavia neuroverkkoja ja "päästä päähän"~-metodia opetuksessa nykyaikaisella laitteistolla. Lisäksi hyötyä voidaan saada osasanoilla, sillä saavutimme lupaavia alustavia tuloksia mallintamalla osasanoja jatkuvassa visuaalisessa puheentunnistuksessa.

Description

Supervisor

Kurimo, Mikko

Thesis advisor

Virkkunen, Anja

Keywords

visual speech recognition, automatic lipreading, deep learning, machine learning

Other note

Citation