Automatic Speech Recognition for the Hearing Impaired in an Augmented Reality Application

Master's thesis
Machine Learning, Data Mining and Artificial Intelligence
Master's Programme in Computer, Communication and Information Sciences
People with hearing loss experience considerable difficulties in participating and understanding spoken communication, which has negative effects on many aspects of their life. In many proposed solutions to the problem the deaf or hard of hearing person has to take their attention away from the speaker. As a consequence the hearing impaired miss for instance gestures and expressions of the speaker. This thesis studied the use of augmented reality and automatic speech recognition technologies in an assistive mobile application for the hearing impaired. The application uses mobile augmented reality with video-based augmentations. Automatic speech recognition is done using modern neural network models. In the implementation, automatic speech recogniser transcriptions were placed in speech bubbles on top of an augmented reality view of the conversation partner. This minimised the distance between the speaker and the transcriptions, which help the hearing impaired follow the conversation. To validate the usefulness of the approach, user tests were organised with hearing impaired participants. The results show that the deaf and hard of hearing found the augmented reality view and the application helpful for following conversations. The most requested improvements by the user testers were support for visual separation and identification of speakers in group conversations and higher speech recognition accuracy.

Huonokuuloisilla ja kuuroilla ihmisillä on huomattavia vaikeuksia keskusteluihin osallistumisessa ja niiden ymmärtämisessä, joka laskee heidän elämänlaatuaan monella tavalla. Suuressa osassa ongelmaan tarjotuista ratkaisuista kuurot ja huonokuuloiset joutuvat siirtämään huomionsa pois puhujasta. Tällöin kuulovammainen ei näe esimerkiksi puhujan eleitä ja ilmeitä. Tässä työssä tutkittiin lisätyn todellisuuden ja automaattisen puheentunnistuksen hyödyntämistä huonokuuloisille ja kuuroille tarkoitetussa avustavassa sovelluksessa. Sovellus käyttää video- ja mobiilipohjaista lisättyä todellisuutta. Puheentunnistuksessa hyödynnetään moderneja neuroverkkomalleja. Toteutuksessa automaattisen puheentunnistuksen tulokset sijoitettiin puhekupliin videokuvassa näkyvän puhujan kasvojen lähelle. Näin kuuro tai huonokuuloinen käyttäjä pystyi helposti seuramaan sekä puhujaa että puheentunnistustuloksia. Sovelluksen hyödyllisyyttä arvioitiin järjestämällä käyttäjätestejä kuuroille ja huonokuuloisille. Tulosten perusteella huonokuuloiset ja kuurot kokivat lisätyn todellisuuden ja sovelluksen auttavan keskustelujen seuraamisessa. Testikäyttäjien eniten toivomia parannuksia olivat eri puhujien puheentunnistustulosten visuaalinen erottelu toisistaan ja parempi puheentunnistustarkkuus.
Kurimo, Mikko
Palomäki, Kalle
Lukkarila, Juri
augmented reality, speech recognition, mobile development, user testing, hearing impairment, assistive technology
