Auditory quality evaluation of present Finnish text-to-speech systems
Akustiikka ja äänenkäsittelytekniikka
Puhetta tuottavat tietokonejärjestelmät ovat kehittyneet niin eteviksi, että ne voivat lukea paljasta tekstisyötettä sujuvasti. Koska näillä tekstistä puheeksi -järjestelmillä kuitenkin mitä ilmeisimmin on eroja havaitussa äänenlaadussa, on tarvetta tutkia laatuun vaikuttavia tekijöitä ja saada kvantitatiivisia mittaustuloksia niistä. Synteettisen puheen tutkimus on perinteisesti tehty valtavirran kielillä. Lisäksi sellaiset tutkimukset ovat harvinaisia, jotka selvittävät järjestelmien yleistä kyvykkyyttä kommunikaatioon sen sijaan, että keskittyisivät puheentuoton yksityiskohtiin. Tässä työssä suomenkielisten tekstistä puheeksi -järjestelmien lauseymmärrettävyyttä testataan puheen ymmärrettävyyskynnys -testillä, joka on alunperin tarkoitettu mittaamaan ihmisten kuulovamman astetta. Testissä etsitään sellaista puheen voimakkuustasoa, joka on juuri ja juuri ymmärrettävissä kohinan seasta. "Puheen ymmärrettävyyskynnys" -testi pystyy tehokkaasti osoittamaan eron eri tekstistä puheeksi -järjestelmien välillä. Järjestelmä, joka tuottaa puhetta parametreista, paljastuu ymmärrettävämmäksi kuin järjestelmät, jotka tuottavat puhetta liittämällä ennalta äänitettyjä puhenäytteitä yhteen. Syinä tähän ovat parempi spektrisovitus kuuloon, juohevampi äänivirta, pienempi särö ja paremmat mahdollisuudet prosodian mallintamiseen.Speech-producing computer systems have evolved so intelligent, that they fluently can read plain text input. Since these text-to-speech systems apparently have differences in the perceived sound quality, there is a need for research into the factors that affect the quality, and a need for the quantitative measurements of those factors. Studies concerning synthetic speech have traditionally been conducted only for systems speaking languages of mainstream. In addition, there is only a limited amount of studies for the overall communicative capabilities of the systems, instead of concentrating into the details in speech production. In this work, the Finnish text-to-speech systems are evaluated for their sentence-level intelligibility in terms of "speech reception threshold" test, which was originally developed for testing the degree of hearing-impairment in humans. The test seeks for the speech presentation level that is barely intelligible in presence of noise. "Speech reception threshold" test can effectively tell the difference in text-to-speech systems. A system, which produces sound from parameters, is found more intelligible over the systems that produce speech by concatenating pre-recorded speech samples. Reasons to this are the better spectral fit into the human hearing, smoother continuity of audio flow, less distortion and better possibilities for prosody modelling.Description
text-to-speech, speech synthesis, speech quality evaluation, speech reception threshold, hearing in noise test, tekstistä puheeksi, puhesynteesi, puheen laadun arviointi, puheen havaitsemiskynnys