Review of Speech Synthesis Technology

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.authorLemmetty, Sami
dc.contributor.departmentSähkö- ja tietoliikennetekniikan osastofi
dc.contributor.schoolTeknillinen korkeakoulufi
dc.contributor.schoolHelsinki University of Technologyen
dc.contributor.supervisorKarjalainen, Matti
dc.date.accessioned2020-12-03T23:12:28Z
dc.date.available2020-12-03T23:12:28Z
dc.date.issued1999
dc.description.abstractSynteettinen eli keinotekoisesti tuotettu puhe on kehittynyt varsin nopeasti viimeisten vuosikymmenten aikana. Erityisesti puheen ymmärrettävyys on saavuttanut riittävän tason moniin kommunikaatiovaikeuksia omaavien ihmisten tarpeisiin ja sovelluksiin. Synteettisen puheen ymmärrettävyyttä voidaan lisäksi parantaa merkittävästi lisäämällä visuaalista informaatiota (puhuva pää). Tämän työn tarkoitus on kartoittaa puhesynteesiteknologian nykytila. Puhesynteesi voidaan jakaa rajoitetun ja rajoittamattoman sanaston synteesiin. Rajoitetun sanaston synteesi soveltuu hyvin erilaisiin kuulutus- ja informaatiojärjestelmiin, kun taas esimerkiksi näkövammaissovelluksiin tarvitaan useimmiten rajoittamattoman sanaston synteesiä. Rajoittamattoman sanaston synteesi voidaan jakaa korkean- ja matalan tason synteesiin. Korkean tason synteesi huolehtii tekstin esikäsittelystä (numerot, lyhenteen jne.), analyysistä sekä tarvittavan tiedon välittämisestä varsinaisen puhesignaalin tuottavan matalan tason syntetisaattorin ohjaamiseksi. Varsinaisen puhesynteesin tuottamiselle on kolme perusmenetelmää. Yleisin menetelmä on formanttisynteesi, missä mallinnetaan ihmisen ääniväylän resonanssikohtia. Yleistymässä on myös luonnollisesta puheesta poimittujen lyhyiden ääninäytteiden toistamiseen perustuva aikatason synteesi. Kolmas vaihtoehto on mallintaa ihmisen puheentuottojärjestelmää suoraan, mikä on kuitenkin teknisesti ja laskennallisesti varsin raskasta. Puheen luonnollisuuden parantuessa sitä on alettu käyttää yhä useammassa eri sovelluskohteessa, kuten erilaiset lukulaitteet (sähköposti, tekstiviesti jne.), multimedia, tai mikä tahansa ihmisen ja koneen välinen vuorovaikutus. Koska puheen laatu on varsin monitahoinen kysymys, on myös sen laadun arvioiminen varsin hankalaa ja monimutkaista. Tämän vuoksi on olemassa lukuisia eri menetelmiä synteettisen puheen laadun ja erilaisten ominaisuuksien arvioimiseksi. Puhesyntetisaattoreita on tällä hetkellä saatavilla lukuisia erilaisia ja eritasoisia kaikille yleisimmille kielille, myös suomeksi.fi
dc.format.extent104
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/86828
dc.identifier.urnURN:NBN:fi:aalto-2020120445666
dc.language.isoenen
dc.programme.majorAkustiikka ja äänenkäsittelytekniikkafi
dc.programme.mcodeS-89fi
dc.rights.accesslevelclosedAccess
dc.subject.keywordspeech synthesisen
dc.subject.keywordpuhesynteesifi
dc.subject.keywordsynthesized speechen
dc.subject.keywordaudiovisuaalinen puhelsynteesifi
dc.subject.keywordtext-to-speechen
dc.subject.keywordttsfi
dc.subject.keywordttsen
dc.subject.keywordkeinotekoinen puhefi
dc.subject.keywordartificial speechen
dc.subject.keywordsynteettinen puhefi
dc.subject.keywordspeech synthesizeren
dc.subject.keywordaudio-visual speechen
dc.titleReview of Speech Synthesis Technologyen
dc.titleKatsaus puhesynteesiteknologiaanfi
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotPro gradu -tutkielmafi
dc.type.publicationmasterThesis
local.aalto.digiauthask
local.aalto.digifolderAalto_34718
local.aalto.idinssi14232
local.aalto.openaccessno

Files