Browsing by Author "Jokinen, Kristiina"
Now showing 1 - 8 of 8
- Results Per Page
- Sort Options
- Automatic Speech Recognition for Human-Robot Interaction Using an Under-Resourced Language
Sähkötekniikan korkeakoulu | Master's thesis(2015-08-24) Leinonen, JuhoAutomatic speech recognition will soon be a part of everyday life. Even today many people use the speech recognizer in their smartphones, whether it is Google Now or Siri. Commercial applications have existed for years for automatic dictation, and command-based voice user interfaces. The abundance of software divides languages in two; in well-resourced languages there is no shortage of products, while under-resourced languages might not even receive academic interest. In this thesis, an automatic speech recognizer is built for North Sami, which is a morphologically rich under-resourced language in the Uralic family. These properties create challenges for the recognition process, of which this thesis will concentrate on the issue of out-of-vocabulary words. The use of whole words is compared with word fragments, morphs, and tests are conducted to optimize other language model variables such as vocabulary size and context length. The experiments show that morph-based language models solve the problem of out-of-vocabulary words and significantly improve the recognition results without slowing the process too much. In addition, increasing context length improves the morph models, while adding supervision to generating them does not. As such, this thesis recommends a high order morph model generated with unsupervised methods to be used with North Sami. - Automatic Speech Recognition for Northern Sámi with comparison to other Uralic Languages
A4 Artikkeli konferenssijulkaisussa(2016-01-20) Smit, Peter; Leinonen, Juho; Jokinen, Kristiina; Kurimo, MikkoSpeech technology applications for major languages are becoming widely available, but for many other languages there is no commercial interest in developing speech technology. As the lack of technology and applications will threaten the existence of these languages, it is important to study how to create speech recognizers with minimal effort and low resources. As a test case, we have developed a Large Vocabulary Continuous Speech Recognizer for Northern Sámi, an Finno-Ugric language that has little resources for speech technology available. Using only limited audio data, 2.5 hours, and the Northern Sámi Wikipedia for the language model we achieved 7.6% Letter Error Rate (LER). With a language model based on a higher quality language corpus we achieved 4.2% LER. To put this in perspective we also trained systems in other, better-resourced, Finno-Ugric languages (Finnish and Estonian) with the same amount of data and compared those to state-of-the-art systems in those languages. - Automatic Speech Recognition for Northern Sámi with comparison to other Uralic Languages
School of Electrical Engineering | A4 Artikkeli konferenssijulkaisussa(2016) Smit, Peter; Leinonen, Juho; Jokinen, Kristiina; Kurimo, MikkoSpeech technology applications for major languages are becoming widely available, but for many other languages there is no commercial interest in developing speech technology. As the lack of technology and applications will threaten the existence of these languages, it is important to study how to create speech recognizers with minimal effort and low resources. As a test case, we have developed a Large Vocabulary Continuous Speech Recognizer for Northern Sámi, an Finno-Ugric language that has little resources for speech technology available. Using only limited audio data, 2.5 hours, and the Northern Sámi Wikipedia for the language model we achieved 7.6% Letter Error Rate (LER). With a language model based on a higher quality language corpus we achieved 4.2% LER. To put this in perspective we also trained systems in other, better-resourced, Finno-Ugric languages (Finnish and Estonian) with the same amount of data and compared those to state-of-the-art systems in those languages. - Low-Resource Active Learning of Morphological Segmentation
A1 Alkuperäisartikkeli tieteellisessä aikakauslehdessä(2016) Grönroos, Stig-Arne; Hiovain, Katri; Smit, Peter; Rauhala, Ilona; Jokinen, Kristiina; Kurimo, Mikko; Virpioja, SamiMany Uralic languages have a rich morphological structure, but lack morphological analysis tools needed for efficient language processing. While creating a high-quality morphological analyzer requires a significant amount of expert labor, data-driven approaches may provide sufficient quality for many applications. We study how to create a statistical model for morphological segmentation with a large unannotated corpus and a small amount of annotated word forms selected using an active learning approach. We apply the procedure to two Finno-Ugric languages: Finnish and North Sámi. The semi-supervised Morfessor FlatCat method is used for statistical learning. For Finnish, we set up a simulated scenario to test various active learning query strategies. The best performance is provided by a coverage-based strategy on word initial and final substrings. For North Sámi we collect a set of humanannotated data. With 300 words annotated with our active learning setup, we see a relative improvement in morph boundary F1-score of 19% compared to unsupervised learning and 7.8% compared to random selection. - Multimodaalisuus käyttöliittymäsuunnittelijan näkökulmasta - Graafisen ja puhekäyttöliittymän symbioosi
School of Arts, Design and Architecture | Master's thesis(2003) Kanninen, Matti IlariTyöni pohtii multimodaalisuuden mahdollisuuksia ja haasteita käyttöliittymäsuunnittelijan näkökulmasta. Aihetta lähestytään graafisen ja puhekäyttöliittymän toisiaan tukevan yhdistelmän kautta. Työssäni tarkastelen kolmea kysymystä. Miten käyttäjä kokee multimodaalisuuden, miten modaliteetit voidaan valita ja yhdistää sekä mitä multimodaalisuus merkitsee käyttöliittymäsuunnittelijalle. Kysymyksiä käsitellään esimerkkien, kirjallisuudesta saatujen tutkimustulosten ja omakohtaisen kokemuksen kautta. Multimodaalisuus on vielä tuore tutkimusalue ja kertyneen tutkimustiedon pohjalta ei edellisiin kysymyksiin pystytä täysin vastaamaan. Työni kokaa yhteen monia asioita, joita multimodaalista, erityisesti graafisen ja puhekäyttöliittymän yhdistävää sovellusta suunniteltaessa pitäisi ottaa huomioon. Lisäksi työhön on kerätty olemassaolevaa tutkimustietoa, jonka pohjalta suunnittelutyössä eteen tulevia kysymyksiä voi yrittää ratkoa. - Towards SamiTalk: A Sami-Speaking Robot Linked to Sami Wikipedia
A3 Kirjan tai muun kokoomateoksen osa(2017) Wilcock, Graham; Laxström, Niklas; Leinonen, Juho; Smit, Peter; Kurimo, Mikko; Jokinen, KristiinaWe describe our work towards developing SamiTalk, a robot application for the North Sami language. With SamiTalk, users will hold spoken dialogues with a humanoid robot that speaks and recognizes North Sami. The robot will access information from the Sami Wikipedia, talk about requested topics using the Wikipedia texts, and make smooth topic shifts to related topics using the Wikipedia links. SamiTalk will be based on the existing WikiTalk system for Wikipedia-based spoken dialogues, with newly developed speech components for North Sami. - RDF-mallien käyttö ontologiapohjaisessa dialoginhallinnassa
Helsinki University of Technology | Master's thesis(2005) Nyrkkö, SeppoTyössä käsitellään dialoginhallinnan menetelmiä dialogijärjestelmiin, keskustelun mallintamiseen ja ontologioihin liittyvän taustatutkimuksen valossa. Teoriaosuudessa tarkastellaan ihanteellisen koneen ja ihmisen välisen keskustelun vaatimuksia käsittelevää konstruktiivisen dialoginhallinnan teoriaa. Käytännön esimerkkinä on Interact-dialogijärjestelmän rakenne ja Denecken luoma formalismi keskustelunsuunnittelulle, joka perustuu dialogin alkeisolioihin. Ontologian käsite esitellään John F. Sowan määritelmän avulla, minkä jälkeen esitellään semanttisen webin RDF-tietorakenteita ja OWL-ontologiankuvauskieltä. Työ on tehty Helsingin yliopiston, Teknillisen korkeakoulun ja VTT:n yhteisen Tekes- rahoitteisen Fenix-teknologiaohjelman 4M-hankkeen yhteydessä. 4M-hankkeen puitteissa on tutkittu monikielistä puheella ohjattavaa dialogijärjestelmää, joka tukee huoltohenkilön työtä vikadiagnoosien muodostamisessa ja manuaali-informaation löytämisessä. Työssä suunnitellaan ja toteutetaan kokeellinen kehitysaste 4M-järjestelmän dialoginhallintayksiköstä, joka käsittelee saamaansa informaatiota ontologiaperustaisissa RDF-tietorakenteissa käyttäen apuna hankkeessa luotuja huoltotyön ontologioita. Työssä kehitettävä dialogijärjestelmän malli noudattaa taustatutkimuksessa esiteltyjä periaatteita. Tavoiteltava dialoginhallinta suunnittelee keskustelua valitsemalla dialogistrategioita Denecken mallin mukaisesti. Dialoginsuunnittelua varten työssä määritellään Denecken dialogiobjektia vastaava RDF-muotoinen esitysmuoto dialogisäännölle, joka kuvaa dialogijärjestelmän alkeistapahtumaa, sen suorittamista koskevia rajoitteita ja säännösten odotettua vaikutusta keskustelun tilaan. Dialoginhallinta suunnitellaan käyttämään järjestelmän komponenttien kesken jaettua, työssä määriteltävää RDF-pohjaista tietovarastoa, jonka avulla se välittää informaatiota taustalla toimivien diagnostisten komponenttien ja tiedonhakupalveluiden kesken. Toteutettavaa dialoginhallintamallia vertaillaan Interact järjestelmän' yhteydessä esiteltyyn agenttimalliin. Työssä toteutetaan RDF-rakenteina myös mallit kieliriippumattomalle puheenvuoron semantiikan esitykselle ja fyysisen ongelmaympäristön kuvaukselle. Lopuksi työssä evaluoidaan osittain toteutetun järjestelmän toimintaa integroidussa ympäristössä, joka on kehitetty 4M-hankkeen yhteydessä. Järjestelmän rajoittuneisuudesta johtuen sille ei ole tehty käyttäjäevaluaatiota, vaan ohjelman eri piirteitä on arvioitu erikseen. Vaikka järjestelmän toteutus ei täytä kaikkia tavoitteissa esiteltyjä ihanteellisen keskustelun periaatteisiin yltävän tai monimutkaiseen päättelyyn kykenevän dialoginhallinnan piirteitä, soveltuu työssä muodostettu dialoginhallinnan malli hyvin jatkokehitykseen, ja sen toteutus on jo tällaisenaan osoittautunut käyttökelpoiseksi erillisistä työkalukomponenteista koostuvassa 4M-dialogijärjestelmässä. - Multimodaalisen informaation hyödyntäminen reitinopastusdialogeissa
Helsinki University of Technology | Master's thesis(2005) Hurtig, TopiMobiilit sovellukset ovat lisääntyneet viime vuosina mobiililaitteiden suorituskyvyn kasvaessa ja langattomien tiedonsiirtoyhteyksien kehittyessä. Laitteiden pienen koon vuoksi käyttäjärajapinnan suunnitteluun on kuitenkin kiinnitettävä aiempaa enemmän huomiota. Yleisimpiä ja käytettävimpiä mobiilisovelluksia ovat melko yksinkertaiset tiedonhakutyyppiset palvelut, esimerkiksi numero- tai nimihakupalvelut ja aikataulupalvelut, joissa puheentunnistuksen heikko taso kuitenkin tekee interaktiosta vähemmän luonnollista. Puhetta voidaan kuitenkin tukea erilaisten ihmiselle luonnollisten rinnakkaisten informaatiokanavien, esimerkiksi eleiden, avulla, ja tätä niin kutsuttua multimodaalisuutta on hyödynnetty jo jonkin aikaa erilaisissa rajoitetuissa tehtävissä. Vaikka multimodaalisuuden hyödyt ovat kiistattomat, monimutkaistaa se järjestelmän rakennetta sekä ihmisen ja koneen välisen interaktion suunnittelua. Tämä rajoittaa osaltaan multimodaalisten järjestelmien yleistymistä. Tässä diplomityössä esitellään allekirjoittaneen suunnittelema ja toteuttama julkiseen liikenteeseen tarkoitettu MUMS-reitinopastusjärjestelmä. Käyttäjä keskustelee järjestelmän kanssa kämmentietokoneen välityksellä, käyttäen luonnollista puhetta ja laitteen kartalle piirrettyjä syötteitä. Järjestelmä opastaa käyttäjää synteettisen puheen ja graafisten karttaesitysten avulla. Työn tarkoituksena oli tutkia missä laajuudessa luonnollisen suomenkielisen interaktiomallin toteuttaminen tämän kaltaisessa melko erikoistuneessa sovelluksessa on nykymenetelmin mahdollista. Tutkimuksen kohteena oli myös erityisesti informaatiovirtojen yhdistämiseen tarkoitettu fuusiokomponentti. Tutkimukselle ja järjestelmälle asetetut tavoitteet voidaan katsoa saavutetuiksi, ja alustavien tulosten perusteella järjestelmän interaktiomalli ja syötteiden fuusiointi toimivat erinomaisesti. Puheentunnistus asettaa kuitenkin edelleen järjestelmälle tiettyjä rajoituksia. Tutkimuksen perusteella voidaan tehdä seuraavat johtopäätökset: jotta multimodaalisesta järjestelmästä saadaan luonnollinen ja helppokäyttöinen, on sen tehtävät rajattava sopivasti ja keskityttävä suunnittelussa interaktiomalliin, syötteiden käsittelyyn ja informaatiokanavien fuusioon. MUMS-järjestelmän toiminnallisuuksiltaan rajoitettu prototyyppi on tällä hetkellä toiminnassa, ja allekirjoittanut jatkaa sen kehitystä.