Morph-based speech retrieval: Indexing methods and evaluations of unsupervised morphological analysis

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Kurimo, Mikko, Dr.
dc.contributor.author Turunen, Ville T.
dc.date.accessioned 2012-08-08T08:45:29Z
dc.date.available 2012-08-08T08:45:29Z
dc.date.issued 2012
dc.identifier.isbn 978-952-60-4718-8 (electronic)
dc.identifier.isbn 978-952-60-4717-1 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/4430
dc.description.abstract Speech retrieval enables users to find information in collections of spoken material. Automatic speech recognition (ASR) is used to transform the spoken words into text, and information retrieval (IR) methods are used for searching. Traditional ASR systems have a predefined vocabulary of words, and any word that is out-of-vocabulary (OOV) can not be recognized. Typically, rare words are excluded, which is problematic for retrieval, because query words are often rare words such as proper names. The limited vocabulary is especially problematic for languages such as Finnish that have a very large number of distinct word forms. In this thesis, morpheme-like subword units are used for speech recognition and retrieval. The subword units, referred to as morphs, are discovered using a data driven method that learns morphological structure from text data. Using this approach, it is possible to recognize any word in speech, even a word that was not in the training data, as a sequence of morphs. A rule-based morphological analyzer could be used to find base forms of the recognized words for indexing. However, the vocabulary of the analyzer is also limited, and recognition errors cause further problems for the analyzer. Instead, in this work, morphs are used as index terms as well. In Finnish speech retrieval experiments, the morph-based approach is compared to using word-based language models in ASR, and to using base forms in retrieval. Also, morphs are compared for story segmentation of speech. The results show that morph-based language models clearly outperform word-based models in retrieval performance. As index terms, using morphs is about as efficient as using base forms, but combining the two approaches is better than either alone, especially when there are a high proportion of unseen words in the queries. The effect of unoptimal morph segmentations is reduced by using alternative morph segmentations of query words and by using latent semantic indexing. Even if the morph deemed most likely by the ASR is incorrect, it is possible that the correct one is among the candidates the ASR considers. Utilizing the candidates in retrieval can improve performance. In this thesis, a representation of ASR hypotheses called confusion network is used for extracting alternative recognition results. A rank-based weighting of index terms is proposed, and found to outperform posterior probability based weighting. This thesis also studies evaluation metrics for unsupervised morphological analysis methods. Application evaluations such as speech retrieval are time consuming and cannot be used during method development. Different linguistic evaluation metrics have been proposed and are compared in this thesis by e.g. correlating the metrics to the results of application performance. en
dc.description.abstract Puhetiedonhaku mahdollistaa tiedon löytämisen puhuttua aineistoa sisältävistä kokoelmista. Puheentunnistusta käytetään muuttamaan puhutut sanat tekstiksi, ja tiedonhakumenetelmiä käytetään tunnistustekstistä etsimiseen. Perinteiset tunnistusjärjestelmät sisältävät ennalta määrätyn sanaston, jolloin sanaston ulkopuoliset sanat jäävät aina tunnistumatta oikein. Yleensä harvinaiset sanat jätetään pois, mikä on ongelmallista tiedonhaun kannalta, koska hakusanat ovat usein harvinaisia sanoja, kuten erisnimiä. Rajoitettu sanasto on erityisen ongelmallista kielille, joissa on runsaasti sanamuotoja, kuten suomelle. Tässä väitöskirjassa käytetään morfeemien kaltaisia sananosia tunnistukseen ja tiedonhakuun. Nämä morfeiksi kutsutut osat löydetään käyttäen ohjaamatonta menetelmää, joka oppii morfologista rakennetta tekstistä. Yhdistelemällä morfeja on mahdollista tunnistaa puheesta mikä tahansa sana, jopa sana, jota ei tavattu opetusaineistossa. Indeksoinnissa voidaan käyttää perusmuotoja, jotka saadaan sääntöpohjaisella morfologisella analyysaattorilla. Tällaisen analysaattorin käyttämä sanavarasto on kuitenkin rajoitettu, ja lisäksi tunnistusvirheet haittaavat sen toimintaa. Perusmuotojen sijaan tässä työssä käytetään morfeja myös indeksoinnissa. Suomenkielisissä puhetiedonhakutesteissä verrataan morfimenetelmää perinteisiin sanakielimalleihin tunnistuksessa ja perusmuotoihin tiedonhaussa. Tiedonhakutulosten perusteella morfikielimallit ovat selvästi parempia kuin sanakielimallit. Indeksoinnissa morfien käyttö on likimäärin yhtä tehokasta kuin perusmuotojen käyttö, mutta menetelmien yhdistäminen on tehokkainta, erityisesti silloin, kun opetustekstin ulkopuolisten sanojen osuus hakusanoista on suuri. Lisäksi epäoptimaalisten morfisegmenttien vaikutus vähenee, kun käytetään vaihtoehtoisia morfisegmentaatioita tai latenttia semanttista indeksointia. Vaikka morfi, joka tunnistimen mielestä on todennäköisin, on virheellinen, voi oikea morfi olla tunnistimen harkitsemien vaihtoehtojen joukossa. Näitä vaihtoehtoja voi hyödyntää haussa. Tässä työssä tunnistusvaihtoehdot esitetään konfuusioverkko-nimisessä rakenteessa. Vaihtoehtojen painottaminen niiden käänteisen paremmuusjärjestyksen mukaan havaitaan paremmaksi kuin painottaminen todennäköisyyden mukaan. Tässä väitöskirjassa tutkitaan myös evaluointimenetelmiä, joilla voi mitata ohjaamattomien morfologisten analyysimenetelmien toimintaa. Sovellusevaluaatiot, kuten puhetiedonhaku, ovat aikaavieviä eikä niitä voi käyttää kehitysvaiheen aikana. Erilaisia lingvistisiä evaluaatiomenetelmiä on ehdotettu, ja niitä verrataan esimerkiksi korreloimalla niiden tuloksia suorituskykyyn sovelluksissa. fi
dc.format.extent 228
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 97/2012
dc.relation.haspart [Publication 1]: Mikko Kurimo, Ville Turunen and Inger Ekman. An evaluation of a spoken document retrieval baseline system in Finnish. In Proceedings of the 8th International Conference on Spoken Language Processing (Interspeech 2004 - ICSLP), Jeju Island, Korea, pp. 1585-1588, October 2004.
dc.relation.haspart [Publication 2]: Mikko Kurimo and Ville Turunen. To recover from speech recognition errors in spoken document retrieval. In Proceedings of the 9th European Conference on Speech Communication and Technology (Interspeech 2005 - Eurospeech), Lisbon, Portugal, pp. 605-608, September 2005.
dc.relation.haspart [Publication 3]: Ville T. Turunen and Mikko Kurimo. Using latent semantic indexing for morph-based spoken document retrieval. In Proceedings of the 9th International Conference on Spoken Language Processing (Interspeech 2006 - ICSLP), Pittsburgh PA, USA, pp. 341-344, September 2006.
dc.relation.haspart [Publication 4]: Ville T. Turunen and Mikko Kurimo. Indexing confusion networks for morph-based spoken document retrieval. In Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Amsterdam, The Netherlands, pp. 631-638, July 2007.
dc.relation.haspart [Publication 5]: Ville T. Turunen. Reducing the effect of OOV query words by using morph-based spoken document retrieval. In Proceedings of the 9th Annual Conference of the International Speech Communication Association (Interspeech 2008), Brisbane, Australia, pp. 2158-2161, September 2008.
dc.relation.haspart [Publication 6]: Ville T. Turunen and Mikko Kurimo. Speech retrieval from unsegmented Finnish audio using statistical morpheme-like units for segmentation, recognition, and retrieval. ACM Transactions on Speech and Language Processing, Vol. 8, No. 1, pp. 1-25, October 2011.
dc.relation.haspart [Publication 7]: Sami Virpioja, Ville T. Turunen, Sebastian Spiegler, Oskar Kohonen and Mikko Kurimo. Empirical comparison of evaluation methods for unsupervised learning of morphology. Traitement Automatique des Langues, Vol. 52, No. 2, pp. 45-90, 2011.
dc.subject.other Linguistics en
dc.title Morph-based speech retrieval: Indexing methods and evaluations of unsupervised morphological analysis en
dc.title Morfeihin perustuva puhetiedonhaku: indeksointimenetelmiä sekä ohjaamattoman morfologisen analyysin evaluaatioita fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietojenkäsittelytieteen laitos fi
dc.contributor.department Department of Information and Computer Science en
dc.subject.keyword speech retrieval en
dc.subject.keyword spoken document retrieval en
dc.subject.keyword subword indexing en
dc.subject.keyword morphemes en
dc.subject.keyword out-of-vocabulary en
dc.subject.keyword confusion networks en
dc.subject.keyword morphological analysis en
dc.subject.keyword puhetiedonhaku fi
dc.subject.keyword sananosat fi
dc.subject.keyword morfeemi fi
dc.subject.keyword konfuusioverkko fi
dc.subject.keyword morfologinen analyysi fi
dc.identifier.urn URN:ISBN:978-952-60-4718-8
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Oja, Erkki, Prof.
dc.opn Saraçlar, Murat, Prof., Boğaziçi University, Turkey
dc.rev Jones, Gareth J. F., Dr., Dublin City University, Ireland
dc.rev Järvelin, Kalervo, Prof., University of Tampere, Finland
dc.date.defence 2012-08-24


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account