Statistical Methods in Natural Language Processing
No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Helsinki University of Technology |
Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Author
Date
2006
Department
Major/Subject
Tietämystekniikka
Mcode
T-93
Degree programme
Language
en
Pages
65
Series
Abstract
Luonnollisten kielten käsittely perustuu nykyään usein empiiristen menetelmien hyödyntämiseen sekä tilastollisiin kielimalleihin ja Bayesilaiseen päättelyyn. Kielimallien opetusaineistona käytetään valtavia tekstimassoja. Ensimmäisten tilastollisten kielimallien sekä näihin perustuvien menetelmien soveltuvuutta käsittelemään vaativampia lingvistisiä tehtäviä on monesti kyseenalaistettu. Ensimmäiset empiiriset menetelmät perustuivat tosiaan lineaarisiin kielimalleihin, vaikka kieli kognitiivisena ilmiönä saattaa hyvinkin omata piirteitä, joita ei sen sekventiaalista luonnetta tarkkailemalla ehkä koskaan pystytä edes ymmärtämään, sillä ihmisen "kognitiivinen koneisto" on kompleksisuudeltaan niin valtava sekä kvalitatiivisessa että kvantitatiivisessa mielessä, etteivät luonnontieteet ole tähän mennessä pystyneet siitä kokonaisuudessaan kattavaa taikka yhtenevää teoriaa kehittämään. Kielimallit ovat kuitenkin kehittyneet viime vuosikymmenten aikana, ja samalla tekstiaineistojen kattavuus sekä niiden saatavuus on parantunut huomattavasti. Vaikka tämä mahdollistaakin lingvistisen tiedon laajamittaisemman hyödyntämisen, monilla kieliteknologian osa-alueilla on edelleen ratkaisemattomia ongelmia, etenkin sellaisissa tehtävissä, joissa luonnollisen kielen ymmärtäminen on välttämätöntä. Diplomityön aiheena ovatkin sellaiset lingvistiset tehtävät, jotka ovat keskeisessä asemassa monissa sovelluksissa, mutta joiden kannalta kielen ymmärtäminen ei ole erityisen oleellista. Markov-malleihin perustuva sanaluokkien tunnistaminen sekä tilastolliset yhteysvapaat kieliopit ja näihin perustuva kielen jäsentäminen ovat tällaisia. Markov-malleja ja näihin liittyviä tekniikoita käsitellään kielen leksikaalisen moniselitteisyyden yhteydessä, kun taas rakenteellisen moniselitteisyyden ongelmaa lähestytään stokastisen jäsennyksen avulla. Diplomityö käsittelee lisäksi lyhyesti kielimallien parametrien estimointimenetelmiä sekä tähän tarkoitukseen käytettäviä data-aineistoja.Description
Supervisor
Syrjänen, MarkkuThesis advisor
Honkela, TimoKeywords
formal languages, formaalit kielet, grammars, kieliopit, natural language processing, luonnollisten kielten käsittely, computational linguistics, laskennallinen kielitiede, artificial intelligence, tekoäly, language models, kielimallit, part-of-speech tagging, sanaluokan tunnistus, probabilistic context-free parsing, stokastinen yhteysvapaa jäsennys, corpus based linguistics, korpuslingvistiikka, finite-state automata, äärelliset automaatit, Markov models, Markov-mallit, HMM, HMM, n-grams, n-gram