Statistical Methods in Natural Language Processing

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Helsinki University of Technology | Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

2006

Major/Subject

Tietämystekniikka

Mcode

T-93

Degree programme

Language

en

Pages

65

Series

Abstract

Luonnollisten kielten käsittely perustuu nykyään usein empiiristen menetelmien hyödyntämiseen sekä tilastollisiin kielimalleihin ja Bayesilaiseen päättelyyn. Kielimallien opetusaineistona käytetään valtavia tekstimassoja. Ensimmäisten tilastollisten kielimallien sekä näihin perustuvien menetelmien soveltuvuutta käsittelemään vaativampia lingvistisiä tehtäviä on monesti kyseenalaistettu. Ensimmäiset empiiriset menetelmät perustuivat tosiaan lineaarisiin kielimalleihin, vaikka kieli kognitiivisena ilmiönä saattaa hyvinkin omata piirteitä, joita ei sen sekventiaalista luonnetta tarkkailemalla ehkä koskaan pystytä edes ymmärtämään, sillä ihmisen "kognitiivinen koneisto" on kompleksisuudeltaan niin valtava sekä kvalitatiivisessa että kvantitatiivisessa mielessä, etteivät luonnontieteet ole tähän mennessä pystyneet siitä kokonaisuudessaan kattavaa taikka yhtenevää teoriaa kehittämään. Kielimallit ovat kuitenkin kehittyneet viime vuosikymmenten aikana, ja samalla tekstiaineistojen kattavuus sekä niiden saatavuus on parantunut huomattavasti. Vaikka tämä mahdollistaakin lingvistisen tiedon laajamittaisemman hyödyntämisen, monilla kieliteknologian osa-alueilla on edelleen ratkaisemattomia ongelmia, etenkin sellaisissa tehtävissä, joissa luonnollisen kielen ymmärtäminen on välttämätöntä. Diplomityön aiheena ovatkin sellaiset lingvistiset tehtävät, jotka ovat keskeisessä asemassa monissa sovelluksissa, mutta joiden kannalta kielen ymmärtäminen ei ole erityisen oleellista. Markov-malleihin perustuva sanaluokkien tunnistaminen sekä tilastolliset yhteysvapaat kieliopit ja näihin perustuva kielen jäsentäminen ovat tällaisia. Markov-malleja ja näihin liittyviä tekniikoita käsitellään kielen leksikaalisen moniselitteisyyden yhteydessä, kun taas rakenteellisen moniselitteisyyden ongelmaa lähestytään stokastisen jäsennyksen avulla. Diplomityö käsittelee lisäksi lyhyesti kielimallien parametrien estimointimenetelmiä sekä tähän tarkoitukseen käytettäviä data-aineistoja.

Description

Supervisor

Syrjänen, Markku

Thesis advisor

Honkela, Timo

Keywords

formal languages, formaalit kielet, grammars, kieliopit, natural language processing, luonnollisten kielten käsittely, computational linguistics, laskennallinen kielitiede, artificial intelligence, tekoäly, language models, kielimallit, part-of-speech tagging, sanaluokan tunnistus, probabilistic context-free parsing, stokastinen yhteysvapaa jäsennys, corpus based linguistics, korpuslingvistiikka, finite-state automata, äärelliset automaatit, Markov models, Markov-mallit, HMM, HMM, n-grams, n-gram

Other note

Citation