Can Weakly Supervised Learning of Generalized Names Be Applied to the Domain of an Engineering Project?
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Helsinki University of Technology |
Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Authors
Date
2006
Department
Major/Subject
Tietämystekniikka
Mcode
T-93
Degree programme
Language
en
Pages
94
Series
Abstract
Yksittäisiin insinööritekniikkaprojekteihin liittyy paljon pysyvässä muodossa olevaa dokumentaatiota. Osa dokumentaatiosta on luonteeltaan epämuodollista tietoa. Esimerkiksi projektiin liittyvät sähköpostit, standardit ja kokousmuistiot ovat käytännössä lähes kokonaisuudessaan epämuodollista tietoa, vaikka niiden tietosisältöä on osittain jäsennetty. Käyttäjän voi olla vaikea löytää haluttua tietoa tai edes halutun tiedon sisältävää dokumenttia muun tiedon joukosta, vaikka käyttäisi apunaan esimerkiksi merkkijonohakuja. Aikaa voi mennä myös runsaasti, jos rakennetaan ja ylläpidetään käsin luotuja luokitteluja, jotka helpottavat tiedonhakua. Käsin tehdyt luokittelut perustuvat sanalistoihin, jotka on koottu käsin. Uusille ratkaisuille, jotka automaattisesti auttavat käyttäjää löytymään haluamansa tiedon, on siis tarvetta. Tässä työssä sovellamme onnistuneesti heikosti ohjattua yleistettyjen nimien oppimista kieliaineistoon, joka on koottu insinööritekniikkaprojekteihin liittyvästä materiaalista. Heikosti ohjattu yleistettyjen nimien oppiminen on eräs nimettyjen entiteettien tunnistustekniikka. Sen tarkoituksena on paikantaa ja luokitella tekstielementtejä olemassa oleviin luokkiin käyttäen vain muutamaa siemenesimerkkiä kustakin luokasta. Kuvailtua ominaisuutta voidaan hyödyntää sovelluksissa, jotka auttavat käyttäjää löytämään haluamansa tiedon. Esimerkkisovelluksessa tunnistettuja luokkien pohjalta luodaan näkymiä, joissa yksittäistä dokumenttia edustavat dokumentin sisältämät luokkien ilmentymät. Nimettyjen entiteettien tunnistusta voidaan käyttää myös perustana monimutkaisemmille luonnollisten kielten käsittelytehtäville, kuten esimerkiksi tiedon irrottamiseen tai automaattisten tiivistelmien luomiseen. Työssä käytetyt luokat ovat tapahtumat, paikat, koneet, mittayksiköt, henkilöt/organisaatiot ja turvallisuus.Description
Supervisor
Syrjänen, MarkkuThesis advisor
Yangarber, RomanKeywords
named entity recognition, nimettyjen entiteettien tunnistus, weakly supervised learning, heikosti ohjattu oppiminen, un-supervised learning, ohjaamaton oppiminen, generalized names, yleistetyt nimet, bootstrapping, vyörytys, information extraction, tiedon irrottaminen, corpora processing, kieliaineiston prosessointi