Document classification using machine learning and ontologies

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorHyvönen, Eero
dc.contributor.authorNyberg, Katariina
dc.contributor.departmentMediatekniikan laitosfi
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorHyvönen, Eero
dc.date.accessioned2020-12-23T17:20:07Z
dc.date.available2020-12-23T17:20:07Z
dc.date.issued2011
dc.description.abstractThis master's thesis explores a way in which documents can be automatically classified based on their contents. Automatic classification of data is one of the main applications of machine learning. With the help of already classified data a model for the most likely class can be learned. Whether adding background knowledge from ontologies can be added to the model in order to improve the classification accuracy, is also explored in this master's thesis. A new machine learning model is introduced that incorporates ontology information. The proposed method for learning a classification model and enhancing it with ontology information is used in a case study for the Finnish National Archives and a set of digital documents that have been manually classified. An RDF schema for representing documents, sentences and words is created in order to prepare the data for the machine learning analysis. The words are put into base form and matched semi-automatically with concepts of the General Finnish Ontology YSO. Then the ontology enhanced model is applied on the data and the most likely classes for documents are learned. The master's thesis shows that the classification accuracy of the model increases when ontology information is added to it.en
dc.description.abstractTässä diplomityössä tutkitaan asiakirjojen automaattista luokittelua niiden sisällön pohjalta. Tiedon automaattinen luokittelu on yksi koneoppimisen keskeisiä aihepiirejä. Oppivasta luokittimesta luodaan malli jo valmiiksi luokitetulla esimerkkidatalla. Tehtävänä on kokeilla ontologisen taustatiedon hyödyntämistä oppivassa luokittimessa ja selvittää parantaako taustatiedon lisääminen mallin luokittelutarkkuutta. Diplomityö esittelee uuden oppivan luokittimen, joka sisällyttää ontologiatiedon analyysiinsa. Luokitinta testataan Suomen Kansallisarkiston sähköisillä asiakirjoilla, jotka ovat kasin luokiteltuja. Asiakirjojen ja niiden sisältämien lauseiden sekä sanojen esittämistä varten diplomityössä on kehitetty RDF skeema, jota käyttäen sanat voidaan muuttaa perusmuotoon ja yhdistää puoliautomaattisesti Yleisen suomalaisen ontologian käsitteisiin. Skeemaa hyödynnetään datan valmisteluun oppivan luokittimen analyysia varten. Diplomityössä on osoitettu, että luokittelutarkkuus paranee, kun oppivaan luokittimeen lisätään ontologiatietoa.fi
dc.format.extent[9] + 71 s.
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/99202
dc.identifier.urnURN:NBN:fi:aalto-2020122358029
dc.language.isoenen
dc.programme.majorViestintätekniikkafi
dc.programme.mcodeT-75fi
dc.rights.accesslevelclosedAccess
dc.subject.keyworddocument classificationen
dc.subject.keywordasiakirjojen luokittelufi
dc.subject.keywordontologiesen
dc.subject.keywordontologiatfi
dc.subject.keywordsyntactical analysisen
dc.subject.keywordkieliopillinen analyysifi
dc.subject.keywordmachine learningen
dc.subject.keywordkoneoppiminenfi
dc.subject.keywordlogistic discriminanten
dc.subject.keywordlogistinen diskriminanttifi
dc.subject.keywordbag of wordsen
dc.subject.keywordYSOfi
dc.subject.keywordYSOen
dc.titleDocument classification using machine learning and ontologiesen
dc.titleAsiakirjojen luokittelu koneoppimista ja ontologioita käyttäenfi
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotPro gradu -tutkielmafi
dc.type.publicationmasterThesis
local.aalto.digiauthask
local.aalto.digifolderAalto_00320
local.aalto.idinssi41554
local.aalto.openaccessno

Files