Numeerisen tiedon haku vapaamuotoisista taloudellisista dokumenteista

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

Major/Subject

Mcode

T-106

Degree programme

Language

fi

Pages

60

Series

Abstract

The objective of this study was to find and analyze methods that can be used to extract numerical information from free form financial documents using a computer program. This study focused on quarterly interim reports, published by companies listed in NASDAQ CMX Nordic stock exchange. The goal in practice was to develop a system that reports predefined figures immediately when an interim report is published. Since natural language understanding is a difficult task, alternative methods were studied. For given company, the published interim reports were found to be structurally quite similar. This directed the study towards syntactical methods that can assist users to exploit the similarity. Shallow parsing the document enabled matching the syntactical patterns in proximity of the searched figure. In addition, estimated range of the searched figure was used to discard incorrect results. To analyze selected methods, a prototype computer program was designed and implemented. The program allowed user to create search parameters for syntactical patterns and number ranges. To measure accuracy of the program, an experiment was carried out. A user prepared and performed 60 different searches, and results were documented. Proportion of correct results was about 84 %. In other cases, many numbers matched equally well to the search parameters, leaving the search result undefined. Incorrect search results were not encountered.

Tutkimuksen tarkoituksena oli selvittää mahdollisuuksia hakea kiinnostavaa numerotietoa tietokoneohjelman avulla vapaamuotoisista taloudellisista dokumenteista. Tutkimuksessa keskityttiin NASDAQ OMX Nordic -pörssissä listattujen yhtiöiden neljännesvuosittain julkaisemien osavuosikatsauksien käsittelyyn. Tavoitteena oli kartoittaa menetelmiä, joiden avulla yritysten osavuosikatsauksessa julkaisemaa numerotietoa voidaan hakea käyttäjän määrittämien, ennen osavuosikatsauksen julkaisua asettamien hakuehtojen avulla mahdollisimman suurella osumatarkkuudella. Osavuosikatsauksen rakenteen havaittiin toistuvan hyvin samankaltaisina dokumentista toiseen saman yrityksen osalta. Numeroiden hakuun päätettiin hyödyntää dokumentin rakenteessa esiintyviä elementtejä, kuten otsikoita ja luetelmia, joiden esiintyminen haettavan numeron ympäristössä pystyttiin suurella todennäköisyydellä ennustamaan. Lisäksi haettavien lukujen suuruus voitiin usein ennustaa melko tarkasti, mikä auttoi rajaamaan mahdollisten lukujen joukkoa. Menetelmien analysointia varten kehitettiin prototyyppi tietokoneohjelmasta, joka hakee osavuosikatsauksesta käyttäjän asettamien hakuehtojen perusteella luvun. Rakenteen hyödyntäminen mahdollistettiin dokumentin matalalla jäsentämisellä. Käyttäjälle luotiin menetelmä, jolla dokumentin rakenteen elementteihin voidaan kohdistaa hakusanoja. Lisäksi käyttäjä pystyi määrittämään alarajan ja ylärajan etsittävälle luvulle. Tarkkuuden mittaamista varten järjestettiin koe, jossa yksi henkilö valmisteli ja suoritti 60 erillistä hakua. Kokeessa oikeiden lukujen löytymisen osuus oli noin 84 %. Muissa tapauksissa hakutulos oli määrittämätön, sillä useampi kuin yksi numero vastasi käyttäjän asettamia hakuehtoja yhtä hyvin. Vääriä hakutuloksia ei siten esiintynyt kokeessa kertaakaan.

Description

Supervisor

Tarhio, Jorma

Thesis advisor

Saarela, Lauri

Other note

Citation