Täsmäytysjärjestelmien kehittäminen linkitetyn datan sanastoille kulttuuriperintöorganisaatiossa

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-05-20

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

fi

Pages

66+6

Series

Abstract

Linkitetyn datan asiasanastot ovat laajalti käytössä esimerkiksi kirjastoissa, museoissa ja kulttuuriperintöorganisaatioissa, tarjoten tiedolle johdonmukaisen esitystavan ja helpottaen tiedon löytämistä ja tulkintaa eri järjestelmissä. Asiasanastojen kehittämisessä ja käyttämisessä tiedon integroiminen eri lähteistä on keskeisessä osassa. Sanastojen yhdistämistä ja niiden tunnisteiden hyödyntämistä muissa konteksteissa kutsutaan täsmäytykseksi. Täsmäyksen automatisaatiolla voidaan nopeuttaa ja helpottaa näitä työnkulkuja. Yksi kulttuuriperintöorganisaatio Kansalliskirjaston tehtävistä on kehittää ja ylläpitää linkitetyn datan asiasanastoja ja työkaluja niiden käyttämiseen. Tämän diplomityön tavoitteena on kehittää ja arvioida täsmäytysjärjestelmä, joka vastaa Kansalliskirjaston tarpeisiin täsmäytyksen tekemisessä. Tutkimuksessa hyödynnetään suunnittelutieteen menetelmiä. Se koostuu kahdesta kehitysiteraatiosta, joissa arvioidaan rakennettujen järjestelmien toimintaa ja jatkokehitetään niitä saadun palautteen perusteella. Järjestelmiä arvioidaan haastatteluiden sekä laadullisen data-analyysin keinoin. Työssä toteutetaan kaksi täsmäytysjärjestelmäprototyyppiä Kansalliskirjaston Skosmos- ja Annif-ohjelmistojen avulla. Ne molemmat sisältävät toimintoja, jotka mahdollistavat täsmäytyksen tekemisen. Kehittämällä kaksi prototyyppiä saadaan laajemmin tietoa täsmäytysjärjestelmien rakentamisesta kulttuuriperintöorganisaation tarpeisiin. Työssä kehitetyt järjestelmäprototyypit ovat REST-rajapintoja, jotka toteuttavat World Wide Web Consortiumin (W3C) täsmäytysrajapintamääritelmän tärkeimmät toiminnallisuudet. Tutkimus demonstroi, että on mahdollista kehittää täsmäytysjärjestelmä, joka vastaa kulttuuriperintöorganisaation tarpeisiin täsmäytyksen automatisoimiseksi. Kehitettyjen järjestelmien lopullisessa arvioinnissa ilmeni, että Skosmokseen perustuvan prototyyppi olisi valmis käyttöönottoon Kansalliskirjastolla, sillä sen tuottamat tulokset ovat luotettavia ja se sisältää tarpeelliset toiminnallisuudet. Annifiin perustuva prototyyppi puolestaan vaatisi vielä kehittämistä, vaikka sen tuottamat tulokset olivat monipuolisempia.

Linked data vocabularies are widely used in institutions such as libraries, museums, and cultural heritage organizations, providing a consistent representation for knowledge and facilitating information discovery and interpretation across various systems. The integration of information from different sources is crucial in the development and use of linked data vocabularies. The process of combining vocabularies and utilizing their identifiers in other contexts is referred to as reconciliation. The automation of reconciliation can speed up and streamline these workflows. One of the responsibilities of the National Library of Finland is to develop and maintain linked data vocabularies and tools for their use. The objective of this thesis is to develop and evaluate a reconciliation system that meets the reconciliation needs of the National Library of Finland. Research in this thesis utilizes the methods of design science and consists of two development iterations, during which the reconciliation systems are evaluated and further developed based on feedback that was received. The systems are evaluated through interviews and qualitative data analysis. Two reconciliation system prototypes are developed using the Skosmos and Annif software maintained by the National Library. Both prototypes include the functionality required for reconciliation to be performed. The development of two prototypes provides a broader understanding of the construction of reconciliation systems for the needs of cultural heritage organizations. The prototypes developed in this thesis are REST APIs that implement the primary functionalities of the World Wide Web Consortium’s (W3C) reconciliation service API. This thesis demonstrates that it is feasible to develop a reconciliation system that fulfills the requirements of a cultural heritage organization for automating the reconciliation process. The final evaluation of the systems revealed that the prototype based on Skosmos would be ready for deployment at the National Library, as the results it produces are reliable and it includes the necessary functionalities for reconciliation. The prototype based on Annif, however, requires further development, although it produced more varied results.

Description

Supervisor

Hyvönen, Eero

Thesis advisor

Suominen, Osma

Keywords

linkitetty data, kontrolloidut sanastot, täsmäytys, tietuelinkitys, suunnittelutiede

Other note

Citation