From Text to Knowledge: Methods, Tools, and Applications for Digital Humanities Based on Linked Data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2023-03-31

Date

2023

Major/Subject

Mcode

Degree programme

Language

en

Pages

93 + app. 134

Series

Aalto University publication series DOCTORAL THESES, 19/2023

Abstract

The digitization of Cultural Heritage collections has enabled the use of computational methods such as Natural Language Processing (NLP) on textual collections. These methods have been used widely in Digital Humanities (DH) to study digitized contents with automated processes. The Semantic Web and linked data technologies have been applied to describe document collections and their metadata in library and museum collections. They provide infrastructure for connecting different collections by linking them using shared vocabularies that describe metadata values and fields. Linked data is also used in Finnish museum and library collections. It is commonly used to modeling document metadata, such as author, or title of a piece of work. Also, the content of a document in a collection is usually described using manually assigned keywords. Other information about the content is often scarce and finding documents related to an actor can be laborious. This thesis studies and presents novel models, methods, and tools for transforming and enriching document collections automatically to linked data. Linked data technology helps to link together documents of a collection based on their metadata, e.g., author, or publisher. It can be also used to link documents based on information extracted about the content, such as actors mentioned in text. The aim of this thesis is to study how the NLP methods and linked data can be used to study digitized document collections, such as biographies. Research in this thesis is conducted by designing, implementing, and evaluating proof-of-concept systems, tools, and data for real life use cases. The research follows the principles of the design science and action research. The thesis presents a toolkit that can be used to model, transform, and enrich biographical text document collections to linked data to improve collection's information retrieval and interoperability internally and with other collections. The data model for describing text document collection's content and features, e.g., keywords and mentioned names, creates a foundation for building intelligent services based on the linked data such as network or linguistic analysis. These services can be used to visualize the interlinked data by showing the relations between themes or actors. In addition, the linked-data-based datasets can be used as an input for NLP tools to create data analytical visualizations and applications. This approach can be also used to evaluate the quality and content of text document collections for DH research. The prototypes created for data transformation, enrichment, and information visualization can be also applied to other document collections.

Kulttuuriperintökokoelmien digitalisointi on avannut tekstiaineistot tietokoneavusteisille menetelmille, kuten luonnollisen kielen käsittelylle. Digitaalisissa ihmistieteissä näitä menetelmiä käytetään laajalti digitoitujen aineistojen ja niiden sisällön tutkimiseen automaattisien prosessien avulla. Semanttisen Webin ja linkitetyn datan teknologiaa hyödynnetään kirjastojen ja museoiden asiakirjakokoelmien sekä niiden metadatan kuvailussa. Ne luovat infrastruktuurin, jonka avulla voidaan yhdistää erilaisia kokoelmia käyttämällä niiden linkityksessä jaettuja sanastoja kuvaamaan aineistojen metadatan arvoja ja kenttiä. Suomessa linkitetyn datan infrastruktuureja hyödynnetään muun muassa museoissa ja kirjastoissa. Useimmiten sitä käytetään mallintamaan asiakirjojen metadataa, kuten tekijä tai teoksen nimi. Tämän lisäksi tekstiaineistokokoelman teosten sisältöä kuvaillaan usein manuaalisesti tuotetuilla asiasanoilla. Muu informaatio sisällöstä voi olla niukkaa ja teosten löytäminen esimerkiksi sisällössä esiintyvän toimijan perusteella voi olla työlästä. Tässä työssä tutkitaan ja esitellään uusia tietomalleja, työkaluja, ja menetelmiä muuntamaan ja rikastamaan tekstiaineistoja linkitetyksi dataksi. Linkitetyn datan avulla voidaan yhdistää tekstikokoelmien asiakirjat toisiinsa metadatan, kuten tekijän tai kustantajan, perusteella. Sen avulla voidaan myös yhdistää asiakirjoja toisiinsa louhimalla informaatiota sisällöstä, kuten siinä mainitut toimijat. Tämän työn tavoitteena on tutkia kuinka luonnollisen kielen käsittelyn menetelmien ja linkitetyn datan periaatteiden avulla voidaan tutkia digitoituja tekstidokumenttikokoelmia, kuten biografioita. Tutkimus toteutetaan suunnittelemalla, toteuttamalla, ja arvioimalla prototyyppisovelluksia, työkaluja, ja data-aineistoja todellisen elämän käyttötapauksille. Tämä tutkimus noudattaa suunnittelutieteiden ja toimintatutkimuksen metodologioiden periaatteita. Tässä työssä esitellään ohjelmistoja, jota voidaan soveltaa biografisten tekstiasiakirjakokoelmien mallinnukseen, muuntamiseen, ja rikastamiseen linkitetyksi dataksi. Näin voidaan parantaa kokoelman teosten keskinäistä linkitystä sekä siihen kohdistuvaa tiedonhakua. Tekstiaineistokokoelman ominaisuuksia ja sisältöä, kuten esimerkiksi asiasanat ja henkilöviittaukset, kuvaava tietomalli luo pohjan linkitettyyn dataan perustuville älykkäille sovelluksille, kuten verkosto- tai kielianalyysille. Näiden sovellusten avulla on mahdollista visualisoida linkitetyn datan muodostama verkosto eri toimijoiden ja teemojen välillä. Tämän lisäksi linkitetyn datan infrastruktuuria voidaan käyttää syötteenä luonnollisen kielen käsittelyn sovelluksille, joita voidaan käyttää luomaan data-analyyttisiä visualisointeja ja sovelluksia. Tätä menetelmää voidaan myös käyttää tekstiaineistokokoelmien laadun ja sisällön arvioimiseen digitaalisten ihmistieteiden tutkimusta varten. Prototyyppisovelluksia, joita on luotu tekstiaineistokokoelmien muuntamista, rikastamista ja tiedon visualisointia varten, voidaan myös soveltaa muihin tekstiaineistokokoelmiin.

Description

Supervising professor

Hyvönen, Eero, Prof., Aalto University, Department of Computer Science, Finland

Thesis advisor

Tuominen, Jouni, Dr., University of Helsinki and Aalto University, Finland
Mäkelä, Eetu, Assoc. Prof., University of Helsinki, Finland

Keywords

natural language processing, linked data, data modelling, biographies, luonnollisen kielen käsittely, linkitetty data, datan mallinnus, biografiat

Other note

Parts

  • [Publication 1]: Minna Tamper, Petri Leskinen, Esko Ikkala, Arttu Oksanen, Eetu Mäkelä, Erkki Heino, Jouni Tuominen, Mikko Koho and Eero Hyvönen. AATOS – a Configurable Tool for Automatic Annotation. In Language, Data, and Knowledge – First International Conference, LDK 2017, Proceedings, 19 – 20 June 2017, Galway, Ireland, Jorge Gracia, Francis Bond, John P. McCrae, Paul Buitelaar, Christian Chiarcos, Sebastian Hellmann (editors), Lecture Notes in Computer Science, Volume 10138, pages 276–289. June 2017.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202106097301
    DOI: 10.1007/978-3-319-59888-8_24 View at publisher
  • [Publication 2]: Erkki Heino, Minna Tamper, Eetu Mäkelä, Petri Leskinen, Esko Ikkala, Jouni Tuominen, Mikko Koho and Eero Hyvönen. Named Entity Linking in a Complex Domain: Case Second World War History. In Language, Data, and Knowledge – First International Conference, LDK 2017, Proceedings, 19 – 20 June 2017, Galway, Ireland, Jorge Gracia, Francis Bond, John P. McCrae, Paul Buitelaar, Christian Chiarcos, Sebastian Hellmann (editors), Lecture Notes in Computer Science, Volume 10138, pages 120–133, June 2017.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202106097300
    DOI: 10.1007/978-3-319-59888-8_10 View at publisher
  • [Publication 3]: Minna Tamper, Petri Leskinen, Kasper Apajalahti and Eero Hyvönen. Using Biographical Texts as Linked Data for Prosopographical Research and Applications. In Digital Heritage. Progress in Cultural Heritage: Documentation, Preservation, and Protection, Euromed 2018, 29 Oct – 3 Nov 2018, Nicosia, Cyprus, Marinos Ioannides, Eleanor Fink, Raffaella Brumana, Petros Patias, Anastasios Doulamis, João Martins, Manolis Wallace (editors), Lecture Notes in Computer Science, Volume 11196, pages 125–137, Nicosia, Cyprus, November 2018.DOI: 10.1007/978-3-030-01762-0_11
  • [Publication 4]: Matti La Mela, Minna Tamper and Kimmo Kettunen. Finding Nineteenth century Berry Spots: Recognizing and Linking Place Names in a Historical Newspaper Berry-picking Corpus. In Digital Humanities in the Nordic Countries: Proceedings of the Digital Humanities in the Nordic Countries 4th Conference, 6 – 8 Mar 2019, Copenhagen, Denmark, Costanza Navarretta, Manex Agirrezabal, Bente Maegaard (editors), CEUR Workshop Proceedings, Volume 2364, pages 308–319, online http://ceur-ws.org/Vol-2364/27_paper.pdf, Aachen, March 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906033464
  • [Publication 5]: Minna Tamper, Petri Leskinen and Eero Hyvönen. Visualizing and Analyzing Networks of Named Entities in Biographical Dictionaries for Digital Humanities Research. Accepted for publication in Proceedings of the International Conference on Computational Linguistics and Intelligent Text Processing (CICLing 2019), La Rochelle, France, June 3, 2019, CICLing, April 2019
  • [Publication 6]: Minna Tamper, Petri Leskinen, Jouni Tuominen and Eero Hyvönen. Modeling and Publishing Finnish Person Names as a Linked Open Data Ontology. In Proceedings of the Third Workshop on Humanities in the Semantic Web (WHiSe 2020) co-located with 15th Extended Semantic Web Conference (ESWC 2020) Heraklion, Greece, June 2, 2020 (online), Alessandro Adamou, Enrico Daga, Albert Meroño-Peñuela (editors), CEUR Workshop Proceedings, Volume 2695, pages 3–14, online http://ceur-ws.org/Vol-2695/paper1.pdf, Aachen, June 2020.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202106097304
  • [Publication 7]: Minna Tamper, Petri Leskinen, Eero Hyvönen, Risto Valjus and Kirsi Keravuori. Analyzing Biography Collections Historiographically as Linked Data: Case National Biography of Finland. Semantic Web Journal: Special Issue on Semantic Web for Cultural Heritage, Mehwish Alam, Victor de Boer, Enrico Daga, Marieke van Erp, Eero Hyvönen and Albert Meroño-Peñuela (editors), Volume 14, 2, pages 385-419, December. 2022.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202210196064

Citation