aalto1 untyped-item.component.html

Natural language processing techniques for biographical data extraction

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis

Department

Major/Subject

Mcode

SCI3027

Language

en

Pages

30

Series

Abstract

This bachelor's thesis introduces and evaluates natural language processing (NLP) techniques used for extracting biographical data from text. Biographical data refers to information related to individuals, such as family relations, lifespan, and occupation. Such data can be collected from various sources, including biographies and Wikipedia. The extracted biographical data can be stored in databases, providing an efficient way to process information for researchers in history, digital humanities, and other interested parties. This thesis examines which NLP techniques are most essential for biographical data extraction, what challenges their application entails, and how the extracted data can be utilized. Additionally, the core NLP techniques are explored in more detail. The study is conducted as a literature review, utilizing journal articles and conference papers that focus on biographical data extraction, NLP techniques for information extraction, and their integration. Based on the literature review, the key NLP techniques used for biographical data extraction are named entity recognition (NER) and relation extraction (RE). NER identifies entities in text, such as people's names, locations, and organizations. RE extracts information about relationships between these entities, such as family relations and places of birth. Both NER and RE can be implemented using rule-based, machine learning-based, or neural network-based approaches. The most recent and accurate techniques rely on neural networks, as they are capable of recognizing complex structures in text. However, NER and RE also face various challenges, such as language ambiguity and the limited availability of training data, which are often context- and language-dependent. Therefore, the choice of NER and RE approaches should be guided by the specific requirements of the application.

Tämä kandidaatintyö esittelee ja arvioi luonnollisen kielen käsittelytekniikoita (engl. natural language processing, NLP), joita käytetään biografisen datan louhintaan tekstistä. Biografinen data kuvaa ihmisiin liittyvää elämänkerrallista tietoa, kuten sukulaissuhteita, elinaikaa ja ammattia. Biografista dataa voidaan kerätä monenlaisista teksteistä, kuten elämänkerroista ja Wikipediasta. Kerätty biografinen data voidaan tallentaa tietokantoihin, jotka tarjoavat helpon tavan käsitellä tietoa esimerkiksi historian tai digitaalisten ihmistieteiden tutkijoille sekä muille kiinnostuneille. Työ selvittää, mitkä NLP-tekniikat ovat keskeisimpiä biografisen datan louhinnassa, millaisia haasteita niiden käyttämiseen liittyy ja miten kerättyä dataa voidaan hyödyntää. Lisäksi keskeisimpien NLP-tekniikoiden toimintaa käsitellään tarkemmin. Työ toteutetaan kirjallisuuskatsauksena, jossa aineistona käytetään tutkimusartikkeleita ja konferenssijulkaisuja, jotka käsittelevät biografisen datan louhintaa, tiedon eristämiseen (engl. information extraction, IE) käytettäviä NLP-tekniikoita ja näiden yhdistelmää. Kirjallisuuskatsauksen perusteella keskeisimmät biografisen datan louhintaan käytetyt luonnollisen kielen käsittelytekniikat ovat nimettyjen entiteettien tunnistaminen (engl. named entity recognition, NER) ja relaatioiden eristäminen (engl. relation extraction, RE). NER:n avulla poimitaan tekstistä yksikköjä, kuten ihmisten nimiä, paikkoja ja organisaatioita. RE:llä kerätään tietoa näiden yksikköjen välisistä suhteista, kuten perhesuhteista ja syntymäpaikoista. Sekä NER että RE voidaan toteuttaa sääntö-, koneoppimis- tai neuroverkkopohjaisilla lähestymistavoilla. Uusimmat ja tarkimmat tekniikat hyödyntävät neuroverkkoja, koska ne pystyvät tunnistamaan monimutkaisia rakenteita tekstistä. NER- ja RE-tekniikoihin liittyy myös monia haasteita, kuten kielen moniselitteisyys ja hyödynnettävien aineistojen rajallisuus, ja nämä haasteet ovat usein riippuvaisia kontekstista ja kielestä. Käytettävät NER- ja RE-lähestymistavat kannattaa siis valita käyttökohteen vaatimusten perusteella.

Description

Supervisor

Savioja, Lauri

Thesis advisor

Leskinen, Petri

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By