aalto1 untyped-item.component.html

Concurrent Full Text Database

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Helsinki University of Technology | Master's thesis
Electronic archive copy is available via Aalto Thesis Database.
Checking the digitized thesis and permission for publishing
Instructions for the author
Location:

Date

Mcode

Tik-76

Degree programme

Language

en

Pages

62

Series

Abstract

Tekstitietokantoja käytetään erilaisten tekstimassojen hallintaan. Niiden sovellusalueita ovat esimerkiksi yrityksen kirjeenvaihdon ja päivittäisen tekstidokumentaation hallinta sekä erilaisten staattisten tekstikokoelmien, kuten yrityksen laatukäsikirjan, hallinta ja sisältöhaku. Niitä käytetään myös etsittäessä tietoa suuresta, jatkuvasti päivitettävästä tekstimassasta, kuten esimerkiksi uutisryhmistä ja WWW-sivuista. Sisältöhaku on yksi tekstitietokantojen tärkeimmistä ominaisuuksista. Haku voidaan toteuttaa esimerkiksi sisältöindeksoinnilla, missä jokainen indeksoitujen dokumenttien sana toimii hakusanana. Sisältöindeksointi ei vaadi erillistä dokumenttien luokittelua tai avainsanojen määritystä, sillä hakuindeksit muodostetaan automaattisesti indeksoinnin aikana dokumenttien sisällöstä. Tekstimassojen kasvaessa niiden sisältöindeksit suurenevat ja indeksointiajat pitenevät. Lisäksi suurilla tekstiarkistoilla on tavallisesti useita rinnakkaisia käyttäjiä, jotka haluavat löytää arkistoitua tietoa mahdollisimman pian indeksoinnin jälkeen. Nämä ominaisuudet asettavat vaatimuksia tekstitietokannan indeksointimenetelmille. Niiden täytyy tukea mahdollisimman hyvin rinnakkaisia päivitys- ja hakutoimintoja. Valittujen algoritmien ja menetelmien tehokkuus on tärkeää, sillä se vaikuttaa suoraan koko tekstitietokantajärjestelmän suorituskykyyn. Työssä esitetään ratkaisuja ongelmille, joita suuret, jatkuvasti päivitettävät tekstimassat aiheuttavat tekstitietokantajärjestelmälle. Työ tutkii B'link-puuoperaatioiden rinnakkaisuuden hallintaa ja esittää menetelmän, jolla operaatiot voidaan yhdistää tietokannan toipumiseen virhetilanteista. Työssä on toteutettu prototyyppijärjestelmä, joka käyttää B'link-puuindeksejä ja varjosivutustoipumismenetelmää. Järjestelmän tehokkuutta on mitattu erilaisin testein, jotka osoittavat sen toimivan hyvin rinnakkaisissa päivitys- ja hakuoperaatioissa.

Description

Supervisor

Soisalon-Soininen, Eljas

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By