aalto1 untyped-item.component.html
Concurrent Full Text Database
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Helsinki University of Technology |
Master's thesis
Electronic archive copy is available via Aalto Thesis Database.
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Location:
Authors
Date
Department
Major/Subject
Mcode
Tik-76
Degree programme
Language
en
Pages
62
Series
Abstract
Tekstitietokantoja käytetään erilaisten tekstimassojen hallintaan.
Niiden sovellusalueita ovat esimerkiksi yrityksen kirjeenvaihdon ja päivittäisen tekstidokumentaation hallinta sekä erilaisten staattisten tekstikokoelmien, kuten yrityksen laatukäsikirjan, hallinta ja sisältöhaku.
Niitä käytetään myös etsittäessä tietoa suuresta, jatkuvasti päivitettävästä tekstimassasta, kuten esimerkiksi uutisryhmistä ja WWW-sivuista.
Sisältöhaku on yksi tekstitietokantojen tärkeimmistä ominaisuuksista.
Haku voidaan toteuttaa esimerkiksi sisältöindeksoinnilla, missä jokainen indeksoitujen dokumenttien sana toimii hakusanana.
Sisältöindeksointi ei vaadi erillistä dokumenttien luokittelua tai avainsanojen määritystä, sillä hakuindeksit muodostetaan automaattisesti indeksoinnin aikana dokumenttien sisällöstä.
Tekstimassojen kasvaessa niiden sisältöindeksit suurenevat ja indeksointiajat pitenevät.
Lisäksi suurilla tekstiarkistoilla on tavallisesti useita rinnakkaisia käyttäjiä, jotka haluavat löytää arkistoitua tietoa mahdollisimman pian indeksoinnin jälkeen.
Nämä ominaisuudet asettavat vaatimuksia tekstitietokannan indeksointimenetelmille.
Niiden täytyy tukea mahdollisimman hyvin rinnakkaisia päivitys- ja hakutoimintoja.
Valittujen algoritmien ja menetelmien tehokkuus on tärkeää, sillä se vaikuttaa suoraan koko tekstitietokantajärjestelmän suorituskykyyn.
Työssä esitetään ratkaisuja ongelmille, joita suuret, jatkuvasti päivitettävät tekstimassat aiheuttavat tekstitietokantajärjestelmälle.
Työ tutkii B'link-puuoperaatioiden rinnakkaisuuden hallintaa ja esittää menetelmän, jolla operaatiot voidaan yhdistää tietokannan toipumiseen virhetilanteista.
Työssä on toteutettu prototyyppijärjestelmä, joka käyttää B'link-puuindeksejä ja varjosivutustoipumismenetelmää.
Järjestelmän tehokkuutta on mitattu erilaisin testein, jotka osoittavat sen toimivan hyvin rinnakkaisissa päivitys- ja hakuoperaatioissa.