Edistynyt tekstinhaku relaatiotietokannasta
Perustieteiden korkeakoulu |
Master's thesis
Tietotekniikan koulutusohjelma
Tässä työssä tutkitaan tekstihakuun tarkoitettuja tekniikoita ja avoimen lähdekoodin ohjelmistoja. Työssä kartoitetaan tekstihaun ratkaisujen nykytilaa tieteellisessä kirjallisuudessa. Tekstihaun tekniikoista tutkitaan suoraviivaisia menetelmiä ja erityisesti erilaisia indeksointimenetelmiä. Toisaalta työssä myöskin etsitään erilaisia käytännön ratkaisuja avoimen lähdekoodin ohjelmistoista. Työn päätavoitteena on tutkia miten relaatiotietokannassa olevaan tekstidataan päästään tekemään edistyneempiä tekstihakuja. Diplomityö jakautuu kahteen pääosaan: Kirjallisuuskatsaukseen ja käytännön osioon. Kirjallisuuskatsauksessa tarkasteltiin tekstihaun menetelmiä tieteellisissä julkaisuissa ja pyritään kuvaamaan tutkimuksen nykytilaa. Käytännön osiossa kartoitettiin olemassa olevia ohjelmistoratkaisuja tekstihakuun. Käytännön osiossa pyrittiin etsimään sopivaa ratkaisua relaatiotietokannassa olevan tekstin indeksointiin ja edistyneeseen tekstihakuun. Työssä saatiin luotua sopiva yleiskatsaus tekstihaun menetelmiin ja löydettiin kymmeniä avoimen lähdekoodin ratkaisuja vapatekstihakuun. Avoimen lähdekoodin ohjelmistosta saatiin haarukoitua kolme toimintaperiaatteeltaan eroavaa järjestelmää käytännön testaukseen. Järjestelmien suorituskyvystä ja ominaisuuksista löydettiin testauksessa eroja ja testauksen perusteella pystyttiin esittämään suositukset järjestelmien soveltuvuudesta erilaisiin käyttötapauksiin.This work reviews string searching techniques and open source software for full text searching. The work surveys the current state of text search solutions in scientific litera- ture. In text search techniques the work examines online methods and especially different types of indexing methods. On the other hand in this paper we also look for different open source solutions for full text search. One of the main goals is to find out how to do ad- vanced text searching on a data found in relational database. This thesis consists of two main parts: The literature review part and practical part. In liter- ature review we examined the text search methods present in scientific literature and try to describe the current state of the research. In the practical part, existing open source solu- tions for text search are reviewed. The practical part aims to to find a suitable solution for indexing text data saved in relational database for executing advanced full-text searches. Sufficient overall view for string searching methods and full text search was reached and dozens of open source solutions for full text search were found. Three different systems from the open source search solutions were chosen for practical testing part. Differences in performance and features were found as a result of the testing. Based on the tests, rec- ommendations for the suitability of these systems to different use cases were represented.Description
Malmi, LauriThesis advisor
Halme, MerviKeywords
vapaatekstihaku, lucene, relaatiotietokanta, tietokanta, avoin lähdekoodi