Sanojen painotusmenetelmien vertailu WEBSOM-kartoilla

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Helsinki University of Technology | Master's thesis
Checking the digitized thesis and permission for publishing
Instructions for the author
Location:
P1 Ark Aalto

Date

Mcode

Tik-61

Degree programme

Language

fi

Pages

62

Series

Abstract

The WEBSOM is a method for organizing text documents onto a map surface so that documents treating similar topics are situated near each other on the map surface. To improve the organization process, the words in the documents are weighed using various methods so that those words that play an important role in determining the topics of documents get greater weights than very frequent or otherwise irrelevant words. Term weighting can be divided into two distinct phases: Global term weighting and local term weighting. Local weighting takes place in each document separately. In this work, term weighting methods used with WEBSOM maps have been evaluated empirically. The comparison study includes 4 methods for global term weighting and 4 methods for local term weighting, which can be used in 16 combinations. For the purposes of the comparison study, a measure for the goodness of a WEBSOM map was developed and implemented. The measure can be used with document collections comprising interlinked documents, such as collections of WWW pages or encyclopaedias. Another goal of this work was to create a WEBSOM demonstration of a text collection with associative links. The WEBSOM map was created using the text material of the WWW version of Encyclopaedia Britannica. Based on the results of the comparison study, certain term weighting methods can be recommended. The study also suggests that the choice of the global term weighting method affects the resulting WEBSOM map more than the local term weighting method.

WEBSOM on menetelmä, jolla voidaan kuvata tekstidokumenttiaineisto karttapinnalle siten, että samaan aihepiiriin kuuluvat dokumentit kuvautuvat lähelle toisiaan karttapinnalla. Jotta dokumenttikartta järjestyisi mahdollisimman mielekkäästi, dokumentissa esiintyviä sanoja painotetaan eri tavoin. Tarkoituksena on, että dokumentin aihepiirin määräytymisen kannalta tärkeät sanat vaikuttaisivat WEBSOM-kartan opettamiseen suuremmalla painoarvolla kuin hyvin yleiset tai muuten epäoleelliset sanat. Painotus voidaan jakaa kahteen erilliseen osaan: globaaliin painotukseen ja dokumenttikohtaiseen, lokaaliin painotukseen. Tässä työssä on vertailtu WEBSOM-karttojen kanssa käytettäviä painotusmenetelmiä kokeellisesti. Kokeissa oli mukana neljä globaalin painotuksen menetelmää ja neljä dokumenttikohtaisen painotuksen menetelmää, yhteensä 16 menetelmäyhdistelmää. Painotusmenetelmien vertailu toteutettiin laatimalla monta WEBSOM-karttaa kutakin menetelmäyhdistelmää käyttäen ja vertailemalla karttojen paremmuutta. Karttojen vertailua varten kehitettiin mitta karttojen hyvyydelle. Mitta soveltuu sellaisten tekstiaineistojen kanssa käytettäväksi, joissa artikkelien välillä on assosiaatiota ilmaisevia linkkejä, kuten esim. WWW-sivuilla tai tietosanakirjoissa. Työn toisena tavoitteena oli laatia WEBSOM-demonstraatio toisiinsa linkitettyjä dokumentteja sisältäviä sisältävästä aineistosta. Demonstraatio toteutettiin käyttäen Encyclopaedia Britannica -tietosanakirjan WWW-version tekstiaineistoa Vertailututkimuksen tuloksena tietyt painotusmenetelmät havaittiin suositeltaviksi. Kävi myös ilmi, että globaalin painotusmenetelmän valinta vaikuttaa kartan järjestymiseen yleisesti ottaen enemmän kuin dokumenttikohtaisen painotusmenetelmän valinta.

Description

Supervisor

Kaski, Samuel

Thesis advisor

Lagus, Krista

Other note

Citation