Clustering of Finnish scientific publications by discipline

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2021-01-25

Department

Major/Subject

Tietojenkäsittelytiede

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

46 + 9

Series

Abstract

Bibliometrics is a study of written scientific records such as books and articles in scientific journals. Its goal is to investigate how these outputs of research are connected and cite each other and what they can tell about science and its evolution. By studying scientific publications produced in Finland, the development of Finnish research can be monitored and, for example, compared to that of similar countries. The information thus formed helps, among other things, to make decisions that promote Finnish science and education. Designating scientific publications to the correct discipline is often a prerequisite for surveying that discipline. The currently commonly used classification of publications into disciplines is based on the journal level classification. All articles of a journal receive its classification. However, the journal is often classified into several disciplines, not all of which necessarily correspond to the topic covered by a single article. In addition, problems are caused by articles published in multidisciplinary journals, which now are left without a classification. A publication level classification that would more accurately identify the actual topic of a publication, is a subject of active research in bibliometrics. The goal is to create a classification based solely on attributes of the publication such as title, abstract and citations. One of widely studied methods is clustering. It is a commonly used machine learning method used to group similar observations into well separated clusters. Clustering is based only to the similarity determined by the selected features of the observations. The method does not need a pre-classified training set. In this thesis we look at the methods studied in bibliometrics to implement publication level classification. We describe the tested agglomerative hierarchical clustering method and the test data consisting of Finnish scientific publications. As a conclusion, we note that although some meaningful clusters seemed to emerge from the data, we did not achieve useful clustering of publications by discipline with this method.

Bibliometriikka tutkii kirjoitettuja tieteellisiä julkaisuja kuten tutkimusartikkeleita ja -kirjoja. Sen tavoitteena on muun muassa selvittää, miten nämä tutkimuksen tuotokset liittyvät ja viittaavat toisiinsa sekä mitä ne voivat kertoa tieteestä ja sen kehityksestä. Suomessa tuotettuja tieteellisiä julkaisuja tutkimalla voidaan seurata suomalaisen tutkimuksen kehitystä ja esimerkiksi verrata sitä verrokkimaiden tutkimukseen. Näin muodostettu tieto auttaa muun muassa tekemään suomalaista tiedettä ja koulutusta edistäviä päätöksiä. Tieteellisten julkaisujen nimeäminen kuuluvaksi oikeaan tieteenalaan on usein esivaatimus kutakin tieteenalaa tarkasteltaessa. Nykyisin yleisesti käytössä oleva julkaisujen luokittelu tieteenaloihin perustuu julkaisukanavan eli tieteellisen aikakausilehden luokitteluun. Kaikki julkaisukanavan artikkelit saavat sen luokittelun. Julkaisukanava on kuitenkin usein luokiteltu useaan tieteenalaan, jotka kaikki eivät välttämättä vastaa yksittäisen artikkelin käsittelemää aihepiiriä. Lisäksi ongelmia luokitteluun tuottavat yleistieteelliset julkaisut, joissa julkaistut artikkelit jäävät vaille tieteenalaluokitusta. Julkaisukohtainen alaluokittelu, joka tarkemmin tunnistaisi julkaisujen varsinaisen aiheen, on bibliometriikan aktiivisen tutkimuksen kohteena. Tavoitteena on muodostaa pelkästään julkaisun ominaisuuksiin kuten otsikkoon, tiivistelmään ja viittauksiin perustuva luokittelu. Eräs paljon tutkituista menetelmistä on julkaisujen ryvästys. Ryvästys, eli klusterointi, on yleisesti käytetty koneoppimismenetelmä haluttaessa jakaa aineisto keskenään samankaltaisten havaintojen toisistaan mahdollisimman selkeästi erottuviin ryppäisiin. Ryvästys perustuu ainoastaan havaintojen valittujen ominaisuuksien määräämään samankaltaisuuteen. Menetelmä ei tarvitse valmiiksi luokiteltua opetusjoukkoa. Tässä työssä tarkastelemme bibliometriikassa tutkittuja menetelmiä julkaisukohtaisen luokittelun toteuttamiseksi. Kuvaamme kokeilemamme kokoavan hierarkkisen ryvästysmenetelmän sekä suomalaisia tieteellisiä julkaisuja sisältävän testiaineiston. Tämän työn tuloksena toteamme, että vaikka aineisto osittain vaikutti ryvästyvän mielekkäisiin julkaisuryhmiin, emme kokeillulla menetelmällä saavuttaneet käyttökelpoista julkaisujen ryhmittelyä tieteenaloittain.

Description

Supervisor

Malmi, Lauri

Thesis advisor

Leino, Yrjö

Keywords

clustering, bibliometrics, Ward's method, publication metadata

Other note

Citation