Unsupervised semantic matching of support tickets

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

82

Series

Abstract

This thesis implements a machine learning model to match incoming support tickets to prior ones based on their semantic similarity. The specific application domain is Finnish language-based system with domain-specific terminology, which provides additional challenged to already difficult sub-task in field of natural language processing. The main comparison tool used is cosine similarity in vector representation of the tickets. The thesis compares the effectiveness of a low-level sparse vector representation-based approach to state-of-the-art Transformer-based word embedding vectors to attempt to determine suitable model effectiveness compared to the cost of implementation. This study finds that Transformer-based models work sufficiently well, while sparse vectors fail to capture enough semantic context to be useful. In addition, the study finds that BERT word embedding vector cosine-space suffers from anisotropy, leading to poor performance unless this problem is addressed.

Tämä diplomityö totetuttaa koneoppimismallin tukipyyntöjen vertailuun niiden semanttisen merkityksen perusteella. Tarkempi käyttökohde on suomenkielinen tukipyyntöjen käsittelyohjelma erikoisterminologiaa sisältävässä aihealueessa. Tämä erikoisterminologia esittää lisähaasteita muutenkin haastavaan luontaisen kielen käsittelytehtävään. Vertaukseen käytetään tukipyyntöjen vektoriesitysten kosinivertailua. Tämä diplomityö vertailee harvan vektoriesityksen toimivuutta verrattuna uusien Transformer-pohjaisten mallien luomiin tiheisiin vektoriesityksiin. Vertailun tavoitteena on tutkia mallin tehokkuutta verrattuna sen toteutuskustannukseen. Tutkimuksen tulosten perusteella Transformer-pohjaiset mallit toimivat riittävän tehokkaasti, mutta harva vektoriesitys ei onnistu kuvaamaan tukipyyntöjen semantikkaa riittävän tehokkaasti. Tämän lisäksi tutkimus toteaa BERT-mallien kosinivektoriavaruuksien olevan anisotrooppisia, mikä johtaa heikkoihin tuloksiin jos tätä ongelmaa ei huomoida.

Description

Supervisor

Jung, Alex

Thesis advisor

Jakobsson, Mårten

Other note

Citation