A Solution Retrieval Engine for a Customer-Facing Software Project Management System
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-07-29
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
75
Series
Abstract
In a growing expert organization, the ability to reuse solutions from previous work is crucial for maintaining an efficient business. This thesis utilizes the field of information retrieval to implement a solution retrieval engine aimed at helping the employees of SprintIT in solving their tasks. SprintIT uses an Enterprise Resource Planning (ERP) system with project management and other modules, which have accumulated knowledge of previously developed solutions in a form of unstructured text. Since SprintIT is a software company, many tasks are bug reports that have a stack trace as part of the description, which can be used as a strong signal for detecting duplicate problems. Texts containing information on previously encountered problems are gathered from the EPR system to a single search index, used to generate recommendations based on a given task. The ability to make ad hoc keyword queries to the same search index is included. The recommendations and search results are ranked and sorted in descending order of relevance, using one of the three different ranking approaches: The Vector Space Model, Okapi BM25 and BERT. The ability to evaluate the effectiveness of different ranking methods and parameters is provided as part of the system. A selection of previously encountered problems are annotated with relevance judgements and used to make decisions on the best ranking method and parameters for this case study. Based on the evaluation, Okapi BM25 was most effective with a recall rate of 76% on a selection of test cases from the SprintIT ERP. As a result of this thesis, the ERP system of SprintIT gained information retrieval capabilities that allow SprintIT employees to utilize existing solutions to recurring problems.Kasvavassa asiantuntijaorganisaatiossa aikaisempien ratkaisujen uudelleenkäyttö on tärkeää tehokkaan liiketoiminnan ylläpitämiseksi. Tämä diplomityö hyödyntää aikaisempaa tiedonhaun tutkimusta hakumoottorin toteuttamisessa, jonka tavoitteena on auttaa SprintIT:n työntekijöitä ratkaisemaan heidän työtehtäviään. SprintIT käyttää toiminnanohjausjärjestelmää, johon kuuluu projektinhallinta sekä muita moduuleita, jotka sisältävät paljon kertynyttä tietoa eri asiantuntijoiden kehittämistä ratkaisuista. SprintIT on ohjelmistoalan yritys, joten työtehtävillä on usein virheilmoituksiin liittyvää suoritustietoa, jotka ovat vahvoja signaaleja aiempien kaksoisvirheilmoituksen tunnistamiseen. SprintIT:n toiminnanohjausjärjestelmän tekstikentistä kerätään dataa keskitettyyn hakuindeksiin, jota hyödynnetään työtehtävillä automaattisten ehdotusten luomiseen. Lisäksi toteutus mahdollistaa ad hoc-avainsana kyselyt samaan hakuindeksiin. Hakutulokset esitetään käyttäjälle laskevassa relevanssijärjestyksessä käyttäen yhtä kolmesta tunnetusta relevanssin arviointimenetelmästä: Vector Space Model, Okapi BM25, ja BERT. Järjestelmään kuuluu testipenkki, jolla pystytään arvioimaan näiden metodien sekä erinäisten parametrien vaikutusta haun tarkkuuteen ja tehokkuuteen. Diplomityö toteutetaan SprintIT:n omistamalla datalla, joten ennen haun arviointia testitapauksien hakutuloksia merkitään relevantiksi manuaalisesti järjestelmään kuuluvalla relevanssipäätöstoiminnolla. Tehdyn arvioinnin perusteella Okapi BM25 tuotti parhaat hakutulokset palautusprosentilla 76%. Tämän diplomityön tuloksena SprintIT:n toiminnanohjausjärjestelmä sai suositus- ja tiedonhakujärjestelmän, jonka avulla työntekijät pystyvät löytämään valmiita ratkaisuja toistuviin ongelmiin.Description
Supervisor
Kaski, PetteriThesis advisor
Nurmi, RoyKeywords
information retrieval, natural language processing, duplicate bug report detection, text ranking