Leveraging Large Language Models for Question-Answering in Customer Service Scenarios

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-03-11

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

48+16

Series

Abstract

The rise of large language models (LLM), such as Generative Pre-trained Transformers (GPTs), has sparked interest in leveraging their capabilities for customer service applications. However, best practices for effectively deploying them still need to be clarified. This thesis examines using LLMs to answer queries in a question-answering pipeline in the context of housing customer service. The central research questions investigate how well LLMs comprehend text and generate accurate, relevant responses for customer service scenarios. While previous studies show promise in using LLMs for tasks like product search, researchers have yet to explore their application in addressing tenant concerns in customer service. This thesis aims to address that gap by analysing the performance of the GPT-3.5 model with and without retrieval augmentation generation (RAG) on a custom dataset of tenant queries curated by the author. In doing so, it seeks to overcome the limitation of how to reply to questions outside of the training knowledge of the LLM by harnessing the power of RAG to expand the scope of responses beyond the model's initial training. Furthermore, this thesis delves into the challenge of cheaply and efficiently evaluating generated answers for customer service without relying on human input all the time. To tackle this, the thesis explores and compares multiple auto-evaluation metrics, such as BERTScore and a GPT-3.5-based self-verification method, to approximate human judgement in this scenario. Experiments indicate that introducing RAG improves the relevance and accuracy of results. By systematically assessing various pipeline strategies, this thesis provides critical insights into leveraging LLMs' potential for customer service applications and outlines promising areas for future research.

Generatiivisten esikoulutettujen transformer-mallien (GPT) kaltaisten suurten kielimallien (LLM) yleistyminen on herättänyt kiinnostusta niiden ominaisuuksien hyödyntämiseen asiakaspalvelusovelluksissa. Parhaat käytännöt niiden tehokkaassa käyttöönotossa vaativat kuitenkin vielä selvittämistä. Tässä opinnäytetyössä tarkastellaan LLM-mallien käyttöä kysymys-vastaus-pipelineissa vastaamaan kyselyihin, jotka liittyvät asuntojen asiakaspalveluun. Keskeisissä tutkimuskysymyksissä selvitetään, miten hyvin LLM:t ymmärtävät tekstiä ja tuottavat tarkkoja sekä relevantteja vastauksia asiakaspalveluskenaarioissa. Vaikka edelliset tutkimukset osoittavat, että LLM:ien käyttö tuotehakujen kaltaisissa tehtävissä tekee niistä lupaavan, tutkijat eivät ole vielä tutki- neet niiden soveltamista asiakaspalvelu kyselyihin asunnoissa. Tämän opinnäytetyön tavoitteena on korjata tämä puute analysoimalla GPT-3.5-mallin suorituskykyä hakua täydentämällä (RAG) ja ilman sitä tekijän kuratoiman vuokralaiskyselyistä koostuvan tietokokonaisuuden kanssa. Näin pyritään ohittamaan rajoitus, joka liittyy siihen, miten vastata kysymyksiin, jotka eivät kuulu LLM:n koulutuksen piiriin, hyödyntämällä RAG:ia vastausten laajentamiseksi mallin alkuperäisen koulutuksen ulkopuolelle. Lisäksi tässä opinnäytetyössä syvennytään haasteeseen, joka koskee tuotettujen vastausten halpaa ja tehokasta arviointia asiakaspalvelua varten ilman, että tukeudutaan koko ajan ihmiseen. Tämän ongelman ratkaisemiseksi opinnäytetyössä tutkitaan ja vertaillaan useita automaattisen arvioinnin mittareita, kuten BERTScorea ja GPT-3.5-pohjaista itsevarmennusmenetelmää, joilla voidaan lähestyä inhimillistä arviointia tässä skenaariossa. Kokeet osoittavat, että RAG:n käyttöönotto parantaa tulosten relevanssia ja tarkkuutta. Arvioimalla systemaattisesti erilaisia pipeline-strategioita tämä opinnäytetyö tarjoaa kriittisen näkemyksen LLM:n potentiaalin hyödyntämisestä asiakaspalvelusovelluksissa ja tuo esille lupaavia alueita tulevaa tutkimusta varten.

Description

Supervisor

Sarvas, Risto

Thesis advisor

Dainese, Nicola

Keywords

large language models, customer service, artificial intelligence, retrieval augmented generation, evaluation metrics, GPT-3.5

Other note

Citation