Leveraging Large Language Models for Question-Answering in Customer Service Scenarios
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Authors
Date
2024-03-11
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
48+16
Series
Abstract
The rise of large language models (LLM), such as Generative Pre-trained Transformers (GPTs), has sparked interest in leveraging their capabilities for customer service applications. However, best practices for effectively deploying them still need to be clarified. This thesis examines using LLMs to answer queries in a question-answering pipeline in the context of housing customer service. The central research questions investigate how well LLMs comprehend text and generate accurate, relevant responses for customer service scenarios. While previous studies show promise in using LLMs for tasks like product search, researchers have yet to explore their application in addressing tenant concerns in customer service. This thesis aims to address that gap by analysing the performance of the GPT-3.5 model with and without retrieval augmentation generation (RAG) on a custom dataset of tenant queries curated by the author. In doing so, it seeks to overcome the limitation of how to reply to questions outside of the training knowledge of the LLM by harnessing the power of RAG to expand the scope of responses beyond the model's initial training. Furthermore, this thesis delves into the challenge of cheaply and efficiently evaluating generated answers for customer service without relying on human input all the time. To tackle this, the thesis explores and compares multiple auto-evaluation metrics, such as BERTScore and a GPT-3.5-based self-verification method, to approximate human judgement in this scenario. Experiments indicate that introducing RAG improves the relevance and accuracy of results. By systematically assessing various pipeline strategies, this thesis provides critical insights into leveraging LLMs' potential for customer service applications and outlines promising areas for future research.Generatiivisten esikoulutettujen transformer-mallien (GPT) kaltaisten suurten kielimallien (LLM) yleistyminen on herättänyt kiinnostusta niiden ominaisuuksien hyödyntämiseen asiakaspalvelusovelluksissa. Parhaat käytännöt niiden tehokkaassa käyttöönotossa vaativat kuitenkin vielä selvittämistä. Tässä opinnäytetyössä tarkastellaan LLM-mallien käyttöä kysymys-vastaus-pipelineissa vastaamaan kyselyihin, jotka liittyvät asuntojen asiakaspalveluun. Keskeisissä tutkimuskysymyksissä selvitetään, miten hyvin LLM:t ymmärtävät tekstiä ja tuottavat tarkkoja sekä relevantteja vastauksia asiakaspalveluskenaarioissa. Vaikka edelliset tutkimukset osoittavat, että LLM:ien käyttö tuotehakujen kaltaisissa tehtävissä tekee niistä lupaavan, tutkijat eivät ole vielä tutki- neet niiden soveltamista asiakaspalvelu kyselyihin asunnoissa. Tämän opinnäytetyön tavoitteena on korjata tämä puute analysoimalla GPT-3.5-mallin suorituskykyä hakua täydentämällä (RAG) ja ilman sitä tekijän kuratoiman vuokralaiskyselyistä koostuvan tietokokonaisuuden kanssa. Näin pyritään ohittamaan rajoitus, joka liittyy siihen, miten vastata kysymyksiin, jotka eivät kuulu LLM:n koulutuksen piiriin, hyödyntämällä RAG:ia vastausten laajentamiseksi mallin alkuperäisen koulutuksen ulkopuolelle. Lisäksi tässä opinnäytetyössä syvennytään haasteeseen, joka koskee tuotettujen vastausten halpaa ja tehokasta arviointia asiakaspalvelua varten ilman, että tukeudutaan koko ajan ihmiseen. Tämän ongelman ratkaisemiseksi opinnäytetyössä tutkitaan ja vertaillaan useita automaattisen arvioinnin mittareita, kuten BERTScorea ja GPT-3.5-pohjaista itsevarmennusmenetelmää, joilla voidaan lähestyä inhimillistä arviointia tässä skenaariossa. Kokeet osoittavat, että RAG:n käyttöönotto parantaa tulosten relevanssia ja tarkkuutta. Arvioimalla systemaattisesti erilaisia pipeline-strategioita tämä opinnäytetyö tarjoaa kriittisen näkemyksen LLM:n potentiaalin hyödyntämisestä asiakaspalvelusovelluksissa ja tuo esille lupaavia alueita tulevaa tutkimusta varten.Description
Supervisor
Sarvas, RistoThesis advisor
Dainese, NicolaKeywords
large language models, customer service, artificial intelligence, retrieval augmented generation, evaluation metrics, GPT-3.5