Utilization of local large language models for business applications

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2024-03-11
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
87+1
Series
Abstract
Large Language Models (LLMs) have gained popularity in various use cases due to their capabilities. Currently third party services are commonly used, but these solutions contain drawbacks, such as data privacy concerns. Due to this, the interest for local solutions has increased causing international companies to release their own models, which are comparable to closed solutions. This thesis explores how local large language models can be utilized for business applications. The goal of this thesis is to form a comprehensive view of the state of LLMs, including their capabilities and limitations by researching them from various sources. Additionally, experiments are conducted to analyze the inference requirements, assess the impact of quantization on them, evaluate the language capabilities of the models and determine their capability to follow instructions and generate coherent output. The experiments include applying Retrieval Augmented Generation (RAG) using internal company data and fine-tuning a model to improve language capabilities with limited computational resources. As a part of research, a customized method was created and is used to evaluate the effectiveness of retrieval augmented generation. This is done by automatically creating a question-answer dataset with over a thousand entries. The dataset can be used by an LLM to evaluate the factuality and relevance of the context or the model output. The result of the thesis is a comprehensive study of current LLMs, tools and methods, which can be applied as a foundation to build new products in the future. The results indicate that LLMs are suitable for many use cases, although they do have limitations.

Suuret kielimallit ovat saavuttaneet suurta suosiota kykyjensä ansiosta eri käyttökohteissa. Nykyään kolmannen osapuolen palveluita käytetään yleisesti, mutta niillä on omat heikkoutensa, kuten mahdolliset tietosuojaongelmat. Tämän vuoksi kiinnostus paikallisiin ratkaisuihin on kasvanut, ja muun muassa kansainväliset yritykset ovat julkaisseet omia mallejaan, jotka ovat verrattavissa suljettuihin ratkaisuihin. Tämä diplomityö käsittelee paikallisten suurten kielimallien hyödyntämistä liiketoiminnan sovelluksissa. Työn tavoitteena on muodostaa kattava kuva nykyisten avoimien kielimallien tilasta, kuten niiden kyvyistä ja rajoitteista, tutkimalla aihealuetta eri lähteistä. Lisäksi malleja tutkitaan kokeellisesti, muun muassa selvittämällä niiden laitteistovaatimuksia, kvantisoinnin vaikutuksia, kielitaitoa ja kykyä noudattaa ohjeita ja tuottaa johdonmukaista tekstiä syötteen perusteella. Työssä tarkastellaan myös yrityksen datan hyödyntämistä avoimien mallien kanssa käyttäen hakupohjaista generointia ja selvitetään, miten hienosäädöllä voidaan opettaa mallia rajoitetuilla resursseilla. Tutkimuksen osana kehitettiin menetelmä hakupohjaisen generoinnin tehokkuuden arvioimiseksi. Tämä toteutettiin luomalla automaattisesti yli tuhannen kysymys-vastaus parin tietoaineisto, jonka pohjalta kielimalli pystyy arvioimaan saadun kontekstin tai generoidun tekstin faktualisuutta ja merkityksellisyyttä. Diplomityön lopputuloksena on kattava vertailu nykyisistä malleista, työkaluista ja menetelmistä, ja sitä voidaan hyödyntää pohjana uusien tuotteiden rakentamiseksi tulevaisuudessa. Tulokset osoittavat, että paikalliset kielimallit ovat kyvykkäitä monissa käyttökohteissa, vaikka niillä on myös selviä rajoituksia.
Description
Supervisor
Laaksonen, Jorma
Thesis advisor
Shroff, Mickey
Keywords
artificial intelligence, local large language models, retrieval augmented generation, fine-tuning
Other note
Citation