Long-input summarization using large language models

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Mcode

SCI22

Language

en

Pages

77+5

Series

Abstract

Large language models (LLMs) have shown remarkable capabilities in various natural language processing tasks. However, their output may not always meet the specific requirements or domain knowledge needed. The generated text may lack coherence or factuality, especially in summarization tasks with longer inputs. The increasing demand for automated summarization and the complexity of summarizing scientific content presents a unique challenge. This thesis will focus on the long-input summarization task of scientific articles using LLMs. The thesis employs abstractive summarization techniques and explores two prominent strategies: fine-tuning LLMs and prompting. Fine-tuning involves adapting pre-trained models to the summarization task, leveraging their vast pre-trained knowledge, while prompting relies on structured instructions to guide LLMs in generating summaries without altering their weights. The research comprehensively analyzes these approaches, evaluating their strengths and weaknesses regarding summary quality, computational efficiency, and adaptability to the scientific domain. Utilizing relatively small datasets from arXiv, the thesis showcases successful fine-tuning even with a limited amount of data, examines the impact of text preprocessing on fine-tuning, and optimizes prompt engineering through multiple prompts and a custom chunking algorithm. The limitations of numerical evaluation metrics in assessing text quality are critically analyzed. The research aims to provide valuable insights into long-input summarization, offering guidance on the effectiveness of fine-tuning and prompting strategies to enhance LLMs' capabilities in processing extensive and intricate textual documents. The results of this study show that the fine-tuning strategy outperforms the prompting approach in the long-input summarization task of scientific articles. Furthermore, comparing non-fine-tuned and fine-tuned LLMs reveals that fine-tuning is a crucial step in using an LLM to summarize scientific articles, even with models pre-trained for summarization. We emphasize the limitations of using only numerical evaluation metrics in assessing the quality of generated texts and conclude that human evaluation is a vital part of ensuring the factuality and coherence of the generated summaries.

Suuret kielimallit ovat osoittaneet merkittäviä kykyjä useissa luonnollisen kielen käsittelyä vaativissa tehtävissä. Niiden kyky tiivistää tekstiä on kuitenkin usein puutteellista. Kielimallien tiivistämä teksti ei välttämättä ole yhtenäistä tai todenperäistä, erityisesti tiivistettävän tekstin pituuden kasvaessa. Kasvava kysyntä automaattiselle tekstin tiivistämiselle yhdistettynä tieteellisen tekstin monimutkaisuuteen muodostaa ainutlaatuisen haasteen. Tämä diplomityö pyrkii kattavasti tarkastelemaan pitkien tieteellisten artikkeleiden tiivistämistä suurien kielimallien avulla. Käytämme abstrakteja tekniikoita tieteellisten artikkeleiden tiivistämiseen. Hyödynnämme kahta eri strategiaa: kielimallien hienosäätöä sekä ohjeistamista. Hienosäätö sisältää esikoulutettujen mallien sovittamisen tiivistystehtävään hyödyntäen niiden laajaa ennalta opittua tietoa. Ohjeistaminen perustuu strukturoituihin ohjeisiin, jotka ohjaavat suuria kielimalleja tiivistelmien generoinnissa muuttamatta mallin painoja. Tutkimus analysoi perusteellisesti näitä lähestymistapoja arvioiden niiden vahvuuksia ja heikkouksia tiivistelmän laadun ja laskennallisen tehokkuuden osalta. Lisäksi arvioimme, kuinka nämä lähestymistavat toimivat tieteellisten tekstien kontekstissa. Osoitamme, että suuria kielimalleja voi onnistuneesti hienosäätää hyödyntäen suhteellisen pientä tekstiaineistoa. Lisäksi tutkimme tekstin esikäsittelyn vaikutuksia hienosäätöön ja optimoimme ohjeistuksen suunnittelua käyttäen useita ohjeita ja räätälöityä paloittelualgoritmia. Tutkimus pyrkii tarjoamaan arvokkaita näkemyksiä pitkän tekstin tiivistämiseen suurien kielimallien avulla, tarjoten ohjeita mallien onnistuneeseen hienosäätöön sekä ohjeistamiseen. Tämän työn tulokset osoittavat, että kielimallin hienosäätö tuottaa parempia tiivistelmiä tieteellisistä teksteistä verrattuna kielimallin ohjeistamiseen. Lisäksi osoitamme, että kielimallin hienosäätäminen on kriittistä, mikäli mallin halutaan tiivistävän tieteellistä tekstiä mahdollisimman hyvin, vaikka tehtävään käytetty kielimalli olisi esikoulutettu tekstin tiivistämiseen. Tutkimus osoittaa, että tekstin laadun arvioiminen ainoastaan numeerisia metriikoita käyttäen on puuttellista. Mikäli kielimallin tuottaman tiivistelmän faktat ja yhtenäisyys halutaan kattavasti varmistaa, on ihmisen hyödyntäminen arviointiprosessissa olennaista.

Description

Supervisor

Kurimo, Mikko

Thesis advisor

Raiski, Viljami

Other note

Citation