Feasibility study of long-form question answering

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-01-24

Department

Major/Subject

Computer-Science: Big Data and Large-Scale Computing

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

78

Series

Abstract

Long-form question answering (LFQA) is a challenging natural language processing task as it asks to produce paragraph-length answers to questions. Meaningful progress in LFQA would significantly speed up how fast people can seek information from large collections of data. This thesis aims to answer how feasible it is to bring LFQA to production, what are the practical ways to accomplish it, and what are the roadblocks for the application of its use. For this, we surveyed how neural QA methods can be applied to the task and developed a challenging abstractive long-form QA dataset to train LFQA models on. We then trained and evaluated BART and Longformer models on the dataset to test how well neural methods perform on the task. We conclude that progress in the task is hampered by the limited capabilities of neural networks to understand the text, shortcut-learning, limited datasets, and weaknesses in the evaluation metrics. The experimental part of the thesis demonstrates that the performance of the neural method on the abstractive QA dataset falls far behind the human baseline. The best performing neural models score low with automatic evaluation metrics, scoring 14.26 and 15.24 respectively on the ROUGE-L metric. In human evaluation, the neural model is considered accurate 23% of the time and preferred over human answers 19% of the time. Automatic evaluation metrics used in evaluation fail to show a correlation between how difficult the question and the automatic metric score (pROUGE−L = 0.54), supporting the thesis that they are insufficient for abstract LFQA evaluation. Furthermore, the models failed to use supporting external knowledge and mainly relied on parametric knowledge to answer questions, suggesting practical limitations of how used methods can integrate information from long and diverse text inputs.

Pitkä kysymyksiin vastaaminen on haastava luonnollisen kielen prosessoinnin tehtävä, jossa tuotetaan kappaleen pituisia vastauksia annettuihin kysymyksiin. Merkityksellinen edistys tehtävässä nopeuttaisi ihmisten tiedon etsimistä suurista datamääristä. Tämä diplomityö pyrkii vastaamaan, kuinka mahdollista näiden mallien tuotantoon vieminen on nykypäivänä, mitkä ovat käytännölliset lähestymistavat tehtävään ja mitkä haasteet estävät meitä tuottamasta pitkiä vastauksia kysymyksiin. Tätä varten kartoitimme, kuinka neuroverkkopohjaisia kysymys-vastaus-menetelmiä voidaan hyödyntää tehtävässä ja kehitimme haastavan abstraktin kysymys-vastaus-tietoaineiston, jolla koulutimme pitkiä kysymysvastaus-malleja käyttäen BART ja Longformer neuroverkkomalleja. Työn johtopäätökset tukevat ajatusta, että kehitystä tehtävässä rajoittaa neuroverkkojen kyky ymmärtää tekstiä, oikotieoppiminen, tietoaineistojen pieni määrä ja heikkoudet evaluaatiometriikoissa. Työn teoreettinen osa osoittaa, että neuroverkkomallien suorituskyky luodulla abstraktilla kysymys-vastaus-tietoaineistolla on kaukana ihmisten tuottamista vastauksista. Parhaiten suoriutuvat mallit saavat alhaisia tuloksia käytetyillä automaattisilla evaluointimetriikoilla: ROUGEL metriikka antaa tulokseksi 14.26 ja 15.24 parhaille malleille. Ihmisten suorittamassa arvioinnissa neuroverkkomallin tuottamia vastauksia pidettiin oikeina 23 % ajasta ja nähtiin parempina kuin ihmisten tuottamia vastauksia 19 % ajasta. Neuroverkkojen tuottamien tekstien sujuvuus ei eronnut ihmisten tuottamista vastauksista. Automaattiset evaluointimetriikat eivät näyttäneet korrelaatiota kysymyksen vaikeuden ja käytetyn automaattisen evaluoinnin tuloksen kanssa (pROUGE−L = 0.54). Tämä tukee johtopäätöstä, että ne ovat riittämättömät abstraktien pitkien vastauksien arvioinnissa. Sen lisäksi, neuroverkkomallit eivät kyenneet hyödyntämään ulkoista tietoa vastauksien tuloksien parantamiseksi, mikä vihjaa rajoitteisiin siinä kuinka hyvin käytetyt menetelmät kykenevät ottamaan suuret ja monipuoliset tietolähteet osaksi vastausta.

Description

Supervisor

Ilin, Alexander

Thesis advisor

Haapavuo, Jeri

Keywords

question-answering, LFQA, ODQA, natural language understanding, text generation

Other note

Citation