Feasibility study of long-form question answering
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-01-24
Department
Major/Subject
Computer-Science: Big Data and Large-Scale Computing
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
78
Series
Abstract
Long-form question answering (LFQA) is a challenging natural language processing task as it asks to produce paragraph-length answers to questions. Meaningful progress in LFQA would significantly speed up how fast people can seek information from large collections of data. This thesis aims to answer how feasible it is to bring LFQA to production, what are the practical ways to accomplish it, and what are the roadblocks for the application of its use. For this, we surveyed how neural QA methods can be applied to the task and developed a challenging abstractive long-form QA dataset to train LFQA models on. We then trained and evaluated BART and Longformer models on the dataset to test how well neural methods perform on the task. We conclude that progress in the task is hampered by the limited capabilities of neural networks to understand the text, shortcut-learning, limited datasets, and weaknesses in the evaluation metrics. The experimental part of the thesis demonstrates that the performance of the neural method on the abstractive QA dataset falls far behind the human baseline. The best performing neural models score low with automatic evaluation metrics, scoring 14.26 and 15.24 respectively on the ROUGE-L metric. In human evaluation, the neural model is considered accurate 23% of the time and preferred over human answers 19% of the time. Automatic evaluation metrics used in evaluation fail to show a correlation between how difficult the question and the automatic metric score (pROUGE−L = 0.54), supporting the thesis that they are insufficient for abstract LFQA evaluation. Furthermore, the models failed to use supporting external knowledge and mainly relied on parametric knowledge to answer questions, suggesting practical limitations of how used methods can integrate information from long and diverse text inputs.Pitkä kysymyksiin vastaaminen on haastava luonnollisen kielen prosessoinnin tehtävä, jossa tuotetaan kappaleen pituisia vastauksia annettuihin kysymyksiin. Merkityksellinen edistys tehtävässä nopeuttaisi ihmisten tiedon etsimistä suurista datamääristä. Tämä diplomityö pyrkii vastaamaan, kuinka mahdollista näiden mallien tuotantoon vieminen on nykypäivänä, mitkä ovat käytännölliset lähestymistavat tehtävään ja mitkä haasteet estävät meitä tuottamasta pitkiä vastauksia kysymyksiin. Tätä varten kartoitimme, kuinka neuroverkkopohjaisia kysymys-vastaus-menetelmiä voidaan hyödyntää tehtävässä ja kehitimme haastavan abstraktin kysymys-vastaus-tietoaineiston, jolla koulutimme pitkiä kysymysvastaus-malleja käyttäen BART ja Longformer neuroverkkomalleja. Työn johtopäätökset tukevat ajatusta, että kehitystä tehtävässä rajoittaa neuroverkkojen kyky ymmärtää tekstiä, oikotieoppiminen, tietoaineistojen pieni määrä ja heikkoudet evaluaatiometriikoissa. Työn teoreettinen osa osoittaa, että neuroverkkomallien suorituskyky luodulla abstraktilla kysymys-vastaus-tietoaineistolla on kaukana ihmisten tuottamista vastauksista. Parhaiten suoriutuvat mallit saavat alhaisia tuloksia käytetyillä automaattisilla evaluointimetriikoilla: ROUGEL metriikka antaa tulokseksi 14.26 ja 15.24 parhaille malleille. Ihmisten suorittamassa arvioinnissa neuroverkkomallin tuottamia vastauksia pidettiin oikeina 23 % ajasta ja nähtiin parempina kuin ihmisten tuottamia vastauksia 19 % ajasta. Neuroverkkojen tuottamien tekstien sujuvuus ei eronnut ihmisten tuottamista vastauksista. Automaattiset evaluointimetriikat eivät näyttäneet korrelaatiota kysymyksen vaikeuden ja käytetyn automaattisen evaluoinnin tuloksen kanssa (pROUGE−L = 0.54). Tämä tukee johtopäätöstä, että ne ovat riittämättömät abstraktien pitkien vastauksien arvioinnissa. Sen lisäksi, neuroverkkomallit eivät kyenneet hyödyntämään ulkoista tietoa vastauksien tuloksien parantamiseksi, mikä vihjaa rajoitteisiin siinä kuinka hyvin käytetyt menetelmät kykenevät ottamaan suuret ja monipuoliset tietolähteet osaksi vastausta.Description
Supervisor
Ilin, AlexanderThesis advisor
Haapavuo, JeriKeywords
question-answering, LFQA, ODQA, natural language understanding, text generation