Natural Language Inference for Hierarchical Zero-Shot Text Classification
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-03-11
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
70+13
Series
Abstract
Text entailment classification has recently emerged as method of performing zero-shot text classification. The method allows classifying textual features to user defined labels, without requiring additional task-specific fine-tuning data. This study aims to investigate the utilization of text entailment classifiers for hierarchical zero-shot text classification. This study fine-tunes text entailment classifiers to perform both supervised and zero-shot hierarchical text classification on a hierarchical Amazon product data set. The experiment results indicate that hierarchical text classification can be transformed into a text entailment task, that the text entailment classifiers can be fine-tuned for hierarchical zero-shot classification on semantically related training data, and that the text entailment model output logits can be utilized for filtering the classifier predictions, improving classification quality. These findings suggest that text entailment classification is an effective method for performing hierarchical zero-shot text classification and demonstrate how the text entailment task can be adapted to hierarchical classification.Tämä diplomityö tutkii hierarkista tekstin luokittelua "zero-shot"-tilanteessa, jossa tehtäväkohtaista luokiteltua dataa ei ole saatavilla luokittelijan kouluttamiseen. Tässä tilanteessa luokittelu voidaan toteuttaa tekstin ja luokkakuvausten semanttisen samankaltaisuuden perusteella. Tehtävään hyödynnetään valmiiksi koulutettuihin tekstin enkoodereihin perustuvaa loogisen seuraussuhteen luokittelijaa. Luokittelutehtävä muunnetaan hypoteeseiksi, joiden todenperäisyyttä luokittelija arvioi. Arvioiden perusteella luokittelija muodostaa todennäköisyysjakauman, jonka avulla kullekin tekstille valitaan luokka. Diplomityössä luokittelijaa jatkokoulutetaan hierarkiseen luokitteluun. Työn tutkimuksissa havaitaan, että hierarkinen tekstin luokittelu on mahdollista muuttaa loogisen seuraussuhteen luokitteluksi ja että loogisen seuraussuhteen luokittelijaa voidaan kouluttaa koulutusdatasta puuttuvien luokkien luokitteluun semanttisesti rinnasteisen datan avulla. Lisäksi tutkimuksissa havaitaan, että luokittelutuloksia voidaan rajata mallin luokittelutuloksille määrittämien todennäköisyyksien mukaan ja siten parantaa luokittelun laatua.Description
Supervisor
Marttinen, PekkaThesis advisor
Kosenkov, IliaKeywords
zero-shot classification, hierarchical text classification, text entailment classification, natural language inference