aalto1 untyped-item.component.html
Few-shot learning on tabular data: A comparative study
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Business |
Master's thesis
Authors
Date
Department
Major/Subject
Mcode
Degree programme
Language
en
Pages
105
Series
Abstract
In recent years, Machine Learning (ML) has achieved great success across various domains. These advances are often achieved with a significant amount of labeled data. In the real world, sometimes acquiring data can be expensive or complicatedto gather. Few-Shot Learning (FSL) has emerged as a promising solution to address the problems of scarce data.
This thesis investigates the performance of the FSL models, including Prototypical Networks (ProtoNet), SimpleShot, Model-Agnostic Meta-Learning (MAML), and Learning to Self-Train (LST) on tabular data, and compares them to classical ML models, including Support Vector Machines (SVM), Decision Trees (DT), Logistic Regression (LR), and Multilayer Perceptrons (MLP). The models are evaluated on a balanced simulated sine wave dataset and an imbalanced real-world credit card fraud detection dataset. The experiment includes several 2-way K-shot tasks to mimic different low-data settings.
Results showed that FSL models generally outperformed traditional ML models on simulated data, particularly LST and MAML, which performed well. Conversely, in the credit card fraud detection task, traditional ML models such as SVM and LR performed better in very low-data settings. ProtoNet instead achieved higher performance when more data was introduced.
The results were analyzed using the Wilcoxon signed-rank test, which confirmed most of the observed performance differences. The findings suggest that approximately 20 labeled data points is a threshold, where the best FSL and the best ML model perform relatively equally.
Although FSL models faced challenges in real-world applications, they demonstrated strong potential in simulated tasks. This further highlights the need for future research on tabular FSL models.
Viime vuosina koneoppiminen (ML) on saavuttanut merkittävää menestystä useilla eri aloilla. Nämä edistysaskeleet ovat kuitenkin usein perustuneet suuriin datamääriin. Oikeassa maailmassa datan kerääminen voi olla kallista tai muuten haastavaa. Harvaoppiminen (FSL) on osoittautunut lupaavaksi ratkaisuksi niukan datan aiheuttamiin haasteisiin.
Tässä opinnäytetyössä selvitetään harvaoppimismallien, kuten prototyyppiverkon (ProtoNet), yksinkertaisen luokittimen (SimpleShot), malliriippumattoman metatason oppimisen (MAML) ja itsenäiseen oppimiseen pyrkivän mallin (LST) suorituskykyä numeerisella datalla, ja vertaillaan niitä perinteisiin koneoppimismalleihin, kuten tukivektorikoneeseen (SVM), päätöspuuhun (DT), logistiseen regressioon (LR) ja monikerroksiseen perseptroniverkkoon (MLP). Näitä malleja arvioitiin sekä tasapainoisella simuloidulla siniaaltodatalla että epätasapainoisella reaalimaailman luottokorttipetosten havaitsemiseen tarkoitetulla datalla. Kokeessa hyödynnettiin useita kahden luokan oppimistehtäviä, joissa kullakin luokalla oli K esimerkkiä (2-way K-shot).
Tulokset osoittivat, että harvaoppimismallit, erityisesti LST ja MAML suoriutuivat yleisesti ottaen paremmin simuloidussa aineistossa kuin perinteiset koneoppimismallit. Sen sijaan luottokorttipetosten tunnistuksessa perinteiset koneoppimismallit, kuten SVM ja LR, antoivat parempia tuloksia erittäin vähäisellä datalla, kun taas ProtoNet osoitti vahvaa suorituskykyä datan määrän kasvaessa.
Suorituskykyeroja analysoitiin Wilcoxon merkittyjen sijalukujen testillä, joka vahvisti suurimman osan havaituista eroista. Nämä löydökset viittaavat siihen, että noin 20 luokiteltua datapistettä toimii eräänlaisena rajapyykkinä, jolloin parhaat harvaoppimismallit sekä koneoppimismallit suoriutuvat suunnilleen yhtä hyvin. Vaikka harvaoppimismallit kohtasivat kuitenkin haasteita reaalimaailman sovelluksissa, ne osoittivat vahvaa potentiaalia numeerisen datan tehtävissä, erityisesti simuloiduissa ympäristöissä. Tämä korostaa lisätutkimuksen tarvetta harvaoppimismallien kehittämiseksi numeerista dataa varten.