Value-added tax(VAT) is a consumption-based tax collected from companies selling their products and services. As the VAT rate varies from one category to another, it is important that companies keep track of all sold products but also all purchases since they can deduct VAT from their purchases in their taxation. Tracking tax rates in invoices can be incredibly challenging since some are in paper format, and mistakes might happen once the information from the paper is transformed into a digital format.
This thesis utilizes a text classification to predict whether the invoice contains VAT. The model is trained using a modified version of the FATURA dataset. The research tests seven different classifiers: support vector machine with linear, sigmoid and RBF kernel, multi-layer perceptron, Random decision forest, Naive Bayesian, as well as Logistic regression classifier. The support vector machine with RBF kernel had the best performance with 99.5 % accuracy.Arvonlisävero on kulutusperusteinen vero, jota kerätään yrityksiltä niiden myymien tuotteiden ja palveluden mukaan. Yhtiöiden onkin keskeistä pitää kirjaa myynneistään, mutta myös ostoistaan, sillä ostohinnassa olevan arvonlisäveron saa vähentää myynneistä kertyneistä veroista. Myös veroprosenttien kirjaaminen on tärkeää, sillä ne vaihtelevat tuoteryhmittäin. Tämä voi olla haastavaa, sillä osa laskuista on edelleen paperisia ja tietojen siirrossa digitaaliseen muotoon voi tapahtua virheitä. Tämän diplomityön tarkoituksen on käyttää luokittelumallia sen tunnistamiseen, onko laskussa ALV vai ei. Malli opettamiseen on käytetty FATURA tietojoukkoa. Erilaisia algoritmeja on kokeiltu 7 kappaletta: tukivektorikone lineaarisella, Sigmoid ja Radial basis funktio kernelillä, sekä monitaso perseptroni, satunnaismetsä, Naivi Bayes ja logistinen regressio luokittelumalli. Näistä parhaiten suoriutui tukivektorikone radial basis funktio kernelillä, joka tarkkuus oli 99.5 %.