Credit scoring refers to the process of assigning a loan applicant a score according to the risk of them defaulting on their loan payments. The credit score is used for the decision of granting or not granting a loan to the applicant and for deciding the size of the loan and the interest rate. Accurate credit scoring benefits both the lender and the borrower as the lender can minimize their credit losses and the borrower avoids entering a loan contract which they cannot pay back.
Credit scoring models are built using data on previous borrowers for whom the default/not default outcome is known. As predictive variables we use data that the applicant fills in when applying, along with data queryed from a credit bureau. In this work we build a scoring model using logistic regression with grouped variables and Lasso regularization. Our data set contains data on Finnish consumer loans opened on a peer-to-peer lending marketplace in Q3/2018-Q2/2019.
We segment our data set into two parts, new customers and returning customers, and build two scorecards. For the new customer scorecard, we achieve an accuracy of 0.69 and area under the curve (AUC) of 0.71. For returning customers our model reaches an accuracy of 0.82 and AUC of 0.78. Both models perform well on the out-of-time test sample which indicate that they are robust over time.Kreditvärdering innebär att räkna ut en poäng till lånesökande enligt deras risk att försumma sina lånebetalningar. Kreditpoängen används för att avgöra om en låneansökan kan beviljas eller inte, men också för att bestämma storleken på lånet och ränteprocenten. Noggrann kreditvärdering gynnar både långivaren och låntagaren; långivaren kan minimera sina kreditförluster och låntagaren undviker att ta ett lån som hen inte kan betala tillbaka.
Kreditvärderingsmodeller utvecklas med hjälp av data om tidigare låntagare för vilka kategorin bra/dålig är känd. Som prediktorer använder vi både den information som den sökande lämnar i sin ansökan och data som fås från en kreditbyrå. I det här arbetet skapar vi en kreditvärderingsmodell som använder logistisk regression med grupperade variabler och Lasso-regularisering. Vårt dataset innehåller data om finländska konsumtionslån som öppnades på en person-till-person låneplattform under Q3/2018-Q2/2019.
Vi delar upp våra data i två segment, nya kunder och återvändande kunder, och bygger två värderingsmodeller. Med modellen för nya kunder uppnår vi en noggrannhet på 0,69 och en area under kurvan (AUC) på 0,71. Modellen för existerande kunder uppnår en noggrannhet på 0,82 och en AUC på 0,78. Båda modellerna presterar bra när de testas på ett sampel från en senare tidpunkt vilket indikerar att de är robusta över tid.