Experimental evaluation of record linkage algorithms in a secure banking environment

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2023-08-22
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3070
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
82+24
Series
Abstract
This thesis studies record linkage algorithms in secure banking environments. Financial crime prevention laws require financial institutions to identify and monitor high-risk customers and transactions using in-house and third-party data sources. Examples of such data are lists of terrorist financers, sanctioned persons, and convicted financial criminals. The data from the various sources may not share unique identifiers, such as social security numbers or business IDs, which makes it non-trivial to determine whether two records belong to the same person. Thus, we must find ways to combine data sets by matching the records in a secure and privacy-preserving banking environment. The environment requires vetted, robust, and resource-optimized solutions and implementations. This thesis studies theory and previous works on deterministic and probabilistic record linkage methods, their theoretical frameworks, and their application areas. Furthermore, we implement solutions to two record linkage problems based on deterministic and probabilistic methods. The problems are based on linking juridical person records respectively natural person records. To perform deterministic record linkage, we create a pipeline using blocking, string embedding, and string similarity algorithms. We evaluate two different string embedding models: TF-IDF and Word2Vec. For probabilistic record linkage, we use the Python package Splink. The package is based on the Fellegi-Sunter model, which shows how to calculate the posterior probability of a pair being a match or a non-match. The package uses the expectation-maximization algorithm to find the values for the posterior probability and the m- and u-variables. The results show that deterministic and probabilistic record linkage are feasible within the scope of this thesis and have different application areas. We find that different parameters have a significant impact on embedding-based models. The outcome of the TF-IDF-based model mainly relies on the values of the feature vector length and the string similarity threshold. Conversely, the Word2Vec-based model is affected nearly exclusively by random bucket projection distance threshold. The probabilistic model requires comparably vast resource investments to function as desired, and the causalities between input and output are not easily detected. However, when correctly set up, the method can model complex underlying data distributions. This thesis provides a framework for the industry to use record linkage. The framework consists of two methods, deterministic and probabilistic record linkage, and recommendations on how to use them.

Det här diplomarbetet studerar algoritmer för sammanlänkning av uppgifter i en säker bankomgivning. Lagar mot finansbrott kräver att finansiella institutioner identifierar och övervakar högriskkunder och -transaktioner med hjälp av interna och tredje partens datakällor. Exempel på sådan data är listor på finansierare av terrorism, sanktionerade personer och dömda finansbrottslingar. Datan från de olika källorna delar nödvändigtvis inte unika identifierare, såsom personnummer och FO-nummer, vilket gör det icke-trivialt att avgöra ifall två dataposter tillhör samma person. Därmed är vi tvungna att hitta sätt att kombinera dataset genom att matcha uppgifter i en säker och integritetsbevarande bankomgivning. Omgivningen kräver granskade, robusta och resursoptimerade lösningar och implementeringar. Det här diplomarbetet studerar teori och tidigare arbeten om deterministiska och probabilistiska metoder för sammanlänkande av uppgifter, deras teoretiska koncept och tillämpningsområden. Utöver detta implementerar vi lösningar på två sammanlänkningsproblem baserade på deterministiska och probabilistiska metoder. Dessa problem baserar sig på sammanlänkning av juridiska respektive naturliga personers uppgifter. För att utföra deterministisk sammanlänkning skapar vi en pipeline med hjälp av blockindelning, stränginbäddning och algoritmer för stränglikhet. Vi evaluerar två modeller baserade på stränginbäddning: TF-IDF och Word2Vec. För det probabilistiska sammanlänkandet använder vi Splink-paketet för Python. Paketet baserar sig på Fellegi-Sunter modellen, som anger posteriori-sannolikheten att ett par är en match eller icke-match. Paketet använder väntevärdesmaximerings-algoritmen för att hitta värden för posteriorisannolikheten samt m- och u-variablerna. Resultaten visar att deterministisk och probabilistisk sammanlänkning är genomförbart inom diplomarbetets omfattning och att de har olika tillämpningsområden. Vi visar att olika parametrar har signifikant inverkan på inbäddningsbaserade modeller. Resultatet av den TF-IDF-baserade modellen beror främst på värdena av attributvektorns längd och stränglikhetens tröskelvärde. Word2Vec-baserade modellen påverkas däremot nästintill endast av avståndströskelvärdet för slumpmässig kategoriprojicering. Den probabilistiska modellen kräver jämförelsevis stora resursinvesteringar för att fungera som önskat, och orsakssambanden mellan input och output är inte lätta att upptäcka. Dock kan metoden modellera komplexa underliggande datadistributioner när den är korrekt konfigurerad. Detta diplomarbete ger ett ramverk för industrin för att använda sammanlänkning av uppgifter. Ramverket består av två metoder, deterministisk och probabilistisk uppgiftslänkning, och rekommendationer om hur man använder dem.
Description
Supervisor
Jung, Alex
Thesis advisor
Scavo, Giuseppe
Keywords
record linkage, secure bank environment, financial crime prevention, Fellegi-Sunter, string embedding, experimental
Other note
Citation