Fraud detection with algorithms for tabular data

Sá, Pedro Nuno Cazegas Pimenta de

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110585

Title:	Fraud detection with algorithms for tabular data
Other Titles:	Deteção de fraude com algoritmos para dados tabulares
Authors:	Sá, Pedro Nuno Cazegas Pimenta de
Orientador:	Henriques, Jorge Manuel Oliveira Brandão, Susana Dias
Keywords:	deteção de fraude; dados tabulares; gradient boosting decision trees; deep learning; fraud detection; tabular data; gradient boosting decision trees; deep learning
Issue Date:	20-Jul-2023
Serial title, monograph or event:	Fraud detection with algorithms for tabular data
Place of publication or event:	Feedzai in Coimbra
Abstract:	A constante inovação no panorama tecnológico mundial motiva as empresas e in-stituições a cimentarem-se no meio digital. Este movimento torna-se evidente naindústria dos pagamentos, dado o recente aumento na popularidade de compras on-line e transações cardless. Apesar de existir um certo apelo à adoção the infrastru-turas digitais e automatizadas para pagamentos, essa adoção disponibiliza, também,novos meios para atividade criminosa. Fraude financeira é uma preocupação fulcralpara instituições financeiras, e as recentes inovações na consolidação dos sistemas deprevenção são rapidamente ofuscadas por esquemas fraudulentos mais inteligentes:a fraude financeira tem registados perdas, a nível mundial, superiores a um bilião dedólares [Bank, 2021], o que representa uma vulnerabilidade de maior importânciapara instituições financeiras.Sistemas manuais para deteção de fraude estão a tornar-se obsoletos por não con-seguirem acompanhar as vagas de criminosos mais inteligentes e o movimento dabig data. Naturalmente, Machine Learning destaca-se como um potencial candidatopara lidar com este problema, pelas suas capacidades de automação e inteligência,nomeadamente, na deteção de padrões a partir de dados. A literatura destaca quetanto métodos à base de árvores, como Deep Learning, são bastante utilizados nadeteção de fraude, apesar da existência de um debate sobre o porquê dos métodosà base de árvores serem consistentemente melhores que Deep Learning em dadostabulares.Nesta tese, investigamos a diferença de desempenho entre algoritmos à base de ár-vores e Deep Learning em dados tabulares, com especial foco na deteção de fraude.Iteramos sobre métodos baseados em árvores, tais como Gradient Boosting DecisionTrees, e algoritmos recentes de Deep Learning para dados tabulares. Exploramospossíveis causas para esta diferença de desempenho através da aplicação de trans-formações sobre dados reais da indústria de pagamentos, de forma a alargar (ouencurtar) a diferença de desempenho. Os resultados sugerem que a diferença dedesempenho terá origem no desacordo entre os pressupostos dos algoritmos de DeepLearning e as propriedades dos dados tabulares: (i) as redes neuronais deturpam ospadrões irregulares presentes em dados tabulares; (ii) em dados tabulares, o targeté geralmente uma função de apenas um pequeno grupo de features. De entre os al-goritmos mais recentes, demonstramos que o TabNet e o FT-Transformer partilhamalgumas semelhanças com métodos à base de árvores que possibilitam a aprendiza-gem the representações melhor alinhadas com as propriedades dos dados tabulares. The massive breakthrough in the world’s technological landscape has encouragedcompanies and businesses to move to the digital medium. This is especially evidentin the payment industry, considering the popularity of online payments and cardlesstransactions has increased over the years. Although there is a certain appeal towardsautomated and digital payment infrastructure, this also provides new ventures forcriminal activity. Financial fraud is a paramount concern for financial institutions,and the innovations in the consolidation of prevention systems are rapidly surpassedby smarter strategies for performing fraud. Financial fraud has registered worldwidelosses exceeding one billion dollars [Bank, 2021] – which represents a major liabilityfor financial entities.Manual systems for detection of fraud are becoming obsolete, as they fail to keepup with smarter criminals and big data. Naturally, Machine Learning stands asa potential candidate for dealing with this problem provided its automating andintelligent capabilities, namely, on the detection of patterns from data. The relevantliterature highlights that both tree-based and Deep Learning approaches are widelyused in fraud detection, despite an emerging debate on why tree-based algorithmsconsistently outperform Deep Learning on tabular data.In this thesis, we study the performance gap between tree-based and Deep Learningalgorithms for tabular data, with a focus on fraud detection. We iterate through tree-based methods, such as Gradient Boosting Decision Trees, and recent Deep Learningalgorithms for tabular data. We explore possible root causes for this gap by applyingseveral transformations to real data from the payments industry so as to widen (orshorten) the gap. Our results suggest that the performance gap may generally stemfrom a disagreement between the prior assumptions of Deep Learning algorithms andthe properties of tabular data: (i) neural networks misrepresent irregular patternsin tabular data; (ii) in tabular data, the target is usually a function of just a smallsubset of features. Amongst the more recent algorithms, we show that TabNet andFT-Transformer share some similarities with tree-based methods that allow them tolearn representations that better align with the properties of tabular data.
Description:	Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/110585
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado