Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/102124
Title: Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
Other Titles: Gerador de Dados de Fraude: Modelação de Dados Sequenciais com Privacidade no Domínio da Fraude Financeira
Authors: Cardoso, João Francisco Albuquerque de Campos
Orientador: Costa, Ernesto Jorge Fernandes
Bono, Jacopo
Keywords: Machine Learning; Generative Modelling; Variational Autoencoder; Dados Tabulares; Dados Sequenciais; Machine Learning; Generative Modelling; Variational Autoencoder; Tabular Data; Sequence Data
Issue Date: 15-Sep-2022
Serial title, monograph or event: Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
Place of publication or event: FeedZai
Abstract: Nos dias de hoje, a necessidade de ter dados é enorme e a sua recolha pode ser díficil. No domínio da fraude, milhões de transações são processadas diariamente por bancos e processadores de pagamentos que dependem de algoritmos de Machine Learning para detetar e prevenir fraude. Isto é essencial, visto que o fluxo de transações é tão elevado que não é viável que todas as transações sejam revistas por peritos. Para poderem realizar tarefas de classificação afim de discriminar entre transações fraudulentas e não fraudulentas, estes algoritmos precisam de ser treinados com dados de alta qualidade que podem ser dispendiosos de obter e que nem sempre podem ser preservados como dados históricos pelas empresas que prestam este tipo de serviços. Uma solução para este problema pode passar pela criação de um algoritmo capaz de gerar dados sintéticos, com as mesmas características de dados de transações reais, que possam ser armazenados sem comprometer a segurança e a privacidade dos utilizadores. Tais algoritmos são chamados de Modelos Generativos. A Modelação Generativa surgiu há bastante tempo mas tem vindo a tornar-se cada vez mais um tópico da moda nos últimos anos devido ao aparecimento de modelos Deep Learning, tais como Generative Adversarial Networks (GANs) e Variational Autoencoder (VAEs). Neste trabalho fornecemos uma revisão da literatura sobre o Estado da Arte de Modelação Generativa para dados tabulares, lidando também com a sequencialidade e dependência temporal dos mesmos, com foco no domínio da deteção de fraude. De seguida, apresentamos um método inovador, baseado em VAEs, com o objectivo de gerar dados sintéticos, tendo em conta a sequencialidade dos mesmos, separando a geração de dados tabulares e dados sequenciais com modelos generativos que se focam em cada tarefa. Experimentamos os modelos focados em dados tabulares e avaliamos o seu desempenho relativamente à fidelidade e utilidade dos dados sintéticos em tarefas de deteção de fraude, usando conjuntos de dados reais da indústria da Banca e Pagamentos, comparando dados reais com dados sintéticos. Os resultados destas experiências mostram sinais encorajadores de que esta abordagem pode ser aplicada ao nosso caso de uso. Em particular, para um dos conjuntos de dados somos capazes de gerar dados sintéticos com algum grau de fidelidade e usabilidade com diferenças moderadas no desempenho dos modelos de classificação treinados em dados reais e sintéticos.
Nowadays the need for data is tremendous and collecting it can be hard. In the fraud domain, millions of transactions are processed everyday by banks and payment processors that rely on Machine Learning algorithms to detect and prevent fraud. This is essential since the flow of transactions is so high that it is not feasible for all transactions to be reviewed by human experts. To be able to perform classification tasks to discriminate between fraudulent and non-fraudulent transactions, these algorithms need to be trained with high quality data that can be costly to get and may not always be preserved as historical data by companies providing this service. One solution to this is through the creation of an algorithm that can generate synthetic data, with the same characteristics of real transaction data, that can be stored without compromising the safety and privacy of the users. Such algorithms are called Generative Models. Generative Modelling has appeared long ago but has become a hot topic in recent years due to the appearance of deep learning models, such as Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs). In this work we provide a review on the State of the Art of Generative Modelling for tabular data, with and without dealing with time dependencies, focused in the fraud detection domain. We go through some of the methods that have been proposed for tabular data generation, using GANs and VAEs, and the strategies to evaluate their performance. We then present a set of innovative VAE-based methods that aim at generating synthetic data, taking into account the inherent time dependencies, decoupling the generation of tabular data and sequence data, with generators that focus on each task. We experiment the models focused on tabular data and evaluate their performance regarding synthetic data fidelity and usability in fraud detection tasks, with real datasets from the Banking and Payments industry, comparing synthetic data with real data. The results of these experiments show encouraging signs that this approach can be applied to our use case. In particular, for one of the datasets we are able of generating synthetic data with some degree of fidelity and usability with moderate differences in the performance of classification models trained on real and synthetic data.
Description: Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/102124
Rights: embargoedAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat Login
MSc_Joao_Cardoso.pdf3.43 MBAdobe PDFEmbargo Access    Request a copy
Show full item record

Page view(s)

86
checked on Jul 17, 2024

Download(s)

2
checked on Jul 17, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons