User behavior analytics in the contact center: Insider threat assessment and fraud detection

Cardoso, Nuno André de Matos Lopes

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/96092

Title:	User behavior analytics in the contact center: Insider threat assessment and fraud detection
Other Titles:	User behavior analytics no contact center: Avaliação de ameaças internas e deteção de fraude
Authors:	Cardoso, Nuno André de Matos Lopes
Orientador:	Vieira, Marco Paulo Amorim
Keywords:	UEBA; Inteligência artificial; Machine learning; Deteção de anomalias; Cibersegurança; UEBA; Artificial inteligence; Machine learning; Anomaly detection; Cibersecurity
Issue Date:	19-Jul-2021
Serial title, monograph or event:	User behavior analytics in the contact center: Insider threat assessment and fraud detection
Place of publication or event:	Talkdesk
Abstract:	Com o crescimento contínuo do cibercrime em anos recentes, a necessidade de estratégias de cibersegurança inovadoras e eficazes tornam-se cada vez mais importantes para todo o tipo de organizações. Fundada em 2011, a Talkdesk está a desenvolver um produto de contact-center na nuvem, que chegou aos 1800 clientes em 2020. As carreiras em contactcenter são conhecidas pela precariedade e alta rotatividade de agentes que, agravada pela tendência de trabalho remoto imposta pela pandemia de COVID-19, aumenta o risco de ocorrência de fraude.As abordagens de cibersegurança tipicamente adotadas pelas organizações, como gestão e correlação de eventos de segurança (SIEM), têm o seu foco em ameaças externas, através de um motor de regras que resulta em alertas indicativos de potenciais incidentes. No entanto, esses mecanismos têm a limitação da incapacidade de detetar modelos de ameaça inovadores, razão pelo qual abordagens que utilizam inteligência artificial são necessárias. A análise comportamental de utilizadores e entidades (UEBA) é uma solução emergente utilizada para complementar as estratégias de segurança de uma organização, que utiliza machine learning e, mais especificamente, algoritmos de deteção de anomalias, para criar perfis de comportamento normal de utilizadores e entidades. Desvios significativos a esses perfis são posteriormente registados, potencialmente correspondentes a ameaças.O principal objetivo deste trabalho consiste em avaliar a aplicabilidade de uma framework de UEBA para proteger os clientes da Talkdesk, através da monitorização do staff dos contact-centers para detetar ameaças relacionadas com o roubo de dados sensíveis, ciberfraude, abuso interno, entre outros. Começámos o trabalho pela exploração das fontes de dados mais apropriadas (para UEBA) disponíveis, e pela definição de cenários de ameaça, seguido da obtenção dos dados e implementação de pipelines de transformação, para converter dados os dados originais num formato adequado para os algoritmos de deteção de anomalias. De seguida, procedemos a uma análise exploratória dos dados, bem como seleção de features, e decidimos quais os algoritmos de deteção de anomalias a utilizar, bem como a estratégia de validação a implementar. Criámos um dataset artificial, através de conhecimento de domínio, e definimos parâmetros para variar (período de treino, feature set, contaminação), que aplicámos com 5 algoritmos distintos. Seguidamente, avaliámos cada combinação de parâmetros utilizando métricas de classificação supervisionada, com os algoritmos autoencoder e PCA a registar o F1-score mais alto: 0.97 e 0.95, respetivamente. Também avaliámos 3 métodos de interpretabilidade distintos, para explicar as anomalias reportadas.Por fim, fizémos deploy da framework utilizando PCA e um mês de dados de 2 clientes, num ambiente de staging, registando um total de 76 anomalias causadas por 45 agentes distintos, com 67 verdadeiros positivos e 9 falsos positivos. Nós acreditamos que a framework está preparada para produção, requerendo apenas pequenos ajustes no algoritmo de interpretabilidade e uma estratégia para suprimir anomalias similares a outras anteriores, reportadas como falsos positivos através de feedback dos clientes. With the continuous growth of cyber-crime in the past few years, the need for innovative and effective cybersecurity strategies is fundamental for every organization. Founded in 2011, Talkdesk is building a cloud-based contact-center product, which reached more than 1800 customers in 2020. Contact-center jobs are known to be precarious and with high turnover rates and, along with the ongoing trend of working from home posed by the pandemic of COVID-19, there is an increased risk concerning the likelihood of fraud by an insider actor (in the case, a contact-center agent).Typical cybersecurity controls adopted by organizations, such as security information event management (SIEM), tend to focus on external threats, using rule-based matching mechanisms to create alerts on potential incidents. However, such mechanisms are unable to detect novel threat scenarios, reason why new approaches are necessary, such as those utilising artificial intelligence. User and entity behavior analytics (UEBA) is an emerging solution to complement the security controls of an organization, which leverages machine learning and, more specifically, anomaly detection, to create baselines of normal behavior of users or entities and attempts to detect significant deviations from those baselines, which could represent threats.The main goal of this work consists in assessing the viability of using a UEBA framework to protect the customers of Talkdesk, with which contact-center staff would be monitored with the objective of detecting threats related to sensitive information theft, cyber fraud, insider abuse, and others. To achieve this, we started by exploring the most appropriate raw data sources (for UEBA) available and defining threat scenarios to tackle, followed by obtaining the data and implementing transformation pipelines to convert raw data into a format suitable for anomaly detection. We proceeded with exploratory data analysis and feature engineering and decided on the appropriate anomaly detection algorithms to evaluate and the validation strategy to use. We created a labeled dataset with domain knowledge expertise, defined several settings to vary (baseline period, feature set, contamination), and applied them with 5 different algorithms. We evaluated each combination of the settings defined using supervised classification metrics, with the autoencoder and PCA achieving the highest F1-scores: 0.97 and 0.95, respectively. We also evaluated 3 different interpretability methods, to explain the anomalies reported.Finally, we deployed the framework using PCA and 1 month of real data from 2 clients, in a staging environment, registering a total of 76 anomalies incurred by 45 different agents, with 67 true positives and 9 false positives. We believe the framework is ready for production, requiring minor adjustments on the interpretability algorithm and a strategy to suppress anomalies similar to past ones reported as false positives through feedback from the clients.
Description:	Dissertação de Mestrado em Segurança Informática apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/96092
Rights:	embargoedAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Tese_UEBA_2.1.pdf		2.33 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

299

checked on Apr 23, 2024

Download(s)

106

checked on Apr 23, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM