Exploring problems of overlap and dataset shift in imbalanced data

Apóstolo, João Diogo de Sousa Jardim e

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/102147

Title:	Exploring problems of overlap and dataset shift in imbalanced data
Other Titles:	Explorando problemas de overlap e dataset shift em dados pouco balanceados
Authors:	Apóstolo, João Diogo de Sousa Jardim e
Orientador:	Abreu, Pedro Manuel Henriques da Cunha
Keywords:	Dataset Shift; Overlap; Cross Validation; Dados não balanceados; Medidas de Complexidade; Dataset Shift; Overlap; Cross Validation; Imbalance; Complexity Measures
Issue Date:	13-Jul-2022
Serial title, monograph or event:	Exploring problems of overlap and dataset shift in imbalanced data
Place of publication or event:	DEI - FCTUC
Abstract:	Embora se saiba que existência de dados não balanceados não é muito prejudicial por si só, quando combinado com outros problemas como dataset shift e/ou overlap, o seu impacto na degradação da qualidade dos dados aumenta, tornando-se um problema real. Apesar disso, existe uma falta de estudos que analisem estes problemas simultaneamente.O objetivo deste trabalho é estudar tanto o overlap como o dataset shift em contextos em que os dados são pouco balanceados, para perceber em mais detalhe os seus efeitos combinados. Para estudar o dataset shift, foram realizadas experiências usando quatro algoritmos de cross validation, que introduzem diferentes quantidades de dataset shift nos dados, visando entender o seu impacto no desempenho de vários algoritmos classificação. Além disso, foram também realizadas experiências usando várias técnicas de oversampling para medir os efeitos combinados do dataset shift e dados pouco balanceados na degradação do desempenho desses algoritmos de classificação. Geralmente, os resultados confirmaram que os efeitos conjuntos dos dois problemas são muito prejudiciais ao desempenho dos classificadores, sendo que o dataset shift ocupa o papel principal nessa equação, porém o uso de algoritmos de oversampling pode melhorar o desempenho em alguns cenários. Este estudo também contestou a literatura atual sobre a eficácia de algoritmos de cross validation na redução do dataset shift.Para estudar o overlap, foi criada uma biblioteca em python, pycol, que agrega a maioria das medidas de complexidade existentes no estado da arte usadas para medir o overlap, visando facilitar a experimentação com essas medidas. Utilizando a biblioteca foi realizado um estudo de modo a validar uma taxonomia proposta para estas medidas. Além disso, a eficácia do uso de vários algoritmos de pré-processamento na redução da overlap foi testada em datasets não balanceados. Os resultados revelaram nova informação sobre os algoritmos de pré-processamento testados e demonstraram a sua utilidade na redução de múltiplas dimensões de overlap. Os resultados também confirmaram a validade das famílias de overlap propostas na taxonomia supracitada, mas também indicam que cada família não é independente das demais. While it is known that imbalance on its own is not too harmful, when combined with other issues such as dataset shift and/or overlap, its impact on the degradation of the quality of data increases, becoming a real problem. Despite this, there is a lack of research works studying these issues simultaneously.The aim of this work is to study both overlap and dataset shift in contexts of where the data is imbalanced, to understand their combined effects.To study dataset shift, experiments were made using four cross validation algorithms, that induce different amounts of shift in the data, with the goal of understanding their impact on the performance of several machine learning algorithms. Furthermore, experiments were also done using multiple oversampling techniques to measure how much the combined effects of dataset shift and imbalance degrade the performance of these algorithms. Overall, the results confirmed that the joint effects of imbalance and dataset shift are very detrimental to the classifier's performance, with dataset shift occupying the main role in this equation, but that the use of oversampling algorithms could improve performance in some scenarios. This study also contested the current literature on the efficacy of cross validation algorithms in reducing dataset shift.To study overlap, a new python package, pycol, was created, which aggregates most state-of-the-art complexity measures used to calculate overlap, with the goal of making it easier to experiment with these measures. Using this package a study was conducted validating a taxonomy proposed for these measures. Furthermore, the efficacy of multiple preprocessing algorithms in reducing overlap was tested in imbalanced datasets. The results revealed new information about the preprocessing algorithms and showed their usefulness in reducing multiple dimensions of overlap. The results also confirmed the validity of the families of overlap proposed in the aforementioned taxonomy, but they also indicate that each family is not independent of the others, meaning that there is some overlap degree between families.
Description:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/102147
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Tese - Final Version.pdf		1.81 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

86

checked on Oct 16, 2024

Download(s)

87

checked on Oct 16, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM