Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/102147
DC FieldValueLanguage
dc.contributor.advisorAbreu, Pedro Manuel Henriques da Cunha-
dc.contributor.authorApóstolo, João Diogo de Sousa Jardim e-
dc.date.accessioned2022-09-26T22:00:58Z-
dc.date.available2022-09-26T22:00:58Z-
dc.date.issued2022-07-13-
dc.date.submitted2022-09-26-
dc.identifier.urihttps://hdl.handle.net/10316/102147-
dc.descriptionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia-
dc.description.abstractEmbora se saiba que existência de dados não balanceados não é muito prejudicial por si só, quando combinado com outros problemas como dataset shift e/ou overlap, o seu impacto na degradação da qualidade dos dados aumenta, tornando-se um problema real. Apesar disso, existe uma falta de estudos que analisem estes problemas simultaneamente.O objetivo deste trabalho é estudar tanto o overlap como o dataset shift em contextos em que os dados são pouco balanceados, para perceber em mais detalhe os seus efeitos combinados. Para estudar o dataset shift, foram realizadas experiências usando quatro algoritmos de cross validation, que introduzem diferentes quantidades de dataset shift nos dados, visando entender o seu impacto no desempenho de vários algoritmos classificação. Além disso, foram também realizadas experiências usando várias técnicas de oversampling para medir os efeitos combinados do dataset shift e dados pouco balanceados na degradação do desempenho desses algoritmos de classificação. Geralmente, os resultados confirmaram que os efeitos conjuntos dos dois problemas são muito prejudiciais ao desempenho dos classificadores, sendo que o dataset shift ocupa o papel principal nessa equação, porém o uso de algoritmos de oversampling pode melhorar o desempenho em alguns cenários. Este estudo também contestou a literatura atual sobre a eficácia de algoritmos de cross validation na redução do dataset shift.Para estudar o overlap, foi criada uma biblioteca em python, pycol, que agrega a maioria das medidas de complexidade existentes no estado da arte usadas para medir o overlap, visando facilitar a experimentação com essas medidas. Utilizando a biblioteca foi realizado um estudo de modo a validar uma taxonomia proposta para estas medidas. Além disso, a eficácia do uso de vários algoritmos de pré-processamento na redução da overlap foi testada em datasets não balanceados. Os resultados revelaram nova informação sobre os algoritmos de pré-processamento testados e demonstraram a sua utilidade na redução de múltiplas dimensões de overlap. Os resultados também confirmaram a validade das famílias de overlap propostas na taxonomia supracitada, mas também indicam que cada família não é independente das demais.por
dc.description.abstractWhile it is known that imbalance on its own is not too harmful, when combined with other issues such as dataset shift and/or overlap, its impact on the degradation of the quality of data increases, becoming a real problem. Despite this, there is a lack of research works studying these issues simultaneously.The aim of this work is to study both overlap and dataset shift in contexts of where the data is imbalanced, to understand their combined effects.To study dataset shift, experiments were made using four cross validation algorithms, that induce different amounts of shift in the data, with the goal of understanding their impact on the performance of several machine learning algorithms. Furthermore, experiments were also done using multiple oversampling techniques to measure how much the combined effects of dataset shift and imbalance degrade the performance of these algorithms. Overall, the results confirmed that the joint effects of imbalance and dataset shift are very detrimental to the classifier's performance, with dataset shift occupying the main role in this equation, but that the use of oversampling algorithms could improve performance in some scenarios. This study also contested the current literature on the efficacy of cross validation algorithms in reducing dataset shift.To study overlap, a new python package, pycol, was created, which aggregates most state-of-the-art complexity measures used to calculate overlap, with the goal of making it easier to experiment with these measures. Using this package a study was conducted validating a taxonomy proposed for these measures. Furthermore, the efficacy of multiple preprocessing algorithms in reducing overlap was tested in imbalanced datasets. The results revealed new information about the preprocessing algorithms and showed their usefulness in reducing multiple dimensions of overlap. The results also confirmed the validity of the families of overlap proposed in the aforementioned taxonomy, but they also indicate that each family is not independent of the others, meaning that there is some overlap degree between families.eng
dc.language.isoeng-
dc.rightsopenAccess-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/-
dc.subjectDataset Shiftpor
dc.subjectOverlappor
dc.subjectCross Validationpor
dc.subjectDados não balanceadospor
dc.subjectMedidas de Complexidadepor
dc.subjectDataset Shifteng
dc.subjectOverlapeng
dc.subjectCross Validationeng
dc.subjectImbalanceeng
dc.subjectComplexity Measureseng
dc.titleExploring problems of overlap and dataset shift in imbalanced dataeng
dc.title.alternativeExplorando problemas de overlap e dataset shift em dados pouco balanceadospor
dc.typemasterThesis-
degois.publication.locationDEI - FCTUC-
degois.publication.titleExploring problems of overlap and dataset shift in imbalanced dataeng
dc.peerreviewedyes-
dc.identifier.tid203062329-
thesis.degree.disciplineInformática-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.level1-
thesis.degree.nameMestrado em Engenharia Informática-
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Engenharia Informática-
uc.degree.grantorID0500-
uc.contributor.authorApóstolo, João Diogo de Sousa Jardim e::0000-0003-2777-3161-
uc.degree.classification19-
uc.degree.presidentejuriPereira, Vasco Nuno Sousa Simões-
uc.degree.elementojuriPaquete, Luís Filipe dos Santos Coelho-
uc.degree.elementojuriAbreu, Pedro Manuel Henriques da Cunha-
uc.contributor.advisorAbreu, Pedro Manuel Henriques da Cunha-
item.grantfulltextopen-
item.cerifentitytypePublications-
item.languageiso639-1en-
item.openairetypemasterThesis-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.fulltextCom Texto completo-
Appears in Collections:UC - Dissertações de Mestrado
Files in This Item:
File Description SizeFormat
Tese - Final Version.pdf1.81 MBAdobe PDFView/Open
Show simple item record

Page view(s)

63
checked on May 8, 2024

Download(s)

60
checked on May 8, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons