Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/105997
Title: Understanding Fairness Bias in Missing Data Imputation
Other Titles: Compreender o Preconceito na Imputação de Dados em Falta
Authors: Ramos, João Xavier Carvalho
Orientador: Abreu, Pedro Manuel Henriques da Cunha
Keywords: Dados em Falta; Mecanismos de Dados em Falta; Preconceito; Imputação de Dados; Equidade; Missing Data; Missing Mechanisms; Bias; Data Imputation; Fairness
Issue Date: 24-Jan-2023
Serial title, monograph or event: Understanding Fairness Bias in Missing Data Imputation
Place of publication or event: DEI/FCTUC
Abstract: In the past few years, rapid developments in artificial intelligence technology have culminated in its widespread adoption. The application of AI in real-world scenarios has revealed the importance of fairness in machine learning, in order words, the capacity of decision-making systems to operate in a way that doesn't discriminate against any particular group or individual. Because of this, algorithmic fairness has become a booming field in Machine Learning research with an increasing number of papers being released each year. Missing values are extremely prevalent in large datasets like those used in real-world applications by the industry. These missing values can be generated according to the three missing data mechanisms: Missing Completely At Random, Missing At Random, and Missing Not At Random. Since most machine learning algorithms can't handle these missing values, they have to be dealt with. This is normally accomplished through data imputation. Because of these unique circumstances, the effect that missing data and the imputation process have on the fairness of decision-making systems has become an ignored but important topic in Machine Learning research. This thesis presents a thorough study of the effects that data imputation has on the fairness of machine learning models. We conducted our experiments considering different missing data mechanisms, imputation methods, and missing rates. To analyze the fairness of our models we utilized 7 fairness metrics: Disparate Impact, CV, Equal Opportunity, Equal Mis-Opportunity, Positive Calibration, Negative Calibration, and Generalized Entropy Index. The main findings include how each of these metrics reacts to imputed data. Disparate Impact, and CV, show a positive correlation with missing rate. According to the Generalized Entropy Index and Equal Mis-Opportunity, classifier became less fair the higher the missing rate. The other metrics showed no correlation with the percentage of imputed data.
Nos últimos anos, os rápidos desenvolvimentos na tecnologia da inteligência artificial culmi-naram na sua adopção generalizada. A aplicação de IA em cenários do mundo real reveloua importância da equidade em machine learning, por outras palavras, a capacidade dossistemas de tomada de decisão autónoma de operarem de uma forma que não discriminequalquer grupo ou indivíduo. Devido a isto, a equidade algorítmica tornou-se um campoem expansão na investigação sobre Inteligência Artificial, com um crescente número detrabalhos a serem publicados todos os anos.Valores em falta são extremamente prevalecentes em grandes datasets como aqueles quesão utilizados em aplicações no mundo real pela indústria. Estes valores em falta podemser gerados de acordo com os três mecanismos de dados em falta: Missing Completely AtRandom, Missing At Random, and Missing Not At Random. Uma vez que, a maioria dosalgoritmos de machine learning não consegue lidar com valores em falta, estes têm de sertratados. Isto é normalmente alcançado através da imputação de dados. Devido a estascircunstâncias únicas, o efeito que os dados em falta e o processo de imputação têm sobre aequidade dos sistemas de inteligência artificial encontra-se com um tópico importante masignorado na investigação de ML.Esta tese apresenta um estudo aprofundado dos efeitos que a imputação de dados temsobre a equidade dos modelos de inteligencia artificial. Conduzimos as nossas experiênciasconsiderando diferentes mecanismos de dados em falta, métodos de imputação, e taxas defaltas. Para analisar a equidade dos nossos modelos, utilizámos 7 métricas de equidade:Disparate Impact, CV, Equal Opportunity, Equal Mis-Opportunity, Positive Calibration,Negative Calibration, and Generalized Entropy Index. As principais conclusões incluem aforma como cada uma destas métricas reage a dados imputados. O Disparate Impact, eo CV, mostram uma correlação positiva com a taxa em falta. De acordo com o Índice deEntropia Generalizada e a Equal Mis-Opportunity, os modelos tornaram-se menos justosquanto mais alta for a taxa em falta. As outras métricas não mostraram qualquer correlaçãocom a percentagem de dados imputados.
Description: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/105997
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
Tese João Xavier Carvalho Ramos.pdf1.66 MBAdobe PDFView/Open
Show full item record

Page view(s)

52
checked on Apr 23, 2024

Download(s)

72
checked on Apr 23, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons