Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/114574
Title: Artificial Intelligence Strategies for Missing Data Imputation using Healthcare Data
Other Titles: Estratégias de Inteligência Artificial para a Imputação de Dados em Falta utilizando Dados Médicos
Authors: Pereira, Ricardo Daniel Cardoso
Orientador: Abreu, Pedro Manuel Henriques da Cunha
Rodrigues, Pedro Pereira
Keywords: Ausência Não Aleatória; Dados Médicos; Dados em Falta; Imputação de Dados; Data Imputation; Healthcare Data; Missing Not At Random; Missing Data; -; -
Issue Date: 21-Jul-2023
Project: info:eu-repo/grantAgreement/FCT/POR_CENTRO/SFRH/BD/149018/2019/PT 
Serial title, monograph or event: Artificial Intelligence Strategies for Missing Data Imputation using Healthcare Data
Place of publication or event: Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
Abstract: Atualmente, a maioria das organizações depende de dados para extrair informação útil, que pode ser obtida por meio de análises estatísticas simples ou modelos de aprendizagem computacional complexos. No entanto, os resultados produzidos por estas estratégias dependem da qualidade dos dados. Um problema que tem um grande impacto nessa qualidade é a falta de dados, que é descrita como a ausência de valores nas variáveis de um dataset. Os valores ausentes tendem a prejudicar qualquer procedimento realizado com os dados, já que as distribuições das variáveis podem estar alteradas e deturpadas. Estas alterações são particularmente visíveis quando os dados ausentes se enquadram no mecanismo Missing Not At Random (MNAR), que define que os valores ausentes estão relacionados com eles próprios ou com outros dados não observados. Os dados ausentes são tipicamente tratados com estratégias de imputação, que produzem estimativas para substituir os valores em falta. Estas estratégias funcionam bem para todos os mecanismos exceto para o MNAR, porque dependem apenas dos dados observados e, por isso, produzem resultados enviesados. Nesse sentido, são necessárias novas estratégias para melhorar as estimativas dos valores em falta do tipo MNAR. Esta necessidade é particularmente premente já que este mecanismo tem maior prevalência em domínios críticos como o da saúde. O foco desta tese é explorar e propor novas estratégias de imputação para o mecanismo MNAR que possam melhorar os resultados obtidos pelos métodos estado-da-arte. Para atingir este objetivo, duas linhas principais de investigação foram seguidas: potenciar e estender modelos de aprendizagem profunda para fins de imputação, particularmente autoencoders, uma vez que são considerados estado da arte para esta tarefa; e explorar estratégias de processamento de dados com base em várias fontes e em ajustes de pós-processamento dos valores imputados. Em relação ao uso de modelos de aprendizagem profunda, três novas estratégias de imputação foram propostas: o uso de variational autoencoders para filtrar dados antes da geração das estimativas, a junção de variational autoencoders com um procedimento de imputação múltipla parcial, e uma nova abordagem baseada em siamese autoencoders. Adicionalmente, foi também desenvolvia uma pesquisa abrangente sobre tendências técnicas e aplicações de autoencoders para fins de imputação. No que toca à linha de investigação de processamento de dados, duas estratégias foram propostas: a combinação de múltiplas fontes de dados para mitigar os problemas causados pelo facto do MNAR estar relacionado com dados não observados, e um método para estimar automaticamente o fator de ajuste delta usado para reduzir o viés nas estimativas. Adicionalmente, foi também proposto um conjunto de estratégias de geração artificial de valores ausentes do tipo MNAR, tendo estas sido comparadas num estudo de benchmark. Todo o trabalho desenvolvido foi validado com dados do domínio da saúde por se tratar de um contexto sensível e altamente impactado pelo MNAR. A configuração experimental utilizada foi focada na avaliação da qualidade da imputação, comparando os valores estimados com os originais. Em alguns trabalhos, também foi medido o impacto da imputação em tarefas de classificação. Em termos gerais, as estratégias propostas foram capazes de alcançar melhores resultados de imputação quando comparadas aos métodos atualmente considerados estado da arte. No futuro, iremos aplicar estas novas estratégias a dados não tabulares (particularmente imagens) e tentaremos potenciar outros modelos de aprendizagem profunda para lidar com dados em falta do tipo MNAR (por exemplo, generative adversarial networks).
Nowadays, most organizations rely on data to extract valuable insights, which can be obtained through simple statistical analysis or more complex machine learning models. The produced outcomes of such tasks depend on the quality of the data. An issue that highly impacts this quality is missing data, which is described as the absence of values in the features of a dataset. Missing values usually harm any procedure performed with the data since the distributions of the features can potentially be shifted and misrepresented. This is especially true when the missing data fall under the Missing Not At Random (MNAR) mechanism, which states that the missing values are related to themselves or other unobserved data. Missing data is often handled with imputation strategies, which produce estimates to replace the missing values. Such strategies work well for all missing mechanisms, except for MNAR since they only rely on the observed data and, therefore, provide biased results. Due to that, new strategies are needed to improve the estimates for MNAR values, especially when considering that this mechanism has the highest prevalence in critical domains such as healthcare. This thesis is focused on exploring and proposing new imputation strategies for the MNAR mechanism that can improve upon the current state-of-the-art results. To achieve this goal, two main research lines were followed: leverage and extend deep learning models for imputation purposes, particularly autoencoders since they are state-of-the-art for this task; and explore data processing strategies based on multiple data sources and post-processing adjustments of the imputed values. Regarding the use of deep learning models, three new imputation strategies were proposed: the use of variational autoencoders for filtering data prior to the estimation, the extension of variational autoencoders to include a partial multiple imputation procedure, and a new siamese autoencoder-based approach. Moreover, a comprehensive survey about technical trends and applications of autoencoders for imputation was also introduced. For the data processing research line, two strategies were proposed: the combination of multiple data sources to mitigate the issues caused by the relation with unobserved data, and a method to automatically estimate the delta-adjustment factor used to reduce bias in the estimates. Furthermore, a set of artificial generation strategies for MNAR values was also introduced and benchmarked. All the developed work was validated with data from the healthcare domain since this is a sensitive context highly impacted by MNAR. The used experimental setup assessed the imputation quality by comparing the estimated values with the original ones. In some works, the impact of the imputation in classification tasks was also measured. In general terms, the proposed strategies were able to achieve better imputation results when compared to the current state-of-the-art methods. In the future, we will extend these new strategies for non-tabular data (particularly images), and we will try to leverage other deep learning models for MNAR data (e.g., generative adversarial networks).
Description: Tese de Doutoramento em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/114574
Rights: openAccess
Appears in Collections:UC - Teses de Doutoramento

Files in This Item:
File SizeFormat
PhD-Thesis-RCP.pdf2.16 MBAdobe PDFView/Open
Show full item record

Page view(s)

13
checked on Apr 30, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons