Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/86262
Title: A study on missing data: handing missingness using Denoising Autoencoders
Other Titles: Um estudo sobre dados em falta: preenchimento de dados em falta utilizando Denoising Autoencoders
Authors: Costa, Adriana Isabel Fonseca 
Orientador: Santos, Miriam Seoane
Abreu, Pedro Manuel Henriques da Cunha
Keywords: mecanismos de dados em falta; preenchimento de dados em falta; denoising autoencoders; missing data mechanisms; missing data imputation; denoising autoencoders
Issue Date: 20-Jul-2018
Serial title, monograph or event: A study on missing data: handing missingness using Denoising Autoencoders
Place of publication or event: DEI
Abstract: Com a evolução tecnológica, verificou-se um aumento exponencial da quantidade de dados recolhidos e armazenados. Assim, surgiu a necessidade de criar mecanismos automáticos para extrair conhecimento dos referidos dados. Estes mecanismos automáticos, conhecidos por modelos de aprendizagem automática, foram, na sua maioria, desenvolvidos para dados completos, requisito que nem sempre é possível cumprir. Neste contexto, a imputação dos dados (substituição dos valores em falta por estimativas plausíveis) surge como uma possível solução, garantindo a qualidade dos dados para posterior análise.Nos últimos anos, vários estudos têm proposto novas técnicas de imputação, de entre as quais se destaca a utilização de Stacked Denoising Autoencoders. Dada a sua extraordinária capacidade de recuperar dados corrompidos, os Denoising Autoencoders mostram-se promissores na área da imputação de dados, tendo despertado um interesse crescente por parte da comunidade científica.No entanto, sendo um tópico recente, a sua aplicação ainda não se encontra suficientemente bem estudada, apresentando diversos aspetos por explorar; em particular, a sua adequação a diferentes mecanismos de dados em falta (Missing Completely At Random, Missing At Random e Missing Not At Random). Esta tese apresenta um estudo aprofundado da imputação de dados via Stacked Denoising Autoencoders, considerando diferentes mecanismos e percentagens de dados em falta. Em comparação com métodos de imputação do estado da arte, os Stacked Denoising Autoencoders mostraram ser abordagens robustas para a imputação de elevadas percentagens de dados em falta, especialmente quando o mecanismo subjacente à sua geração é Missing Not At Random.
The evolution of technology led to an exponential increase in the amount of data being collected and stored, thus creating the need to develop automatic mechanisms to extract knowledge from data. These automatic mechanisms, known as Machine Learning techniques, were mostly designed for complete data, a requirement that is not always fulfilled. In this context, data imputation (replacement of missing values by plausible estimates) arises as a possible solution, ensuring the quality of data for later analysis. Over the years, several studies presented alternative imputation strategies, among which Stacked Denoising Autoencoders stand out. Given their ability to recover corrupted data, Stacked Denoising Autoencoders are promising in the area of data imputation, generating great interest in the scientific community. However, their application is an understudied topic, still presenting challenging aspects for research; namely, their suitability for different missing data mechanisms (Missing Completely At Random, Missing At Random and Missing Not At Random). This thesis presents a thorough study of data imputation via Stacked Denoising Autoencoders, considering different missing data mechanisms and missing rates. In comparison to state-of-the-art imputation methods, Stacked Denoising Autoencoders proved to be robust for imputing high missing rates, especially, when the mechanism underlying their generation is Missing Not At Random.
Description: Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/86262
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
MissingData_Adriana Costa.pdf3 MBAdobe PDFView/Open
Show full item record

Page view(s) 50

456
checked on Apr 23, 2024

Download(s) 50

432
checked on Apr 23, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons