Study the capacity of deep learning techniques information generalization using capsule endoscopic images

Macedo, Ema Margarida da Silva

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/116385

Title:	Study the capacity of deep learning techniques information generalization using capsule endoscopic images
Other Titles:	Estudo da capacidade de generalização de informação de técnicas de aprendizagem profunda utilizando imagens de cápsulas endoscópicas
Authors:	Macedo, Ema Margarida da Silva
Orientador:	Araújo, Hélder de Jesus Abreu, Pedro Manuel Henriques da Cunha
Keywords:	Capsule Endoscopy; Deep Learning; Classification; Localization; Cápsula Endoscópica; Aprendizagem profunda; Classificação; Localização
Issue Date:	29-Jul-2024
Serial title, monograph or event:	Study the capacity of deep learning techniques information generalization using capsule endoscopic images
Place of publication or event:	Departamento de Engenharia Informática
Abstract:	Currently, over 300 million people in Europe are affected by digestive disorders. For diagnosis, gastrointestinal tract examination primarily relies on endoscopy and colonoscopy. As a non-invasive alternative, there is capsule endoscopy. It eliminates sedation risks, is patient-friendly, and allows for the assessment of the small bowel, a region not easily accessible by traditional methods. However, this technique has limitations, including long review times, difficult precise localization, and low image quality. To address these issues, deep learning techniques have recently been employed, focusing on anomaly classification and/or capsule location within the gastrointestinal tract.Encompassing this domain, this thesis aims to explore the generalization capacity of deep learning models in the lesion location identification process using capsule endoscopy images. To achieve this goal, AlexNet, InceptionV3 and ResNet-152 architectures were trained exclusively in normal frames and later tested in lesion frames. Frames were sourced from KID and Kvasir-Capsule open-source datasets. Both RGB and grayscale representations were evaluated, and experiments with complete images and patches were made.Results show that the generalization capacity on lesion location of models is not so strong as their capacity for normal frame location, with colon being the most difficult organ to identify. Nevertheless, the best model performance achieved included a sensitivity of 0.73, a specificity of 0.81, a precision of 0.58, an accuracy of 0.83 and a F1-Score of 0.61. These show that models were capable of identifying the organ of a certain abnormal frame with pathology without prior exposure to abnormalities, suggesting that, to some extent, normal and abnormal frames are related and have common patterns. Further studies are warranted to explore this aspect more comprehensively. New research directions can include the exploration of other architecture with attention mechanisms, the use of colonoscopy data to address the lack of colon representation and the inclusion of image pre-processing techniques such as texture enhancement. Atualmente, mais de 300 milhões de pessoas na Europa são afetadas por distúrbios digestivos. Para diagnóstico, a análise do trato gastrointestinal apoia-se principalmente na endoscopia e colonoscopia. Como alternativa não invasiva, existe a cápsula endoscópica. Esta elimina os riscos de sedação, é confortável para o doente e permite a avaliação do intestino delgado, uma região de difícil acesso pelos métodos tradicionais. No entanto, esta técnica apresenta limitações, incluindo longos tempos de revisão, localização precisa difícil e baixa qualidade de imagem. Para resolver estes problemas, técnicas de aprendizagem profunda têm sido recentemente utilizadas, focando na classificação de anomalias e/ou localização da cápsula no trato gastrointestinal.Dentro deste domínio, esta tese visa explorar a capacidade de generalização de modelos de aprendizagem profunda no processo de identificação da localização de lesões utilizando imagens da cápsula endoscópica. Para atingir este objetivo, as arquitecturas AlexNet, InceptionV3 e ResNet-152 foram treinadas exclusivamente em frames normais e posteriormente testadas em frames com lesões. As frames foram obtidas a partir dos datasets open-source KID e Kvasir-Capsule. Foram avaliadas as representações RGB e em escala de cinzentos, e foram realizadas experiências com imagens completas e patches.Os resultados mostram que a capacidade de generalização dos modelos para a localização de lesões não é tão forte como a sua capacidade para a localização de frames normais, sendo o colon o órgão mais difícil de identificar. Ainda assim, uma sensibilidade de 0,73, uma especificidade de 0,81, uma precisão de 0,58, uma exatidão de 0,83 e um F1-Score de 0,61 foram o melhor desempenho alcançado. Tal mostra que os modelos foram capazes de identificar o órgão de uma determinada frame anómala sem exposição prévia a anomalias, sugerindo que, até certo ponto, frames normais e anómalas estão relacionadas e têm padrões comuns. Estudos adicionais são necessários para explorar este aspeto mais detalhadamente. Novas direções de investigação podem incluir a exploração de outras arquitecturas com mecanismos de atenção, a utilização de dados de colonoscopia para colmatar a falta de representatividade do cólon e a inclusão de técnicas de pré-processamento de imagem, como o realce de texturas.
Description:	Trabalho de Projeto do Mestrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/116385
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado