Epiretinal Membrane Detection and Segmentation using Deep Learning

Mora, Esther Maria Parra

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/114610

Título:	Epiretinal Membrane Detection and Segmentation using Deep Learning
Outros títulos:	Deteção e Segmentação da Membrana Epirretiniana Usando Aprendizagem Profunda
Autor:	Mora, Esther Maria Parra
Orientador:	Cruz, Luís Alberto da Silva
Palavras-chave:	Diagnóstico automático; Aprendizagem profunda; Detecção; Membrana epirretiniana; Segmentação; Automatic diagnostic; Deep learning; Detection; Epiretinal membrane; Segmentation
Data:	3-Nov-2023
Título da revista, periódico, livro ou evento:	Epiretinal Membrane Detection and Segmentation using Deep Learning
Local de edição ou do evento:	DEEC
Resumo:	A tomografia de coerência óptica (OCT) é uma modalidade de imagem da retina sem contato e não invasiva que fornece imagens de alta resolução da estrutura da retina. As imagens de OCT são uma ferramenta essencial para o diagnóstico e acompanhamento do distúrbio da membrana epirretiniana (ERM), uma doença ocular que pode prejudicar a visão central na população idosa. Nesse contexto, esta dissertação apresenta contribuições para a análise automatizada de imagens OCT para detecção e segmentação de ERM usando algoritmos baseados em aprendizagem profunda. O trabalho de investigação desenvolvido no âmbito desta dissertação resultou em três contribuições principais.A primeira contribuição consiste no estudo de métodos para detectar a presença de ERM em b-scans de OCT. Propusemos um classificador baseado em cinco arquiteturas de redes neurais convolucionais (CNN) populares. O problema foi enquadrado como uma tarefa de classificação binária, onde a classe positiva representa a presença de ERM. Otimizamos os hiperparâmetros de treinamento por meio de uma pesquisa em grade. Além disso, devido ao tamanho do conjunto de dados e para reduzir o custo computacional de treinar um modelo a partir de um estado aleatório inicial, os modelos foram projetados usando aprendizagem por transferência de conhecimento. O classificador foi treinado usando um conjunto de dados privado contendo 2160 OCT b-scans de 608 pacientes. Este conjunto de dados incluiu imagens de todos os estágios da doença ERM, em contraste com estudos anteriores que se limitavam ao diagnóstico de ERM em estágio avançado.A segunda contribuição é uma nova arquitetura com requisitos computacionais reduzidos denominada LOCTSeg. Ela foi projetada para segmentação semântica de ERM em b-scans de OCT. A arquitetura proposta foi avaliada usando um conjunto de dados contendo 250 b-scans com anotação de ERM ao nivel dos pixeis. Além disso, a sua eficácia foi demonstrada usando dois conjuntos de dados públicos contendo OCTs com indicação das camadas retinianas e segmentação de lesões fluidas. A LOCTSeg foi comparada com trabalhos anteriores e seis arquiteturas baseadas em redes convolucionais completos (FCN) leves, com availação de desempenho no conjunto de dados ERM, mostrando melhor desempenho de segmentação e menor complexidade computacional que os métodos alternaticos. O modelo LOCTSeg superou ou atingiu o desempenho dos melhores métodos concorrentes quando avaliado nos dois conjuntos de dados públicos, reduzindo drasticamente o número de parâmetros e os tempos de treinamento e inferência.A terceira contribuição toma a forma de métodos para melhorar a velocidade de inferência da segmentação baseada em FCN usando modelos treinados com imagens de resoluções mais baixas para produzir máscaras de segmentação de resolução total. Os métodos foram avaliados usando dois conjuntos de dados OCT b-scan e um conjunto de dados de fotografia do fundo de olho. Os resultados experimentais indicaram que o tempo de inferência pode ser reduzido significativamente usando as abordagens propostas e avaliadas, garantindo un bom compromisso entre o desempenho de segmentação e a velocidade de inferência.No geral, as experiencias documentadas nesta tese demonstram que os métodos propostos melhoram o desempenho do estado da arte na detecção e segmentação de ERM. Além disso, mostramos empiricamente que, dependendo da tarefa, algoritmos de aprendizagem profunda podem produzir resultados efetivos sem a necessidade de arquiteturas grandes e complexas. Optical coherence tomography (OCT) is a non-contact and non-invasive retinal imaging modality that provides high-resolution images for assessing the structure of the retina. OCT images are an essential tool for the diagnosis and follow-up of epiretinal membrane (ERM) disorder, an eye disease that can impair central vision in the elderly population. In this context, this dissertation presents contributions to the automated analysis of OCT images for ERM detection and segmentation using deep learning-based algorithms. The research work carried out within the scope of this dissertation produced three main contributions.The first contribution consists in the study of methods for detecting the presence of ERM in OCT b-scans. We proposed a classifier based on five well-known convolutional neural networks (CNN) architectures. The problem was framed as a binary classification task, where the positive class represents the presence of ERM. We optimized the training hyperparameters through a grid search. Moreover, because of the size of the dataset and to alleviate the computational strain of training a model from an initial random state, the models were designed using transfer learning. The classifier was trained using a private dataset of 2160 OCT b-scans from 608 patients. This dataset included images of all stages of ERM disorder, in contrast to prior studies that were limited to the diagnosis of late-stage ERM. The second contribution is a novel lightweight architecture termed LOCTSeg. It was designed for ERM semantic segmentation in OCT b-scans. The proposed architecture was evaluated using a dataset of 250 b-scans with ERM pixel annotation. Additionally, its effectiveness was demonstrated using two publicly available datasets for retinal layers and fluid lesion segmentation. LOCTSeg was compared with related work and six established lightweight fully convolutional network (FCN)-based architectures. On the ERM dataset it showed improved segmentation performance and lower computational complexity. On the two benchmark datasets, it outperformed or attained the state-of-the-art performance while drastically reducing the number of parameters, inference time, and training complexity.The third contribution compromises methods for improving the inference speed of FCN-based segmentation by using models trained at lower resolutions to produce full-resolution segmentation masks. The methods were evaluated using two OCT b-scan datasets and one fundus photography dataset. The experimental results indicated that the inference time can be reduced by several times using the proposed and evaluated approaches, successfully addressing the segmentation performance - inference speed trade-off.Overall, the experiments documented in this thesis demonstrate that the proposed methods improve state-of-the-art performance. Therefore, these contributions establish a new state-of-the-art in ERM detection and segmentation. In addition, we showed empirically that, depending on the task, deep learning algorithms can produce effective results without the need for large and complex architectures.
Descrição:	Tese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/114610
Direitos:	embargoedAccess
Aparece nas coleções:	UC - Teses de Doutoramento