Neural networks for 2D representations of cell expression

Cunha, Adriana Monteiro e

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/93918

Título:	Neural networks for 2D representations of cell expression
Outros títulos:	Redes neuronais para representações 2D de expressão genética
Autor:	Cunha, Adriana Monteiro e
Orientador:	Arrais, Joel Perdiz
Palavras-chave:	Redução De Features; Expressão Genética; Autoencoder; Aprendizagem Supervisionada; Visualização De Dados; Feature Reduction; Gene Expression Profiling; Autoencoder; Supervised Learning; Data Visualisation
Data:	23-Nov-2020
Título da revista, periódico, livro ou evento:	Neural networks for 2D representations of cell expression
Local de edição ou do evento:	CISUC
Resumo:	The recent advances in transcriptome sequencing technologies lead to the increase of gene expression studies, with significant impact in the fields of cellular biology and medicine. Typically, the work developed based on this type of data resorts to feature reduction techniques to combat the problems risen by the curse of dimensionality and from data extraction (such as dropout events, noise, etc.), especially in projects involving classification tasks. This dissertation presents a novel dimensionality reduction model inspired by deep neural networks, the Supervised Autoencoder, which combines the architecture of traditional autoencoders with a SoftMax classification layer, so the latent space maximizes different classes’ separability. To account for the recurring dropout events in this type of datasets, a Dropout layer was implemented during training, improving the model’s robustness. The present study focuses particularly on two-dimensional reductions to ease the information’s visualisation. In addition to an analysis of the effect of label usage in the feature reduction process (prior to potential classification tasks), the possibility of inferring new similarity patterns between samples through the latent space was explored.The model was validated with three datasets, comparing its results with those of Principal Component Analysis and the equivalent simple autoencoder, as well as by analysing the heatmap of the complete gene expression clustered based on the engineered features. The results show the model is capable of meaningful representations of the original data that ease the classification task compared to the ones resultant of state-of-the-art techniques. However, it is not possible to draw new parallels between samples based on those features. Os recentes avanços nas tecnologias de sequenciação do transcriptoma humano levaram ao aumento de estudos baseados em dados de expressão genética, com notável impacto nas áreas da biologia e medicina. Tipicamente, o trabalho desenvolvido com base neste tipo de informação recorre a técnicas de redução de features para combater os problemas que advêm da curse of dimensionality e associados à extração de dados de expressão (como eventos de dropout, ruído, etc.), sobretudo em projetos com tarefas de classificação.Nesta dissertação apresenta-se um modelo de redução de dimensionalidade inspirado em redes neuronais, o Autoencoder Supervisionado, que acopla a arquitetura tradicional de autoencoders com uma camada de classificação SoftMax, para que as representações no espaço latente maximizem a separabilidade entre diferentes classes. De forma a considerar os recorrentes eventos dropout neste tipo de dados, foi usada uma camada Dropout na fase de treino, conferindo maior robustez ao modelo. O estudo em causa foca-se em particular em reduções para duas dimensões, de forma a facilitar a visualização gráfica de informação. Além da análise do efeito da contabilização de classes no processo de redução de features (a priori de potenciais tarefas de classificação), explorou-se a possibilidade de o espaço latente obtido permitir aferir novos padrões de semelhança entre amostras.O modelo foi validado usando três conjuntos de dados, comparando os seus resultados com os obtidos através de Principal Component Analysis e do autoencoder simples equivalente, bem como através da análise do mapa de calor dos dados completos de expressão genética agrupados através do clustering hierárquico das features reduzidas.Os resultados mostram que o modelo é capaz de gerar representações adequadas dos dados originais, que permitem facilitar a tarefa de classificação quando comparadas com as resultantes das técnicas estado-da-arte. No entanto, não foi possível utilizá-las para estabelecer novos paralelos entre amostras.
Descrição:	Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/93918
Direitos:	openAccess
Aparece nas coleções:	UC - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
tese final.pdf		2.24 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo

Visualizações de página

118

Visto em 16/abr/2024

Downloads

84

Visto em 16/abr/2024

Google Scholar^TM

Verificar

Este registo está protegido por Licença Creative Commons

Ficheiros deste registo:

Visualizações de página

Downloads

Google ScholarTM

Google Scholar^TM