Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110354
Title: Generative models for synthesis of artificial human genomes using GWAS summary statistics
Other Titles: Generative models for synthesis of artificial human genomes using GWAS summary statistics
Authors: Carlos, Elmer Jorge Inácio
Orientador: Arrais, Joel Perdiz
Keywords: Aprendizagem profunda; Modelos Generativos; Redes Generativas Adversarias; Estudo de associação do genoma completo; Coorte caso-controlo; Deep Learning; Generative Models; Generative Adversarial Networks; Genome-wide Association Studies; Case-Control Cohorts
Issue Date: 29-Sep-2023
Serial title, monograph or event: Generative models for synthesis of artificial human genomes using GWAS summary statistics
Place of publication or event: Universidade de Coimbra
Abstract: A geração de genótipos é uma tarefa importante na pesquisa genética, oferecendo oportunidades para aumento de dados e preservação da privacidade em Estudos de associação do genoma completo (GWAS). Neste trabalho, propusemos um framework de Rede Generativa Adversaria de Wasserstein com Penalidade de Gradiente (WGAN-GP) para sintetizar dados de genótipos realistas. Nossa abordagem consistiu em duas etapas separadas: um processo de pré-treino auto-supervisionado e o processo de treinamento do WGAN-GP. Ao longo do processo de pré-treino, o gerador atua como um modelo semelhante a um decodificador, mapeando as estatísticas genéticas de baixa dimensão para os genótipos originais. Esse processo serve como uma forte inicialização para o subsequente processo de treinamento do WGAN-GP, onde o objetivo é fazer o gerador aprender a sintetizar genótipos diversos e realistas. Os resultados de nosso framework proposto, auxiliado pelas informações codificadas nas estatísticas genéticas de resumo, demonstram resultados favoráveis, destacando valores promissores de estatísticas genéticas e utilidade dos dados sintéticos. No entanto, as diversas discrepâncias observadas nos gráficos de Análise de Componentes Principais (PCA) e a divergência na validação apontam para várias áreas de melhoria futura. Planeamos melhorar ainda mais a eficácia e aplicabilidade da geração de genótipos sintéticos do modelo, explorando a geração multimodal e o melhoramento do desempenho do pré-treinamento. Com essa abordagem baseada em aprendizagem profunda, expandimos os limites da geração de genótipos sintéticos e impulsionamos o progresso da pesquisa genética.
Genotype generation is an useful complement for genetic research, which offers opportunities for data augmentation and privacy preservation of Genome-Wide Association Studies (GWAS). With this study, we proposed a Wasserstein Generative Adversarial Network with Gradient Penalty (WGAN-GP) framework for synthesizing realistic genotype data. Our approach consisted of two separate steps: a self-supervised pretraining process and the WGAN-GP training process. Throughout the pretraining process the generator acts like a decoder-like model, mapping the lower dimensional summary statistics to the original genotype data. This process serves as a strong initialization for the subsequent WGAN-GP training process, where the goal is to make the generator learn to synthetize diverse and realistic genotypes. The results of our proposed framework aided with the information encoded in the summary statistics file demonstrate favourable outcomes, highlighting promising genetic statistics values and utility of the synthetic data. Nevertheless, the various discrepancies observed with the principal component analysis (PCA) plots and divergence in validation hints towards multiple future areas of improvement. We aim to further advance the model's synthetics genome generation efficacy and applicability, by exploring multi-modal generation and fine-tuning pretraining. With this Deep learning based approach, we push the boundaries of synthetic genotype generation and foster the progress of genetic research.
Description: Dissertação de Mestrado em Biologia Computacional apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/110354
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File SizeFormat
2023_Thesis_MSc_Elmer.pdf3.95 MBAdobe PDFView/Open
Show full item record

Page view(s)

82
checked on Jul 17, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons