Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/102995
Título: Aumento Sintético de Dados para Datasets Biológicos
Outros títulos: Synthetic Data Augmentation for Biological Datasets
Autor: Silva, Beatriz Rodrigues Moreira da
Orientador: Lourenço, Nuno António Marques
Palavras-chave: Machine Learning; Biologia; Generative Adversarial Networks; Variational Autoencoders; Dados Tabulares; Machine Learning; Biology; Generative Adversarial Networks; Variational Autoencoders; Tabular Data
Data: 21-Set-2022
Projeto: info:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDP/00326/2020/PT
Título da revista, periódico, livro ou evento: Aumento Sintético de Dados para Datasets Biológicos
Local de edição ou do evento: DEI-FCTUC
Resumo: The pursuit of understanding biological systems, along with their role in health and disease,has driven the life sciences research in the last two centuries. However biological andbiochemical research is very challenging due to the high complexity of biological systems,where thousands of molecules interplay in non-linear ways to orchestrate all the intercellularand intracellular communications occurring in each individual.Fortunately, with the proven success of Artificial Intelligence (AI) in many other areas e.g.,recommender systems, music generation, text translation, and automatic driving, MachineLearning (ML) based decision-making models started to become ubiquitous in the lifesciencedomain as well. However, there is a big difference between applications in biologicaldata and the first ones - the amount of data. Depending on the target domain and theexperimental design, the acquisition of biological data may have several reservations(economic, lack of samples, lack of time, or ethical issues), which ultimately leads to a smalldata size situation, complicating the extraction of viable information.Although the number of biological samples may be immutable, the generation of syntheticdata can compensate for the small size of the data. In this work we propose a frameworkinspired by recent literature, to develop new techniques to augment various biologicaldatasets. TVAE, the Variational Autoencoder exploited in our framework, managed tocapture the most important features of our data and produce entire datasets that exhibitedthe same properties as the original data. The generative models were evaluated in 2 phases,in the first phase the selection of the best possible generative models was made, and in thesecond phase these were applied to real-world biological datasets.In the first phase, the models achieved good results, such as similarities of 92% for datasetsthat contained only 100 samples, and utility values that surpassed the original performancesby 4%. When applied to biological datasets, the models presented equally satisfactoryresults, with similarities from 92% to 100% and utilities that managed to exceed the originalvalues also up to 4% more than the original values.
A busca pela compreensão dos sistemas biológicos, juntamente com seu papel na saúde e nadoença, impulsionou a pesquisa das ciências da vida nos últimos dois séculos. No entanto, apesquisa biológica e bioquímica é muito desafiadora devido à alta complexidade dossistemas biológicos, onde milhares de moléculas interagem de maneira não linear paraorquestrar todas as comunicações intercelulares e intracelulares que ocorrem em cadaindivíduo.Felizmente, com o sucesso comprovado da Inteligência Artificial em muitas outras áreas (porexemplo, sistemas de recomendação, geração de música, tradução de texto e conduçãoautomática), os modelos de tomada de decisão baseados em Machine Learning começaram atornar-se omnipresentes no domínio das ciências da vida também. No entanto, existe umagrande diferença entre as aplicações onde a Inteligência Artificial é normalmente aplicada ea área das ciências da vida - a quantidade de dados. Dependendo do domínio-alvo e dodesenho experimental, a aquisição de dados biológicos pode ter várias restrições(económicas, falta de amostras, falta de tempo ou questões éticas) que acabam por levar umasituação de poucos dados, tornando difícil a utilização de modelos de Machine Learning.Embora o número de amostras biológicas possa ser imutável, a geração de dados sintéticospode compensar o pequeno tamanho dos dados. Neste trabalho propomos um frameworkinspirada na literatura recente, para desenvolver novas técnicas para aumentar váriosconjuntos de dados biológicos. O TVAE, o Variational Autoencoder explorado na nossaframework, conseguiu capturar característica mais importantes dos nossos dados e produzirdatasets inteiros que exibiam as mesmas propriedades dos dados originais. Os modelosgenerativos foram avaliados em 2 fases, na primeira fase foi feita a seleção dos melhoresmodelos generativos possíveis, e na segunda fase estes foram aplicados a datasets biológicosdo mundo real.Na primeira fase os modelos alcançaram bons resultados, tais como similaridades de 92%para datasets que continham apenas 100 amostras, e valores de utilidade que superaram asperformances originais em 4%. Quando aplicados a datasets biológicos os modelosapresentaram resultados igualmente satisfatórios, com similaridades de 92% até 100% eutilidades que conseguiram ultrapassar os valores originais também até 4% mais que osvalores originais.
Descrição: Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/102995
Direitos: openAccess
Aparece nas coleções:UC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato
Cover Tese-mesclado.pdf1.81 MBAdobe PDFVer/Abrir
Mostrar registo em formato completo

Visualizações de página

106
Visto em 16/jul/2024

Downloads

60
Visto em 16/jul/2024

Google ScholarTM

Verificar


Este registo está protegido por Licença Creative Commons Creative Commons