Please use this identifier to cite or link to this item: http://hdl.handle.net/10316/96096
Title: Drug Discovery with Generative Adversarial Networks
Other Titles: Drug Discovery with Generative Adversarial Networks
Authors: Santos, Beatriz de Jesus Pereira
Orientador: Ribeiro, Bernardete Martins
Arrais, Joel Perdiz
Keywords: Deep Learning; Geração de Novos Fármacos; Generative Adversarial Networks; Recurrent Neural Networks; SMILES; Deep Learning; Drug Design; Generative Adversarial Networks; Recurrent Neural Networks; SMILES
Issue Date: 16-Sep-2021
Serial title, monograph or event: Drug Discovery with Generative Adversarial Networks
Place of publication or event: CISUC
Abstract: A descoberta de novos fármacos é um processo extremamente demorado, complexo, dispendioso e que apresenta taxas de sucesso muito baixas que podem ser atribuídas à elevada dimensionalidade do espaço químico. Estudar e avaliar o espaço químico de forma integral é simplesmente imprativável pelo que é importante encontrar novas formas de restringir o espaço de pesquisa. A utilização de algoritmos de Deep Learning tem surgido como uma possível solução para mitigar os problemas acima mencionados já que diminuem consideravelmente o tempo dispendido e, por conseguinte, as despesas associadas a todo o processo. As redes neuronais recorrentes (RNNs) e adversariais generativas (GANs) encontram-se entre os métodos mais promissores no que se refere à geração de novos potenciais fármacos.O trabalho desenvolvido deu origem a duas contribuições independentes. Foi efetuado um estudo extensivo das arquiteturas e parâmetros associados às redes recorrentes do qual resultou um modelo otimizado capaz de gerar até 98.7% de moléculas válidas mantendo elevados níveis de diversidade.Este estudo permitiu ainda demonstrar que a informação estereoquímica, que é de extrema importância no desenvolvimento de fármacos mas frequentemente ignorada, pode ser incluída nestes modelos computacionais com elevado sucesso.Para além disso, foi desenvolvida uma estratégia baseada em GANs que inclui uma componente de otimização. Este método é composto por duas técnicas de Deep Learning: um modelo Encoder-Decoder responsável por converter as moléculas em vetores do espaço latente, criando, desta forma, um novo tipo de representação molecular; e uma GAN com a capacidade de aprender e replicar a distribuição dos dados de treino para, posteriormente, gerar novos compostos. De modo a gerar moléculas otimizadas para uma determinada característica, a GAN treinada é conectada a um mecanismo de feedback que avalia as moléculas geradas a cada época e substitui os compostos do conjunto de treino que apresentam menor pontuação pelas novas moléculas com propriedades mais desejáveis. Desta forma, a distribuição dos compostos gerados vai-se aproximando sucessivamente do espaço químico de interesse, o que resulta na geração de um maior número de moléculas relevantes para o problema em estudo.
Drug discovery is a highly time-consuming, complex, and expensive process with low rates of success that can be mainly attributed to the high dimensionality of the chemical space. Evaluating the entire chemical space is prohibitively expensive, so it is of the utmost importance to find ways of narrowing down the search space. Deep Learning algorithms are emerging as a potential method to generate novel chemical structures since they can speed up the traditional process and decrease expenditure.Recurrent Neural networks (RNNs) and Generative Adversarial Networks (GANs) are two of the most promising methods for generating drug-like molecules from scratch.The proposed work resulted in two independent contributions. A comprehensive study on RNNs' architectures and parameters that resulted in an optimized model capable of generating up to 98.7% of valid non-specific drug-like molecules while maintaining high levels of diversity. This work also proved that stereo-chemical information, often overlooked in most works, can be successfully incorporated and learned by these models.Furthermore, a novel GAN-based framework that includes an optimization stage was developed. This approach incorporates two deep learning techniques: an Encoder-Decoder model that converts the string notations of molecules into latent space vectors, effectively creating a new type of molecular representation, and a GAN that is able to learn and replicate the training data distribution and, therefore, generate new compounds. In order to generate compounds with bespoken properties and once the GAN is replicating the chemical space, a feedback loop is incorporated that evaluates the generated molecules according to the desired property at every epoch of training and replaces the worst scoring entries in the training data by the best scoring generated molecules. This ensures a slow but steady shift of the generated distribution towards the space of the targeted property resulting in the generation of molecules that exhibit the desired characteristics.
Description: Dissertação de Mestrado Integrado em Engenharia Biomédica apresentada à Faculdade de Ciências e Tecnologia
URI: http://hdl.handle.net/10316/96096
Rights: embargoedAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat Login
2021_Thesis_MSc_BeatrizSantos.pdf10.06 MBAdobe PDFEmbargo Access    Request a copy
Show full item record

Page view(s)

23
checked on Nov 25, 2021

Download(s)

6
checked on Nov 25, 2021

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons