Multi-Objective Deep Reinforcement Learning in Drug Discovery

Pereira, Tiago Oliveira

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/92570

Title:	Multi-Objective Deep Reinforcement Learning in Drug Discovery
Other Titles:	Aprendizado multi-objetivo de reforço profundo na descoberta de medicamentos
Authors:	Pereira, Tiago Oliveira
Orientador:	Arrais, Joel Perdiz Abbasi, Maryam
Keywords:	Design de fármacos; Aprendizagem por reforço; SMILES; Redes neuronais recorrentes; Otimização multi-objetivo; Drug Design; Reinforcement Learning; SMILES; Recurrent neural networks; Multi-objective Optimization
Issue Date:	22-Jul-2020
Serial title, monograph or event:	Multi-Objective Deep Reinforcement Learning in Drug Discovery
Place of publication or event:	CISUC
Abstract:	O longo período de tempo, os enormes custos financeiros inerentes à introdução de um novo medicamento no mercado e a incerteza em relação à possibilidade de este vir a ser ou não aceite pelas autoridades responsáveis são claros obstáculos ao desenvolvimento de novos fármacos. A aplicação de técnicas de aprendizagem profunda em fases precoces do processo de descoberta de fármacos pode contribuir para facilitar a identificação de potenciais fármacos com propriedades biológicas promissoras. Nesse sentido, ao utilizar métodos computacionais, é possível reduzir o enorme espaço de pesquisa de possíveis fármacos e minimizar os problemas inerentes às fases subsequentes do processo. Não obstante, a maioria dos estudos que aplicam estas técnicas têm-se focado na otimização de apenas uma propriedade específica das moléculas, o que é insuficiente para o desenvolvimento de fármacos, uma vez que este é um problema que requer uma solução mais abrangente.Este trabalho propõe uma estratégia para a geração orientada de moléculas com o intuito de otimizar propriedades biológicas e físico-químicas. O propósito é gerar um conjunto promissor de moléculas que consigam desempenhar a função biológica desejada e ter efeitos inócuos para o organismo, para posteriormente ser investigada a possibilidade de encontrar possíveis fármacos. O modelo gerador computacional foi conseguido através da implementação de uma rede neuronal recorrente, por sua vez, contendo células de memória de longa duração. Este modelo foi treinado para aprender as regras fundamentais de construção de moléculas através de SMILES. O modelo gerador é depois treinado novamente através de aprendizagem por reforço para produzir moléculas com propriedades previamente determinadas. Para avaliar as novas moléculas geradas, é implementado um modelo regressivo que relaciona matematicamente a estrutura das moléculas com a sua atividade biológica em estudo. A novidade introduzida neste trabalho é a estratégia exploratória que garante, durante o processo de treino, um compromisso entre a necessidade de descobrir todo o espaço químico mais detalhadamente e a necessidade de utilizar a informação previamente aprendida para a construção de moléculas que otimizem a propriedade em estudo. Para demonstrar a eficácia deste método, o modelo gerador foi modificado para abordar objetivos individuais como, por exemplo, a afinidade da ligação entre o fármaco-recetor, e a estimativa quantitativa de um conjunto de propriedades típicas de fármacos. Os resultados demonstram a versatilidade do modelo uma vez que este garante a otimização de diferentes propriedades, mantendo as percentagens de diversidade e validade química nas moléculas geradas a níveis aceitáveis. Para além disso, o modelo gerador foi posteriormente melhorado através do seu alargamento à otimização simultânea de mais do que uma propriedade. Para fazer isso, foram exploradas diversas técnicas para implementar a otimização multiobjectivo com o intuito de aumentar a aplicabilidade dos novos potenciais fármacos através da otimização das suas propriedades físicas, químicas e biológicas. No contexto de aprendizagem por reforço, a abordagem geral foi combinar diferentes recompensas num único valor de recompensa. Neste sentido, foram aplicados diferentes métodos de escalarização para obter uma única recompensa que ponderasse os diferentes objetivos. Os resultados mostram que é possível encontrar moléculas que satisfaçam ambas as propriedades e, simultaneamente, com percentagens de validade a rondar os 90\%. The long period of time, the enormous financial cost of bringing a new drug into the market, and the uncertainty about whether it will be accepted by the responsible authorities are clear obstacles to the development of new drugs. Applying deep learning techniques in the early stages of the drug discovery process can contribute to facilitating the identification of drug candidates with interesting biological properties. On that account, by employing computational methods, it is possible to reduce the enormous research space for drug-like compounds and minimize all the inherent issues. Nevertheless, most studies that employ these techniques focus on optimizing a specific molecule property, which is scarce for drug development, since this is a problem that requires a more far-reaching solution.This work proposes a framework for the targeted generation of molecules designed to optimize biological and psychochemical properties. The purpose is to create a promising set of molecules that can perform the desired function and have harmless effects for the organism to be further researched as candidate drugs.The artificial intelligence generative model was achieved by implementing a recurrent neural network, containing long short-term memory cells. This model was trained to learn the building rules of valid molecules in terms of SMILES strings. The generator model is then re-trained through reinforcement learning to produce molecules with bespoke properties. To evaluate the newly generated molecules, a structure-activity relationship model is implemented in order to map the molecular structure to the desired biological property. The novelty of this approach is the exploratory strategy that ensures, throughout the training process, a compromise between the need to discover in more detail the entire chemical space and the need to use the already learned information in the construction of molecules that guarantee the optimization of the property in study. To demonstrate the effectiveness of the method, the generator model was biased to address single-objectives, such as the drug-target binding affinity or the quantitative estimate of drug-likeness property. The results show the versatility of the proposed model since it guaranteed the optimization of different properties while maintaining the percentages of generated molecules diversity and validity at acceptable levels. Furthermore, we improve the generative model by expanding this framework to optimize more than one objective. To do that, different techniques to implement multi-objective optimization were explored. The goal was to increase the applicability of new potential drugs through the optimization of physical, chemical and biological properties. Our general approach combines different rewards into a single reward. Different scalarization methods were applied to have a unique reward that pondered the goodness of objectives. The results demonstrate that it is possible to find molecules that satisfy both proposed objectives and, simultaneously, achieve synthesizability rates of approximately 90\%.
Description:	Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/92570
Rights:	embargoedAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format	Login
Msc_Thesis_Tiago_Pereira.pdf		6.74 MB	Adobe PDF	Embargo Access Request a copy

Show full item record

Page view(s)

233

checked on Oct 8, 2024

Download(s)

16

checked on Oct 8, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM