Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/102879
Title: Docking based strategies for the validation of deep learning generative models - And the search for novel ligands for A2aR, JAK2, KOR AND USP7.
Other Titles: Estratégias de validação para modelos generativos profundos baseadas em docking - E a busca por novos ligantes para A2aR, JAK2, KOR AND USP7.
Authors: Avila, Henrique de Vasconcellos
Orientador: Abbasi, Maryam
Pires, Paula Cristina Veríssimo
Keywords: Avaliação de modelos; Desenho de Fármacos; Docking Molecular; Modelos Generativos Profundos; Simulação de Dinâmica Molecular; Benchmaking; Deep Generative models; Drug Design; Molecular Docking; Molecular Dynamics Simulation
Issue Date: 30-Sep-2022
Serial title, monograph or event: Docking based strategies for the validation of deep learning generative models - And the search for novel ligands for A2aR, JAK2, KOR AND USP7.
Place of publication or event: LARN, Universidade de Coimbra, CISUC, Departamento de engenharia informática, Coimbra, Portugal
Abstract: Drug discovery is a highly time-consuming, complex, and expensive process with low success rates. Recent estimates point out that an average of $1.8 billion and twelve years of work are required to launch a new drug. This state of affairs is partly due to how high-dimensional the chemical space is, as it has been estimated to include between 10^33 and 10^60 synthetically accessible molecules. Evaluating the entire chemical space is prohibitively expensive, so it is of the utmost importance to find ways of narrowing down the search space. To this goal, artificial intelligence has recently been incorporated into drug discovery in many forms; among them, deep generative models have shown great potential for producing putative drug candidates. Even so, this technology is still in its infancy and possesses some fundamental flaws; for instance, these models hardly ever account for tridimensional molecular information or are validated through life-like methods. This work aims to help this process with the provided molecular docking-based validation system for deep learning generative models, bridging their bountiful potential with drug discovery. The screening methodology was tested through analyses of case studies of four high-interest pharmacologic targets (A2aR, JAK2, KOR, and USP7). It consisted of three stages: crystal structures and docking tools assessment, molecule screening testing and application, and validation through molecular dynamics simulation. In these experiments, Autodock Fr and VINA demonstrated the highest performance on both accurately predicting molecular interaction and cross-docking. In the second stage, the exponential consensus scoring technique was evaluated, compared to other predictive standards, and displayed high acuity, correctly placing over 85% of the positive controls within very strict margins (5%); it was subsequently, applied to sets of molecules produced by deep machine learning for computer-aided drug design. In validation, a clear difference in ligand-receptor stability between the best and worst scoring molecules of the previous stage was demonstrated, indicating the reliability of the proposed methodology.It was also observed that, although the standard setup can be somewhat lengthy, the tests of subsequent generative models can be done in a far reduced time span, as the resulting data of multiple steps can simply be reused. Moreover, this method is non-redundant when compared to other traditional metrics, including logP and drug-likeness, and can be used in conjunction with these for further evaluation. Also, the data generated by this method can be used as feedback for generative models, potentially aiding in their training and increasing the quality of the molecules generated.
A descoberta de medicamentos é um processo altamente demorado, complexo e caro, com baixas taxas de sucesso. Estimativas recentes apontam que para lançar um novo medicamento são necessários, em média, US$ 1,8 mil milhões e doze anos de trabalho. Essa situação se deve em parte à alta dimensionalidade do espaço químico, que estima-se incluir entre 10^33 e 10^60 moléculas sinteticamente acessíveis. Avaliar todo o espaço químico é proibitivamente caro, sendo, portanto, de extrema importância encontrar maneiras de restringir o âmbito de busca. Para tal, a inteligência artificial foi recentemente de várias maneiras incorporada na descoberta de medicamentos; dentre elas, modelos generativos profundos têm mostrado grande potencial para produzir possíveis candidatos a fármacos. Apesar disso, esta tecnologia ainda está em sua infância e possui algumas falhas fundamentais; por exemplo, tais modelos dificilmente levam em conta informações sobre configurações tridimensionais moleculares ou são validados por métodos realistas. Este trabalho visa ajudar tal processo com proposto o sistema de validação baseado em docking molecular para modelos generativos de aprendizado profundo, conectando seu vasto potencial à pesquisa de medicamentos. A metodologia de triagem foi testada por meio de análises de estudos de caso de quatro alvos farmacológicos de alto interesse (A2aR, JAK2, KOR e USP7) e consistiu em três etapas: avaliação de estruturas cristalográficas e ferramentas de docking, e teste e aplicação de triagem de moléculas e validação por meio de simulação de dinâmica molecular. Nesses experimentos, Autodock Fr e Vina demonstraram o mais alto desempenho tanto na previsão precisa da interação molecular quanto no cross-docking. Na segunda etapa, a técnica de consenso de pontuação exponencial foi avaliada, comparada a outros padrões preditivos, e apresentou alta acuidade, posicionando corretamente mais de 85% dos controles positivos dentro de margens muito restritas (5%); a metodologia foi posteriormente aplicada a conjuntos de moléculas produzidas por modelos generativos profundos para design de medicamentos. Na validação, foi demonstrada uma clara diferença na estabilidade ligante-receptor entre as moléculas de melhor e pior pontuação da etapa anterior, indicando a confiabilidade da metodologia proposta.Observou-se também que, embora a configuração padrão possa ser um pouco demorada, os testes de modelos generativos subsequentes podem ser feitos em um intervalo de tempo muito reduzido, pois os dados resultantes de várias etapas podem ser simplesmente reutilizados. Além disso, este método não é redundante quando comparado a outras métricas tradicionais, incluindo logP e drug-likeness, e pode ser usado em conjunto com estas para posterior avaliação. Os dados gerados por este método podem também ser usados como feedback para modelos generativos, auxiliando potencialmente em seu treinamento e aumentando a qualidade das moléculas geradas.
Description: Dissertação de Mestrado em Bioquímica apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/102879
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
2022_Thesis_MSc_HenriqueAvila.pdf22.42 MBAdobe PDFView/Open
Show full item record

Page view(s)

97
checked on Apr 23, 2024

Download(s)

60
checked on Apr 23, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons