Deep-Learning Application to in silico Drug Design

Gomes, António José Preto Martins

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/114365

Title:	Deep-Learning Application to in silico Drug Design
Other Titles:	Deep-Learning Application to in silico Drug Design
Authors:	Gomes, António José Preto Martins
Orientador:	Bonvin, Alexandre Moreira, Irina de Sousa
Keywords:	Aprendizagem automática; Aprendizagem profunda; Desenho de fármacos; Inteligência Artificial; Proteínas; Artificial Intelligence; Deep Learning; Drug Design; Machine Learning; Proteins
Issue Date:	4-Apr-2023
Project:	info:eu-repo/grantAgreement/FCT/POR_CENTRO/SFRH/BD/144966/2019/PT
Serial title, monograph or event:	Deep-Learning Application to in silico Drug Design
Place of publication or event:	Instituto de Investigação Interdisciplinar da Universidade de Coimbra
Abstract:	Tem havido um aumento significativo no investimento e contribuição de ferramentas computacionais para a descoberta de fármacos. A aprendizagem automática tem esculpido um lugar confortável no campo, com particular destaque para o conjunto específico de ferramentas que é a aprendizagem profunda. A sua utilização tem-se mostrado capaz de reduzir custos, acelerar o processo entre o desenho e a produção e limitar o erro humano. De facto, técnicas centradas nos dados têm sido utilizadas para propulsionar muitos passos no processo de desenvolvimento de fármacos. Iterativamente, isto gera nova informação que pode ser reciclada para melhorar soluções já existentes ou permitir o aparecimento de novas.Uma componente da investigação em desenvolvimento de fármacos foca-se em perceber e modular os componentes moleculares que são alvos dos fármacos. Comummente, estes são proteínas. As proteínas frequentemente contêm aminoácidos específicos que são particularmente propícios a manter a estrutura e função – Hot-Spots (HS). Devido à sua contribuição para o desempenho dos principais papéis proteicos, os HS assumem o cargo adicional de se tornarem localizações privilegiadas para a ligação dos fármacos. Uma parte deste trabalho descreve o SPOTONE, uma ferramenta de previsão de HS a partir, somente, de informação de sequência com elevado desempenho num conjunto de dados independente (accuracy = 0.82, AUROC=0.83, precision=0.91, recall=0.82 e F1-score=0.85).Embora sejam os alvos farmacológicos mais comuns, as proteínas variam em muitos aspetos, tais como a constituição, a localização e a função. Um conjunto de proteínas destaca-se como sendo de particular interesse para o desenho de fármacos, devido à sua função e especificidade. As proteínas membranares são mediadoras entre o ambiente interno e externo à célula. Como tal, são as guardiãs que permitem a comunicação entre estímulos externos e o funcionamento celular. O MENSAdb caracteriza um vasto conjunto de proteínas membranares, apresentando dímeros manualmente processados para informação útil, tornando-a disponível para consulta.Outros componentes vastamente abordados na investigação de desenho de fármacos são, sem surpresas, os fármacos. Habitualmente moléculas, idealmente os fármacos interagem especificamente com alvos únicos, limitando a sua interação com outras moléculas biológicas. O DrugTax é uma ferramenta, implementada e distribuída como ferramenta de Python, que foi desenvolvida para facilitar a interpretação de dados de pequenas moléculas. O DrugTax possibilita a caracterização de taxonomia química para obter descritores farmacológicos explicáveis. Adicionalmente, permite análise simultânea de múltiplos compostos para visualização e aprendizagem automática.A caracterização de alvos e fármacos é necessária para a maior parte das tarefas finais no processo de desenho de fármacos, tais como a previsão de interação entre fármacos e alvos, a previsão de reposta a fármacos e a previsão de resposta a combinação de fármacos. A última tem ganho particular interesse sob a forma de previsão de sinergia de combinações de fármacos em linhas celulares de cancro. Este interesse justifica-se pela natureza da doença e dos seus alvos, visto que os perfis de cancro podem variar abundantemente em diversos fatores como tecido, indivíduo, entre outros. Por este motivo, para fazer frente ao cancro é necessário desenvolver soluções flexíveis que possam ser adaptadas e otimizadas para cada caso. A sinergia de combinação de fármacos permite isto, pois, ao administrar doses menores dos mesmos fármacos e obter resultados semelhantes ou melhores, permite diminuir a probabilidade de resistência farmacológica e, dessa forma, aumentar a probabilidade de sucesso. O SYNPRED é um conjunto de previsores para previsão de sinergia de combinações de fármacos em linhas celulares. O SYNPRED foi desenvolvido considerado cinco modelos de sinergia de referência, um esquema de validação especificamente desenhado para o efeito e os métodos de aprendizagem automática e profunda mais atuais. O modelo de previsão do SYNPRED com melhor desempenho tenta prever o Combination Sensitivity Score (RMSE, 11.07; MSE, 122.61; Pearson, 0.86; MAE, 7.43; Spearman, 0.87).Em resumo, ao longo deste trabalho fizeram-se diversos avanços em secções distintas do processo de desenho de fármacos. O presente trabalho resultou em 8 publicações científicas indexadas (5 artigos de investigação original, 1 base de dados e 2 artigos de revisão sob a forma de capítulos de livro), 5 repositórios de GitHub, 3 websites e 1 biblioteca de Python de distribuição gratuita. There has been a significant investment and contribution increase from computational tools to drug discovery pipelines. Machine Learning (ML) has carved a comfortable spot in the field, with a particular highlight for the specific set of tools that is Deep Learning (DL). Their utilization has proven to reduce costs, speed up time from design to production and limit human error. In fact, data-centric techniques have been used to boost many steps of the drug design pipeline. Iteratively, this generates new information that can be recycled into improving already existing solutions or allowing the sprout of new ones.One part of drug design research is heavily focused on understanding and modulating the molecular components targeted by the drugs. Most commonly, these are proteins. Proteins often feature specific amino acids that are particularly adept at maintaining protein structure and function - HotSpots (HS). For their key contribution to proteins’ main roles, HS take on the additional burden of becoming optimal drug binding locations. A part of this work describes SPOTONE, a state-of-theart freely available HS prediction tool from sequence-only information with accuracy, AUROC, precision, recall and F1-score of 0.82, 0.83, 0.91, 0.82 and 0.85, respectively, on an independent testing set.Although the most common drug targets, proteins vary widely in many regards, such as constitution, location, and function. One set of proteins stands out as particularly interesting for drug design, due to their role and specificity. Membrane Proteins (MP) are mediators between the cell inner and outer environment, as such, they are gatekeepers between external stimuli and cellular functioning. MENSAdb characterises a wide array of MPs, manually curating MP dimers into useful information, making it available for easy consultation.Other components heavily focused in drug design research are, non-surprisingly, the drugs. Most commonly small molecules, ideally drugs interact specifically with single targets, limiting their interactions with other biological molecules. DrugTax is a tool, implemented and distributed as a Python package, that was developed to facilitate interpretable small molecule data. DrugTax explores chemical taxonomical characterization to deliver explainable drug features. Furthermore, it allows bulk analysis for visualization and ML purposes.Target and drug characterisation are required for most end-goal drug design tasks, such as Drug-Target Interaction (DTI) prediction, drug response prediction and drug combination response prediction. The latter has gained particular interest as drug combination synergy prediction in cancer cell lines. This added focus traces back to the nature of the disease and its targets, as cancer profiles vary widely among several factors such as tissue, individual, among others. For this reason, to tackle cancer it is necessary to develop flexible solutions that can be adapted and tuned for each case. Drug combination synergy is a venue that allows this, since by delivering smaller dosages of the same drugs and achieving the same or better results, it diminishes the likeliness of drug resistance and thus increases the probability of success. SYNPRED is a set of predictors for drug combination synergy in cancer cell lines. SYNPRED was developed considering five different synergy reference models, a problem-tailored validation scheme and the most state-of-the-art ML and DL methods. The best-performing prediction model in SYNPRED targets the Combination Sensitivity Score (RMSE, 11.07; MSE, 122.61; Pearson, 0.86; MAE, 7.43; Spearman, 0.87).In sum, throughout this work, several advances were made regarding the different sections of the drug design pipeline. The present work resulted in 8 indexed scientific publications (5 original research papers, 1 database and 2 reviews in the form of book chapters), 5 GitHub repositories, 3 websites and 1 freely distributed Python package.
Description:	Tese de Doutoramento em Biologia Experimental e Biomedicina apresentada ao Instituto de Investigação Interdisciplinar
URI:	https://hdl.handle.net/10316/114365
Rights:	openAccess
Appears in Collections:	UC - Teses de Doutoramento