Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110357
Title: A Deep Learning Approach for Protein-Ligand Binding Motifs Prediction using Sequence Derived Information
Other Titles: Uma Abordagem de Deep Learning para Previsão de Resíduos de Ligação de Proteínas através de Informação de Sequência
Authors: Marques, Ana Catarina Almeida Carregado e Martins
Orientador: Moreira, Irina de Sousa
Keywords: Descoberta de Fármacos; Interações Fármaco-Proteína; Local de Ligação de Ligandos; Aprendizagem Computacional; Redes Neuronais; Drug Discovery; Drug-Target Interactions; Ligand Binding Site; Machine Learning; Neural Networks
Issue Date: 21-Jul-2023
Project: info:eu-repo/grantAgreement/FCT/3599-PPCDT/DSAIPA/DS/0118/2020/PT 
info:eu-repo/grantAgreement/FCT/POR_CENTRO/2020.07766.BD/PT 
Serial title, monograph or event: A Deep Learning Approach for Protein-Ligand Binding Motifs Prediction using Sequence Derived Information
Place of publication or event: Universidade de Coimbra
Abstract: A descoberta de novos fármacos susceptíveis de interagir com uma proteína alvo constitui um desafio, implicando, em média, o gasto de 1.8 mil milhões de dólares e cerca de 10 anos para desenvolver e comercializar um único fármaco. Por isso, as companhias farmacêuticas estão interessadas em acelerar o processo de descoberta de fármacos, recorrendo a abordagens in silico. Uma vez que qualquer simulação de docking requer o conhecimento da estrutura, tanto da proteína como do ligando, que nem sempre estão disponíveis, as Interações Fármaco-Alvo têm sido, cada vez mais, previstas com precisão através de métodos alternativos, com base na sequência de aminoácidos das proteínas. Neste estudo, é proposta uma abordagem in silico baseada num algoritmo de Deep Learning (DL), capaz de identificar resíduos de ligação entre proteína-ligando, recorrendo a informação descrita na base de dados Protein Data Bank (PDB) contendo interações proteína-ligando previamente estabelecidas experimentalmente. Foi selecionado um sub-conjunto dos dados de PDB, definido pela interação com ligandos específicos de determinados grupos químicos, organizado por grupos de ligandos. Seis modelos de Machine Learning (ML) e DL (Gaussian Naïve Bayes (NB), Passive Aggressive (PA), Support Vector Machine-Stochastic Gradient Descend (SVM-SGD), Perceptron, Extreme Gradient Boosting (XGBoost) and Multilayer Perceptron (MLP)) foram otimizados, com os dados desbalanceados e com duas técnicas de balanceamento: Random Oversampling (RO) e Random Undersampling (RU). Para todos os grupos de ligandos, provou-se, com base na métrica F1-Score, que o modelo de DL era o melhor modelo preditor, atingindo uma média global, para todos os grupos, nas métricas de Accuracy de 0.982, Area Under Receiver Operating Characteristic Curve (AUC-ROC) de 0.759, Area Under Precision Recall Curve (AUC-PR) de 0.379, F1-Score de 0.579, Precision de 0.653, Recall de 0.534 e Matthews Correlation Coefficient (MCC) de 0.567.
Discovery of new protein targets and drugs is a challenging task: it takes an average of 1.8 Billion US dollars and 10 years to develop and market a single drug. As such, pharmaceutical companies are interested in accelerating the drug discovery process using in silico approaches. Because docking simulations require protein and ligand structures that are not always available, Drug-Target Interactions (DTIs) have been successfully predicted using sequence-based methods. In this study, an in silico approach based on a Deep Learning (DL) algorithm is proposed to predict protein-ligand binding motifs, using Protein Data Bank (PDB) information of previously established experimental protein-ligand interactions. A subset of the PDB data, defined by interaction with specific ligands of chosen chemical groups, was selected and organized in ligand groups. Six Machine Learning (ML) and DL models (Gaussian Naïve Bayes (NB), Passive Aggressive (PA), Support Vector Machine-Stochastic Gradient Descend (SVM-SGD), Perceptron, Extreme Gradient Boosting (XGBoost) and Multilayer Perceptron (MLP)) were optimized, with unbalanced and balanced data, with Random Oversampling (RO) and Random Undersampling (RU) techniques. For all ligand groups, a DL model was proven to be the best prediction model based on F1-Score metric, achieving an overall ligand group average Accuracy of 0.982, Area Under Receiver Operating Characteristic Curve (AUC-ROC) of 0.759, Area Under Precision Recall Curve (AUC-PR) of 0.379, F1-Score of 0.579, Precision of 0.653, Recall of 0.534, and Matthews Correlation Coefficient (MCC) of 0.567.
Description: Dissertação de Mestrado em Biologia Computacional apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/110357
Rights: embargoedAccess
Appears in Collections:UC - Dissertações de Mestrado

Show full item record

Page view(s)

51
checked on Jul 17, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons