Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/110357
Título: A Deep Learning Approach for Protein-Ligand Binding Motifs Prediction using Sequence Derived Information
Outros títulos: Uma Abordagem de Deep Learning para Previsão de Resíduos de Ligação de Proteínas através de Informação de Sequência
Autor: Marques, Ana Catarina Almeida Carregado e Martins
Orientador: Moreira, Irina de Sousa
Palavras-chave: Descoberta de Fármacos; Interações Fármaco-Proteína; Local de Ligação de Ligandos; Aprendizagem Computacional; Redes Neuronais; Drug Discovery; Drug-Target Interactions; Ligand Binding Site; Machine Learning; Neural Networks
Data: 21-Jul-2023
Projeto: info:eu-repo/grantAgreement/FCT/3599-PPCDT/DSAIPA/DS/0118/2020/PT 
info:eu-repo/grantAgreement/FCT/POR_CENTRO/2020.07766.BD/PT 
Título da revista, periódico, livro ou evento: A Deep Learning Approach for Protein-Ligand Binding Motifs Prediction using Sequence Derived Information
Local de edição ou do evento: Universidade de Coimbra
Resumo: A descoberta de novos fármacos susceptíveis de interagir com uma proteína alvo constitui um desafio, implicando, em média, o gasto de 1.8 mil milhões de dólares e cerca de 10 anos para desenvolver e comercializar um único fármaco. Por isso, as companhias farmacêuticas estão interessadas em acelerar o processo de descoberta de fármacos, recorrendo a abordagens in silico. Uma vez que qualquer simulação de docking requer o conhecimento da estrutura, tanto da proteína como do ligando, que nem sempre estão disponíveis, as Interações Fármaco-Alvo têm sido, cada vez mais, previstas com precisão através de métodos alternativos, com base na sequência de aminoácidos das proteínas. Neste estudo, é proposta uma abordagem in silico baseada num algoritmo de Deep Learning (DL), capaz de identificar resíduos de ligação entre proteína-ligando, recorrendo a informação descrita na base de dados Protein Data Bank (PDB) contendo interações proteína-ligando previamente estabelecidas experimentalmente. Foi selecionado um sub-conjunto dos dados de PDB, definido pela interação com ligandos específicos de determinados grupos químicos, organizado por grupos de ligandos. Seis modelos de Machine Learning (ML) e DL (Gaussian Naïve Bayes (NB), Passive Aggressive (PA), Support Vector Machine-Stochastic Gradient Descend (SVM-SGD), Perceptron, Extreme Gradient Boosting (XGBoost) and Multilayer Perceptron (MLP)) foram otimizados, com os dados desbalanceados e com duas técnicas de balanceamento: Random Oversampling (RO) e Random Undersampling (RU). Para todos os grupos de ligandos, provou-se, com base na métrica F1-Score, que o modelo de DL era o melhor modelo preditor, atingindo uma média global, para todos os grupos, nas métricas de Accuracy de 0.982, Area Under Receiver Operating Characteristic Curve (AUC-ROC) de 0.759, Area Under Precision Recall Curve (AUC-PR) de 0.379, F1-Score de 0.579, Precision de 0.653, Recall de 0.534 e Matthews Correlation Coefficient (MCC) de 0.567.
Discovery of new protein targets and drugs is a challenging task: it takes an average of 1.8 Billion US dollars and 10 years to develop and market a single drug. As such, pharmaceutical companies are interested in accelerating the drug discovery process using in silico approaches. Because docking simulations require protein and ligand structures that are not always available, Drug-Target Interactions (DTIs) have been successfully predicted using sequence-based methods. In this study, an in silico approach based on a Deep Learning (DL) algorithm is proposed to predict protein-ligand binding motifs, using Protein Data Bank (PDB) information of previously established experimental protein-ligand interactions. A subset of the PDB data, defined by interaction with specific ligands of chosen chemical groups, was selected and organized in ligand groups. Six Machine Learning (ML) and DL models (Gaussian Naïve Bayes (NB), Passive Aggressive (PA), Support Vector Machine-Stochastic Gradient Descend (SVM-SGD), Perceptron, Extreme Gradient Boosting (XGBoost) and Multilayer Perceptron (MLP)) were optimized, with unbalanced and balanced data, with Random Oversampling (RO) and Random Undersampling (RU) techniques. For all ligand groups, a DL model was proven to be the best prediction model based on F1-Score metric, achieving an overall ligand group average Accuracy of 0.982, Area Under Receiver Operating Characteristic Curve (AUC-ROC) of 0.759, Area Under Precision Recall Curve (AUC-PR) of 0.379, F1-Score of 0.579, Precision of 0.653, Recall of 0.534, and Matthews Correlation Coefficient (MCC) of 0.567.
Descrição: Dissertação de Mestrado em Biologia Computacional apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/110357
Direitos: embargoedAccess
Aparece nas coleções:UC - Dissertações de Mestrado

Ficheiros deste registo:
Mostrar registo em formato completo

Visualizações de página

51
Visto em 17/jul/2024

Google ScholarTM

Verificar


Este registo está protegido por Licença Creative Commons Creative Commons