Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110357
DC FieldValueLanguage
dc.contributor.advisorMoreira, Irina de Sousa-
dc.contributor.authorMarques, Ana Catarina Almeida Carregado e Martins-
dc.date.accessioned2023-11-20T23:07:01Z-
dc.date.available2023-11-20T23:07:01Z-
dc.date.issued2023-07-21-
dc.date.submitted2023-11-20-
dc.identifier.urihttps://hdl.handle.net/10316/110357-
dc.descriptionDissertação de Mestrado em Biologia Computacional apresentada à Faculdade de Ciências e Tecnologia-
dc.description.abstractA descoberta de novos fármacos susceptíveis de interagir com uma proteína alvo constitui um desafio, implicando, em média, o gasto de 1.8 mil milhões de dólares e cerca de 10 anos para desenvolver e comercializar um único fármaco. Por isso, as companhias farmacêuticas estão interessadas em acelerar o processo de descoberta de fármacos, recorrendo a abordagens in silico. Uma vez que qualquer simulação de docking requer o conhecimento da estrutura, tanto da proteína como do ligando, que nem sempre estão disponíveis, as Interações Fármaco-Alvo têm sido, cada vez mais, previstas com precisão através de métodos alternativos, com base na sequência de aminoácidos das proteínas. Neste estudo, é proposta uma abordagem in silico baseada num algoritmo de Deep Learning (DL), capaz de identificar resíduos de ligação entre proteína-ligando, recorrendo a informação descrita na base de dados Protein Data Bank (PDB) contendo interações proteína-ligando previamente estabelecidas experimentalmente. Foi selecionado um sub-conjunto dos dados de PDB, definido pela interação com ligandos específicos de determinados grupos químicos, organizado por grupos de ligandos. Seis modelos de Machine Learning (ML) e DL (Gaussian Naïve Bayes (NB), Passive Aggressive (PA), Support Vector Machine-Stochastic Gradient Descend (SVM-SGD), Perceptron, Extreme Gradient Boosting (XGBoost) and Multilayer Perceptron (MLP)) foram otimizados, com os dados desbalanceados e com duas técnicas de balanceamento: Random Oversampling (RO) e Random Undersampling (RU). Para todos os grupos de ligandos, provou-se, com base na métrica F1-Score, que o modelo de DL era o melhor modelo preditor, atingindo uma média global, para todos os grupos, nas métricas de Accuracy de 0.982, Area Under Receiver Operating Characteristic Curve (AUC-ROC) de 0.759, Area Under Precision Recall Curve (AUC-PR) de 0.379, F1-Score de 0.579, Precision de 0.653, Recall de 0.534 e Matthews Correlation Coefficient (MCC) de 0.567.por
dc.description.abstractDiscovery of new protein targets and drugs is a challenging task: it takes an average of 1.8 Billion US dollars and 10 years to develop and market a single drug. As such, pharmaceutical companies are interested in accelerating the drug discovery process using in silico approaches. Because docking simulations require protein and ligand structures that are not always available, Drug-Target Interactions (DTIs) have been successfully predicted using sequence-based methods. In this study, an in silico approach based on a Deep Learning (DL) algorithm is proposed to predict protein-ligand binding motifs, using Protein Data Bank (PDB) information of previously established experimental protein-ligand interactions. A subset of the PDB data, defined by interaction with specific ligands of chosen chemical groups, was selected and organized in ligand groups. Six Machine Learning (ML) and DL models (Gaussian Naïve Bayes (NB), Passive Aggressive (PA), Support Vector Machine-Stochastic Gradient Descend (SVM-SGD), Perceptron, Extreme Gradient Boosting (XGBoost) and Multilayer Perceptron (MLP)) were optimized, with unbalanced and balanced data, with Random Oversampling (RO) and Random Undersampling (RU) techniques. For all ligand groups, a DL model was proven to be the best prediction model based on F1-Score metric, achieving an overall ligand group average Accuracy of 0.982, Area Under Receiver Operating Characteristic Curve (AUC-ROC) of 0.759, Area Under Precision Recall Curve (AUC-PR) of 0.379, F1-Score of 0.579, Precision of 0.653, Recall of 0.534, and Matthews Correlation Coefficient (MCC) of 0.567.eng
dc.description.sponsorshipFCT-
dc.description.sponsorshipFCT-
dc.language.isoeng-
dc.relationinfo:eu-repo/grantAgreement/FCT/3599-PPCDT/DSAIPA/DS/0118/2020/PT-
dc.relationinfo:eu-repo/grantAgreement/FCT/POR_CENTRO/2020.07766.BD/PT-
dc.rightsembargoedAccess-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/-
dc.subjectDescoberta de Fármacospor
dc.subjectInterações Fármaco-Proteínapor
dc.subjectLocal de Ligação de Ligandospor
dc.subjectAprendizagem Computacionalpor
dc.subjectRedes Neuronaispor
dc.subjectDrug Discoveryeng
dc.subjectDrug-Target Interactionseng
dc.subjectLigand Binding Siteeng
dc.subjectMachine Learningeng
dc.subjectNeural Networkseng
dc.titleA Deep Learning Approach for Protein-Ligand Binding Motifs Prediction using Sequence Derived Informationeng
dc.title.alternativeUma Abordagem de Deep Learning para Previsão de Resíduos de Ligação de Proteínas através de Informação de Sequênciapor
dc.typemasterThesis-
degois.publication.locationUniversidade de Coimbra-
degois.publication.titleA Deep Learning Approach for Protein-Ligand Binding Motifs Prediction using Sequence Derived Informationeng
dc.date.embargoEndDate2025-07-20-
dc.peerreviewedyes-
dc.date.embargo2025-07-20*
dc.identifier.tid203392523-
rcaap.embargofctPara fins de submissão de artigo.-
thesis.degree.disciplineBiologia-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.level1-
thesis.degree.nameMestrado em Biologia Computacional-
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Ciências da Vida-
uc.degree.grantorID0500-
uc.contributor.authorMarques, Ana Catarina Almeida Carregado e Martins::0000-0001-6840-8991-
uc.degree.classification20-
uc.date.periodoEmbargo730-
uc.degree.presidentejuriDuarte, Carlos Jorge Alves Miranda Bandeira-
uc.degree.elementojuriMoreira, Irina de Sousa-
uc.degree.elementojuriCosta, Paulo Jorge Ferreira de Matos-
uc.contributor.advisorMoreira, Irina de Sousa::0000-0003-2970-5250-
item.openairetypemasterThesis-
item.fulltextCom Texto completo-
item.languageiso639-1en-
item.grantfulltextembargo_20250720-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
Appears in Collections:UC - Dissertações de Mestrado
Show simple item record

Page view(s)

51
checked on Jul 17, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons