Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/106400
Título: Leveraging Machine Learning to design CPP for therapeutic cargo delivery
Outros títulos: Utilização de Machine Learning para o desenho de péptidos de penetração celular para o transporte de moléculas com potencial terapêutico
Autor: Duarte, Francisco João Manteigas
Orientador: Moreira, Irina de Sousa
Gonçalves, Teresa Maria Fonseca Oliveira
Palavras-chave: Péptidos de Penetração Celular; Transporte de Moléculas; Seleção de Descritores; Aprendizagem de Máquina; Eficiência de Captação; Cell-Penetrating Peptides; Cargo-delivery; Feature Selection; Machine Learning; Uptake Efficiency
Data: 13-Out-2022
Título da revista, periódico, livro ou evento: Leveraging Machine Learning to design CPP for therapeutic cargo delivery
Local de edição ou do evento: CNC, Universidade de Coimbra
Resumo: Os péptidos de penetração celular (CPPs) são uma classe de péptidos usualmente caracterizados por sequências curtas de aminoácidos (4-40 resíduos), largamente anfifílicos, e com uma carga total positiva em pH fisiológico. Eles são versáteis, modificáveis, e efetivos a transportar cargas terapêuticas acopladas até às células. Sequências de CPPs têm de ser desenhadas para cada caso específico, para melhorar a sua internalização e reduzir uma possível toxicidade adjacente. No entanto, os testes in vivo/in vitro de diferentes CPPs podem ser trabalhosos e dispendiosos. Abordagens computacionais, como Aprendizagem de Máquina (ML), têm vindo a ganhar uma atenção maior como um método mais rápido e barato para o desenho de CPPs e previsão de captação. Apesar disto, a maioria dos modelos de ML desenvolvidos previamente na literatura focam-se em problemas de classificação, em vez dos valores quantitativos mais informativos. Para enfrentar estes problemas, os objetivos deste projeto consistem na construção de um conjunto de dados atualizado com valores de captação quantitativos e no uso destes dados para desenvolver um modelo de ML para a previsão da captação de CPPs. A base de dados CPPsite 2.0 e a curação manual de estudos experimentais foram usados para obter dados de captação quantitativos experimentais de CPPs. As propriedades físico-químicas dos CPPs foram extraídas das suas sequências usando o package de R “Peptides”, e as suas modificações foram transformadas para variáveis de one-hot encoding. Finalmente, vários algoritmos foram testados durante o desenvolvimento de modelos de ML. Um novo conjunto de dados com 139 CPPs contendo dados quantitativos experimentais, e 198 variáveis, consistindo em dados de propriedades físico-químicas, foi desenvolvido e utilizado para o treino de modelos de ML. Durante a construção do dataset, foi possível observar que não havia nenhum método normalizado para a avaliação do uptake de CPPs na literatura, o que dificulta o desenvolvimento de modelos de ML de regressão. O XGBoost foi o melhor modelo de ML desenvolvido, com um Coeficiente de Correlação de Pearson de 0.88, um RMSE de 0.58, um MAE de 0.46 e um R-quadrado de 0.76 no conjunto de teste. Podemos concluir que foi possível criar com sucesso um modelo de ML com um bom desempenho geral para a previsão de valores de captação de CPPs.
Cell-penetrating peptides (CPPs) are a class of peptides usually characterized by short amino acid sequences (4-40 residues), largely amphiphilic, and with a net positive charge at physiological pH. They are versatile, modifiable and effective at delivering coupled therapeutic cargo into cells. CPPs sequences have to be specifically designed for each use case, to improve their internalization and reduce possible adjacent toxicity. However, in vivo/in vitro testing of different CPPs can be laborious and expensive. Computational approaches, such as Machine Learning (ML), have been gaining increased attention as a faster and cheaper method for CPP design and uptake prediction. Nonetheless, most ML models developed in previous literature focus on classification problems, rather than the more informative quantitative values. To tackle these problems, this project’s objectives consisted of assembling a novel up-to-date dataset with quantitative uptake values and using these data to develop a ML model for CPP uptake prediction. CPPsite 2.0 database and the manual curation of experimental studies were used to obtain experimental quantitative CPPs uptake data. Physicochemical properties of CPPs were extracted from their sequences using the “Peptides” R package, and their modifications were transformed to one-hot encoding variables. Finally, several algorithms were tested during ML model development. A new CPP dataset with 139 CPPs containing experimental quantitative data, and 198 features, consisting of physicochemical properties data, has been developed and used for ML model training. During dataset construction, it was observed that there were no standardized methods for CPP uptake evaluation in the literature, which hinders the development of regression ML models. The XGBoost was the best developed ML model with a Pearson’s Correlation Coefficient of 0.88, RMSE of 0.58, MAE of 0.46 and R-squared of 0.76 in the test set. We can conclude that it was possible to successfully create a ML model with a good overall performance for CPP uptake value prediction.
Descrição: Dissertação de Mestrado em Investigação Biomédica apresentada à Faculdade de Medicina
URI: https://hdl.handle.net/10316/106400
Direitos: embargoedAccess
Aparece nas coleções:UC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato Entrar
Dissertacao_Francisco_Duarte.pdf1.05 MBAdobe PDFAcesso Embargado    Pedir uma cópia
Mostrar registo em formato completo

Visualizações de página

23
Visto em 17/jul/2024

Downloads

1
Visto em 17/jul/2024

Google ScholarTM

Verificar


Este registo está protegido por Licença Creative Commons Creative Commons