Exploring deep learning architectures and  reliability of several datasets to predict protein-protein interactions

Silva, Luís Pedro Baptista

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/92577

Título:	Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
Outros títulos:	Explorando arquiteturas de aprendizado profundo e a confiabilidade de vários conjuntos de dados para prever interações proteína-proteína
Autor:	Silva, Luís Pedro Baptista
Orientador:	Arrais, Joel Perdiz
Palavras-chave:	Interação Proteína-Proteína; Conjunto de dados; Aprendizagem profunda; Rede Neuronal Convolucional; Rede Neuronal Completamente Convolucional; Protein-Protein Interaction; Datasets; Deep Learning; Convolutional Neural Networks; Fully Convolutional Neural Networks
Data:	24-Jul-2020
Título da revista, periódico, livro ou evento:	Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions
Local de edição ou do evento:	CISUC
Resumo:	As proteínas são indispensáveis para os seres vivos e são a base de quase todos os processos celulares. No entanto, estas macromoléculas raramente actuam sozinhas, formando as interações proteína-proteína. Dada a sua importância biológica não é de surpreender que a sua desregulamentação seja uma das principais causas de vários estados de doença.A súbita onda de interesse nesta área de estudo motivou o desenvolvimento de métodos in silico inovadores. Apesar dos avanços óbvios nos últimos anos, a eficácia destes métodos computacionais permanece questionável. Ainda não existem evidências suficientes que apoiem o uso apenas de técnicas in silico para prever interações proteína-proteína ainda não determinadas experimentalmente. Está provado que uma das principais razões que leva a esta situação é a inexistência de um conjunto de dados de interações negativas padrão. Contrariamente à grande abundância de interações positivas disponíveis publicamente, os exemplos negativos são frequentemente gerados artificialmente, culminando em amostras tendenciosas.Nesta tese de mestrado, é apresentado um novo conjunto de dados imparciais, que não restringe em demasia a distribuição das interações negativas. Além do novo conjunto de dados, são também propostos modelos distintos de aprendizagem profunda como uma ferramenta para prever se duas proteínas individuais são capazes de interagir uma com a outra, usando exclusivamente as sequências completas de aminoácidos. Os resultados obtidos indicam firmemente que os modelos propostos são realmente uma ferramenta valiosa para prever interações proteína-proteína, principalmente quando comparados com as abordagens existentes, além de destacarem ainda que existe espaço para melhorias quando implementados em conjuntos de dados imparciais. Proteins are indispensable to the living organisms and are the backbone of almost all the cellular processes. However, these macromolecules rarely act alone, forming the protein-protein interactions. Given their biological significance it should come as no surprise that their deregulation is one of the main causes to several disease states. The sudden surge of interest in this field of study motivated the development of innovative in silico methods. Despite the obvious advances in recent years, the effectiveness of these computational methods remains questionable. There is still not enough evidence to support the use of just in silico techniques to predict protein-protein interactions not yet experimentally determined. It is proved that one of the primary reasons leading to this situation is the non-existence of a "gold-standard" negative interactions dataset. Contrary to the high abundance of publicly available positive interactions, the negative examples are often artificially generated, culminating in biased samples. In this master thesis a new unbiased dataset is presented, that does not overly constraint the negative interactions distribution. Beyond the novel dataset, also distinct deep learning models are proposed as a tool to predict whether two individual proteins are capable of interacting with each other, using exclusively the complete raw amino acid sequences. The obtained results firmly indicate that the proposed models are actually a valuable tool to predict protein-protein interactions, principally when compared with the existing approaches, while also highlighting that there is still some room for improvement when implemented in unbiased datasets.
Descrição:	Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/92577
Direitos:	openAccess
Aparece nas coleções:	UC - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Tese final Luis Silva.pdf		2.76 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo

Visualizações de página

171

Visto em 23/abr/2024

Downloads

120

Visto em 23/abr/2024

Google Scholar^TM

Verificar

Este registo está protegido por Licença Creative Commons

Ficheiros deste registo:

Visualizações de página

Downloads

Google ScholarTM

Google Scholar^TM