Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/105979
DC FieldValueLanguage
dc.contributor.advisorCarvalho, Alexandra Teresa Pires-
dc.contributor.advisorAlmeida, Beatriz Columbiano-
dc.contributor.authorMotresku, Ulyana-
dc.date.accessioned2023-03-15T23:01:52Z-
dc.date.available2023-03-15T23:01:52Z-
dc.date.issued2022-09-29-
dc.date.submitted2023-03-15-
dc.identifier.urihttps://hdl.handle.net/10316/105979-
dc.descriptionTrabalho de Projeto do Mestrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia-
dc.description.abstractAs proteínas reguladoras são macromoléculas complexas essenciais para o funcionamento biológico. A literatura recente tem mostrado grandes lacunas na caracterização de proteínas reguladoras, principalmente relacionadas com a falta do ião zinco nas estruturas dos cristais e à ausência de informações sobre seu papel. Assim, uma melhor caracterização molecular é essencial para aumentar a nossa compreensão das proteínas reguladoras dependentes de metais, uma vez que estas têm grande valor em áreas como a biomedicina e biotecnologia. Por este motivo, implementamos abordagens in silico para prever resíduos com ligação ao ião zinco em fatores de transcrição.Primeiro, construímos o nosso próprio conjunto de dados com fatores de transcrição e, em seguida, extraímos um conjunto de características heterogéneas contendo características baseadas na sequência e estrutura das proteínas. Três modelos do estado da arte foram implementados e otimizados com nossos dados, Convolutional Neural Networks (CNN), Long-Short Term Memory Neural Networks (LSTM) e Gated Recurrent Units (GRU), bem como validados com um conjunto de dados de benchmark.As características baseadas na sequência relacionadas aos resíduos cisteína e histidina, bem como a estrutura secundária onde o resíduo está localizado são as características com maior correlação linear com o alvo. Os modelos LSTM e GRU sofrem overfitting obtendo os mesmos valores em F1-Measure para o treino 65% e em F1-Measure em teste 43%. O modelo CNN reporta os menores valores F1-Measure em teste de 41%. Portanto, GRU é o nosso melhor modelo com valores de F1-Measure de 65,165%-treino, 52,926%-validação e 42,898%-teste.Neste projeto usamos a sequência de aminoácidos completa em vez de apenas resíduos de ligação específicos, o que é uma vantagem sobre os modelos implementados do estado da arte. Além disso, os nossos resultados de treino abrem as portas para melhorias quando as sequências de aminoácidos são usadas em tarefas semelhantes.por
dc.description.abstractRegulatory proteins are complex macromolecules essential for biological functioning. Recent literature has shown large gaps in regulatory proteins characterisation, mainly pertaining to the lack of zinc ion in the crystal structures and the absence of information about its role. Thus, an improved molecular characterisation is essential to increase our understanding of metal-dependant regulatory proteins since they have great value in biomedical and biotechnological fields. Therefore, we implemented in silico approaches to predict zinc-binding residues in transcription factors.First, we constructed our own dataset with transcription factors, and then we extracted a set of heterogeneous features containing sequence and structure based features. Three state of the art models were implemented and optimised with our data, Convolutional Neural Networks (CNN), Long-Short Term Memory Neural Networks (LSTM) and Gated Recurrent Units (GRU), as well as validated with a benchmark dataset.The sequence based features related do the cysteine and histidine residues and the secondary structure where the residue is localised are the features with higher linear correlation with the target. The LSTM and GRU models overfitted obtaining training F1-Measure of 65% both and low test F1-Measure of 43% both. The CNN model reports the lowest values with test F1-Measure of 41%. Therefore, GRU is our best model with F1-Measure values of 65.165%-training, 52.926%-validation and 42.898%-testing.Here we used the complete amino acid sequence instead of just specific binding residues, which is an advantage over the state of the art implemented models. Also, our training results opened the doors for improvement when amino-acid sequences are used in similar tasks.eng
dc.language.isoeng-
dc.rightsembargoedAccess-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/-
dc.subjectFatores de Transcriçãopor
dc.subjectLocais de ligação de zincopor
dc.subjectEstrutura de proteínas e Coordenação ao zincopor
dc.subjectAprendizagem computacionalpor
dc.subjectQuímica computacionalpor
dc.subjectTranscription factorseng
dc.subjectZinc binding-siteseng
dc.subjectProtein structure and Zinc coordinationeng
dc.subjectMachine Learningeng
dc.subjectComputational Chemistryeng
dc.titleIn silico approaches for the detection of zinc ion in regulatory proteinseng
dc.title.alternativeIn silico approaches for the detection of zinc ion in regulatory proteinspor
dc.typemasterThesis-
degois.publication.locationCNC-
degois.publication.titleIn silico approaches for the detection of zinc ion in regulatory proteinseng
dc.date.embargoEndDate2023-09-29-
dc.peerreviewedyes-
dc.date.embargo2023-09-29*
dc.identifier.tid203187342-
thesis.degree.disciplineEngenharia Biomédica-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.level1-
thesis.degree.nameMestrado em Engenharia Biomédica-
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Física-
uc.degree.grantorID0500-
uc.contributor.authorMotresku, Ulyana::0000-0002-0708-7685-
uc.degree.classification18-
uc.date.periodoEmbargo365-
uc.degree.presidentejuriArrais, Joel Perdiz-
uc.degree.elementojuriCarvalho, Alexandra Teresa Pires-
uc.degree.elementojuriRibeiro, António-
uc.degree.elementojuriMorais, Paula Maria de Melim Vasconcelos de Vitorino-
uc.contributor.advisorCarvalho, Alexandra Teresa Pires-
uc.contributor.advisorAlmeida, Beatriz Columbiano-
item.openairetypemasterThesis-
item.fulltextCom Texto completo-
item.languageiso639-1en-
item.grantfulltextopen-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
Appears in Collections:UC - Dissertações de Mestrado
Files in This Item:
File Description SizeFormat
Thesis_Ulyana_Motresku.pdf7.9 MBAdobe PDFView/Open
Show simple item record

Page view(s)

26
checked on Jul 16, 2024

Download(s)

23
checked on Jul 16, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons