Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/96105
Title: Mycotoxins: Identification and characterization using machine learning as a playground.
Other Titles: Micotoxinas: Identificação e caracterização usando uma abordagem de aprendizagem computacional.
Authors: Ferreira, Cláudia Filipa Soares
Orientador: Pais, Alberto António Caria Canelas
Cova, Tânia Firmino Guerra Guerreiro
Keywords: Micotoxinas; Aprendizagem computacional; Descriptores Moleculares; Toxicidade Aguda; Mycotoxins; Machine Learning; Molecular Descriptors; Acute toxicity
Issue Date: 23-Sep-2021
Serial title, monograph or event: Mycotoxins: Identification and characterization using machine learning as a playground.
Place of publication or event: Departamento de Química da Universidade de Coimbra
Abstract: The design of cost-effective strategies to simultaneously identify and eliminate toxic compounds from the aquatic environment requires knowledge of relevant molecular fingerprints, interaction patterns, co-occurrence, synergistic effects, and contaminant sources, as this can be a gateway to an effective response to these societal obstacles.This study aims to develop predictive models for molecular similarity and toxicity of mycotoxins based on molecular and physicochemical descriptors using cheminformatics tools and machine learning approaches. An efficient chemical data mining over different datasets composed by 30 and 59 selected mycotoxins described by several molecular descriptors is proposed for virtual screening of molecular similarity and toxicity prediction.Hierarchical cluster analysis and k-means clustering revealed clusters consistent with the known mycotoxin families. PCA results show that discrimination between mycotoxins is largely determined by the selected molecular descriptors and evidence a tendency in the separation of acutely toxic mycotoxins from non-acutely toxic mycotoxins.Supervised learning models (LDA, RF, SVM, NN were constructed for the purpose of classification and combined with the molecular descriptors selected from PCA to improve the knowledge of the selected mycotoxins and predict their respective acute-toxicity profiles. RF proved to be the best model in the classification of mycotoxins into acutely toxic or non-acutely toxic. This study allows the identification of relevant molecular and physicochemical descriptors for the 1) discrimination of different families of mycotoxins, 2) classification of structurally distinct mycotoxins and also those mycotoxins that are not so well described in the literature, and 3) prediction of toxicity. This creates a gateway for the subsequent classification, identification, and rapid and efficient characterization of potential new and unknown mycotoxins. Bridging the gap between multivariate physicochemical data and the ability of models to predict and address relevant mycotoxin-related phenomena, such as co-occurrence and molecular recognition, and to develop improved classification and remediation methods remains a challenge, often limited by available methodologies and experimental information.
O desenvolvimento de estratégias efetivas para identificar e eliminar compostos tóxicos do ambiente aquático requer um conhecimento profundo sobre os padrões moleculares e de interação, os fenómenos de coocorrência, e a origem dos contaminantes.Este estudo consiste no desenvolvimento de modelos computacionais capazes de caracterizar a similaridade molecular e prever a toxicidade de diferentes classes de micotoxinas, baseando-se em descritores físico-químicos e moleculares e dando uso a ferramentas de aprendizagem computacional. A análise de agrupamentos hierárquica e o método k-médias revelaram grupos consistentes com as famílias de micotoxinas já estabelecidas na literatura. A análise de componentes principais permitiu selecionar os descritores moleculares mais relevantes para discriminar diferentes famílias de micotoxinas, evidenciando tendências na classificação das micotoxinas tendo em conta a sua toxicidade aguda. Diversos modelos de aprendizagem supervisionada (LDA, RF, SVM e NN) foram construídos sobre os descritores moleculares selecionados da análise de componentes principais, com o intuito de melhorar o conhecimento sobre as micotoxinas selecionadas e desenvolver modelos de previsão para os seus perfis de toxicidade aguda. O modelo RF provou ser o melhor modelo na classificação das micotoxinas em toxicas de forma aguda ou não.Este estudo permite a identificação de descritores moleculares e físico-químicos relevantes para: 1) a discriminação entre várias famílias de micotoxinas, 2) a classificação de micotoxinas estruturalmente distintas e de micotoxinas desconhecidas, e 3) previsão da respetiva toxicidade. Estabelecer a ponte entre dados físico-químicos multivariados e a capacidade dos modelos computacionais de direcionar e prever fenómenos relacionados com micotoxinas, bem como desenvolver métodos mais eficientes de classificação e remediação, são desafios atuais, cuja solução está ainda muito limitada pelas metodologias e os dados experimentais disponíveis.
Description: Dissertação de Mestrado em Química apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/96105
Rights: embargoedAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
Tese Claudia Ferreira_MQ_v1.pdf5.18 MBAdobe PDFView/Open
Show full item record

Page view(s)

78
checked on Mar 26, 2024

Download(s)

60
checked on Mar 26, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons