Decoding Chemical Predictions: Group Contribution Methods for Explainable Artificial Intelligence

Pinheiro, Gabriel Chaves Cathoud

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/116423

Título:	Decoding Chemical Predictions: Group Contribution Methods for Explainable Artificial Intelligence
Outros títulos:	Descodificando previsões químicas: métodos de contribuição de grupos para Inteligência Artificial Explicável
Autor:	Pinheiro, Gabriel Chaves Cathoud
Orientador:	Macedo, Luís Miguel Machado Lopes
Palavras-chave:	Graph Neural Networks; Explainable Artificial Intelligence; Computational Chemistry; Chemical Properties Prediction; Group Contribution Methods; Redes Neurais de Grafos; Inteligência Artificial Explicável; Química Computacional; Precisão de Propriedades Químicas; Métodos de Contribuição de Grupo
Data:	23-Jul-2024
Título da revista, periódico, livro ou evento:	Decoding Chemical Predictions: Group Contribution Methods for Explainable Artificial Intelligence
Local de edição ou do evento:	DEI - FCTUC
Resumo:	Machine learning (ML) is gaining widespread recognition in chemistry for its diverse applications, including predicting chemical properties, simulating chemical dynamics, and designing new compounds. This work focuses on exploring Explainable Artificial Intelligence (XAI) techniques for ML models in chemistry, with an emphasis on Graph Neural Networks (GNNs). Given the graph-like structure of molecules, GNNs have proven exceptionally effective in various chemical contexts, particularly through models such as SchNet and EGNN, which are known for their high predictive accuracy.While the performance of the new GNN models is impressive, understanding their underlying mechanisms is equally crucial. There are concerns that these models may be capturing superficial correlations in the data rather than fundamental chemical phenomena. Although many general-purpose GNN explainers exist, incorporating domain-specific knowledge can significantly enhance the development of explainers tailored to chemical applications. In this study, an explainability approach based on the well-established concept of group contributions was developed, providing additional insights without compromising model accuracy. The findings suggest that different GNN models may learn distinct patterns from molecular data.Another key contribution of this work is the development of a custom loss function designed to align model learning with established chemical intuition. This loss function integrates terms for prediction accuracy and alignment with reference group contributions, ensuring that the models maintain their accuracy while offering chemically meaningful explanations. The results show a high level of agreement between the model-derived group contributions and the reference values, underscoring the potential for enhanced interpretability.Furthermore, a novel architecture for modeling chemical reactions is presented, capable of processing information from the various molecules involved in a reaction. This architecture not only provides accurate predictions but also facilitates the extraction of atomic and group contributions, which can be used to explain the model's predictions in a chemically relevant manner.Overall, this work bridges the gap between advanced ML techniques and domain-specific knowledge in chemistry, offering a framework that enhances model transparency and deepens the understanding of complex chemical systems. The methodologies and findings presented here lay the groundwork for more interpretable and reliable ML models in the field of chemistry. O aprendizado de máquina (ML) está a ganhar um reconhecimento generalizado na química pelas suas diversas aplicações, incluindo a previsão de propriedades químicas, a simulação de dinâmicas químicas e o desenvolvimento de novos compostos. Este trabalho foca-se na exploração de técnicas de Inteligência Artificial Explicável (XAI) para modelos de ML na química, com ênfase em Redes Neurais de Grafos (GNNs). Dada a estrutura em forma de grafo das moléculas, as GNNs têm-se mostrado excecionalmente eficazes em vários contextos químicos, particularmente através de modelos como o SchNet e o EGNN, que são conhecidos pela sua alta precisão preditiva.Embora o desempenho dos novos modelos de GNN seja impressionante, compreender os seus mecanismos subjacentes é igualmente crucial. Existem preocupações de que estes modelos possam estar a capturar correlações superficiais nos dados em vez de fenómenos químicos fundamentais. Embora existam muitos explicadores de GNN de uso geral, a incorporação de conhecimento específico do domínio pode melhorar significativamente o desenvolvimento de explicadores adaptados a aplicações químicas. Neste estudo, foi desenvolvida uma abordagem de explicabilidade baseada no conceito bem estabelecido de contribuições de grupos, proporcionando entendimentos adicionais sem comprometer a precisão do modelo. Os resultados sugerem que diferentes modelos de GNN podem aprender padrões distintos a partir de dados moleculares.Outra contribuição chave deste trabalho é o desenvolvimento de uma função de perda personalizada, projetada para alinhar a aprendizagem do modelo com alguma intuição química já estabelecida. Esta função de perda integra termos para a precisão da previsão e o alinhamento com as contribuições de grupos de referência, garantindo que os modelos mantenham a sua precisão enquanto oferecem explicações quimicamente significativas. Os resultados mostram um elevado nível de concordância entre as contribuições de grupos derivadas do modelo e os valores de referência, destacando o potencial para uma maior interpretabilidade.Para além disto, é apresentada uma nova arquitetura para modelar reações químicas, capaz de processar informações das várias moléculas envolvidas numa reação. Esta arquitetura não só fornece previsões precisas, mas também facilita a extração de contribuições atómicas e de grupos, que podem ser utilizadas para explicar as previsões do modelo de uma maneira quimicamente relevante.No geral, este trabalho preenche a lacuna entre técnicas avançadas de ML e conhecimento específico do domínio na química, oferecendo um ferramenta que melhora a transparência do modelo e aprofunda a compreensão de sistemas químicos complexos. As metodologias e conclusões apresentadas aqui estabelecem as bases para modelos de ML mais interpretáveis e fiáveis no campo da química.
Descrição:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/116423
Direitos:	embargoedAccess
Aparece nas coleções:	UC - Dissertações de Mestrado