Towards Generalization in Tabular Models with LLM-Learned Concepts

Cortesão, Paulo Miguel Teixeira

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/116527

Title:	Towards Generalization in Tabular Models with LLM-Learned Concepts
Other Titles:	Contributos para a Generalização em Modelos Tabulares com Conceitos Aprendidos por LLMs
Authors:	Cortesão, Paulo Miguel Teixeira
Orientador:	Abreu, Pedro Manuel Henriques da Cunha
Keywords:	Machine Learning; Large Language Models; Generalization; Classifier Performance; Aprendizagem Computacional; Grandes Modelos de Linguagem (LLMs); Generalização; Desempenho de Classificadores
Issue Date:	16-Jul-2024
Serial title, monograph or event:	Towards Generalization in Tabular Models with LLM-Learned Concepts
Place of publication or event:	DEI - FCTUC
Abstract:	Nowadays, human activities are taking advantage of the developments in Artificial Intelligence (AI) in its various fields. Typically, this is materialized by the use of data-driven approaches, where model parameters are learned by training with a dataset. However, this setup presents some issues, with the lack of generalisation being one of the most severe. With the development of Large Language Models (LLMs), trained on millions of texts across a variety of fields, real-world knowledge can be extracted and used to attenuate this issue.This work addresses the generalisation issue by extracting relevant information from LLMs and incorporating it in the latent space of Machine Learning (ML) models. To reach this goal, we retrieved formulas from LLMs and applied contrastive and multitask learning to make ML models sensitive to those formulas. We conducted further experiments to evaluate the possibility of increasing the quality of the formulas provided by LLMs both iteratively and by finetuning. After applying these methods across 12 tabular classification datasets, we concluded that the proposed approach increases generalisation in comparison to the standard Multi-Layer Perceptron (MLP), with LLM knowledge producing an impact especially in cases where there is concept drift. Experiments with iteration and fine-tuning processes revealed that iteration can produce improvements in some cases, and that a dedicated finetuning process increases the quality of the retrieved formulas, showing gains in the proposed methods. Hoje em dia, as atividades humanas tiram partido dos desenvolvimentos na área da inteligência artificial nos seus vários ramos. Tipicamente, isto é feito com abordagens baseadas em dados, em que os parâmetros associados a um modelo são aprendidos pelo treino com um dataset. No entanto, este paradigma apresenta alguns reveses, sendo um dos mais severos a falta de generalização. Com o desenvolvimento de LLMs (Grandes Modelos de Linguagem – Large Language Models), treinados com milhões de textos a cobrir várias áreas do saber, é possível extrair conhecimento do mundo real para atenuar os efeitos deste problema. O objetivo do presente trabalho é melhorar a generalização de modelos de Machine Learning (ML) extraindo informação relevante de LLMs e incorporando-a no espaço latente destes. Para alcançar este objetivo, obtiveram-se fórmulas a partir de LLMs e aplicaram-se técnicas de aprendizagem multi-tarefa e por contraste para tornar os modelos de ML sensíveis a estas fórmulas. No mesmo sentido, realizaram-se experiências para a avaliar a possibilidade de melhorar a qualidade das fórmulas obtidas tanto através de iteração como de finetuning. Depois da aplicação destes métodos em 12 datasets tabulares de classificação, concluiu-se que a abordagem proposta melhora a generalização em comparação com o MLP, com o conhecimento obtido a partir das LLMs a produzir um impacto positivo especialmente em casos com concept drift. As experiências com processos de iteração e de fine-tuning revelaram que a iteração produz melhorias em alguns casos, e que um processo de finetuning dedicado melhora a qualidade das fórmulas extraídas, demonstrando ganhos nos métodos propostos.
Description:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/116527
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado