Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/114385
Title: Multiblock methods for handling complex and heterogeneous data structures in industry
Other Titles: Métodos multibloco para a análise de dados industriais complexos e heterogéneos
Authors: Campos, Maria Bravo de Almeida Pereira
Orientador: Reis, Marco Paulo Seabra dos
Keywords: Modelos de múltiplos blocos de dados; SO-PLS passo a passo; métodos com base em variáveis latentes; pré-processamento inter-bloco e intra-bloco; Latent variable methods; Multiblock modelling; Stepwise SO-PLS; inter-block and intra-block pre-processing; -; -
Issue Date: 31-Mar-2023
Serial title, monograph or event: Multiblock methods for handling complex and heterogeneous data structures in industry
Place of publication or event: CIEPQPF
Abstract: A quantidade de dados recolhidos em processos industriais e a tecnologia de instrumentação em química analítica tem aumentado consideravelmente nas últimas cinco décadas devido ao desenvolvimento rápido da computação e sistemas de medição. Em muitas áreas da indústria, e das ciências naturais e da vida, os conjuntos de dados coletados estão naturalmente organizados em blocos de variáveis.Estes blocos de dados têm a sua própria estrutura de correlação e constituem entidades naturais dentro do sistema em análise que podem atuar ou interagir de alguma forma para estabelecer as propriedades finais do produto. Deste modo, a sua integridade deve ser levada em conta na construção de modelos e na sua análise subsequente. Ou seja, ao invés de se manipular variáveis individualmente durante a construção do modelo, o mais natural e consistente com a natureza do sistema é manipular blocos de variáveis funcionalmente relacionados.Métodos que são capazes de modelar os dados preservando a sua estrutura natural são chamados de métodos multibloco e são o tema principal desta tese. Os modelos multibloco caracterizam-se por manter a ordem natural dos dados com o objetivo de preservar os diferentes blocos durante a análise, da mesma forma que se mantém o controle sobre as variáveis individuais numa análise de dados multivariada clássica. Ao integrar esses diferentes blocos de dados na modelação mantendo a sua integridade, criam-se condições para obter modelos mais parcimoniosos e informativos. Estes modelos também são úteis para explicar a relação entre os diferentes blocos, e a contribuição relativa de cada bloco no modelo, potenciando uma maior extração de maior informação e a uma maior interpretabilidade dos resultados do modelo relativamente a uma análise clássica. Além disso, informações explícitas sobre a variação comum e única de cada bloco passam a ser conhecidas. Vários métodos multibloco baseados em variáveis latentes têm vindo a ser descritos na literatura desde a sua introdução várias décadas atrás, oferecendo soluções mais eficientes para os problemas que muitos profissionais continuam a enfrentar atualmente. No entanto, não há uma metodologia sistemática estabelecida para sua seleção e aplicação, e alguns aspetos técnicos importantes não foram ainda abordados adequadamente.Nesta tese, propõe-se uma metodologia sistemática para o desenvolvimento de modelos multibloco, incluindo uma abordagem em três níveis para selecionar o pré-processamento adequado em contextos de multibloco. Em modelos multibloco, para além da variabilidade intra-bloco (ou seja, variabilidade dentro de cada bloco) existe a complexidade adicional de lidar com a variabilidade inter-bloco (ou seja, variabilidade entre blocos), para evitar que os resultados do modelo sejam afetados por aspetos não relacionados com o fenómeno de interesse, mas com os dados (número de variáveis em cada bloco, unidades utilizadas, etc.). A estratégia proposta nesta tese abrange desde o tratamento dos efeitos intra-bloco relativos à qualidade dos dados (Nível I), passando pelo balanceamento da escala das variáveis (Nível II) até à equalização e afinação da variabilidade inter-blocos (Nível III). Novos métodos robustos de pré-processamento de Nível III são também propostos e comparados com as abordagens de escalonamento de blocos pertencentes ao estado-da-arte, em dois casos de estudos reais.Esta tese fornece também uma revisão abrangente e crítica da literatura sobre abordagens multibloco, bem com uma avaliação comparativa extensiva de metodologias multibloco considerados como estado-da-arte em relação às suas capacidades de previsão e interpretabilidade. Os seguintes métodos multibloco são explorados nesta tese: método PLS concatenado, PLS hierárquico (HPLS),PLS multibloco (MBPLS), Indução de Rede para Aprendizagem Supervisionada (NI-SL) e PLS Ortogonalizado Sequencial (SO-PLS). Algumas limitações e oportunidades de melhoria desses métodos são destacadas.Será ainda apresentada uma nova metodologia mais eficiente para realizar análises preditivas multibloco chamada SO-PLS passo a passo, que supera várias limitações encontradas nos métodos atuais de última geração, como o problema de estabelecer a melhor ordem para análise dos blocos, o problema de selecionar os blocos a analisar e a descartar, e o desafio de mitigar o impacto do escalonamento entre blocos. O novo método é testado em dados reais e os resultados são totalmente discutidos.Em resumo, as contribuições desta tese representam um esforço para colocar a análise de dados multibloco na vanguarda dos métodos analíticos avançados a serem adotados no âmbito da ciência dos dados industriais, capacitando os profissionais com metodologias e ferramentas sistemáticas e eficientes para lidar com problemas em que as variáveis podem ser naturalmente organizadas em blocos.
The amount of data collected from industrial processes and analytical chemistry have increased by orders of magnitude during the last 50 years due to the fast development of computers and measuring systems. In many areas of industry and life sciences, data sets are collected that can be naturally grouped in multiple blocks. These multiple blocks of data (subsets of variables that can be rationally clustered in distinct groups) have their own specific correlation structures and constitute entities within the system that may act or interact in some way to establish the final properties of the product. In this context, the integrity of such blocks of data should be preserved throughout the analysis, i.e., instead of manipulating individual variables during model building, we argue that it is more natural and consistent with the system nature to manipulate blocks of functionally related variables. Methods that are able to accomplish this endeavor are called multiblock methods and they constitute the focus of this thesis. Multiblock models strive to maintain the natural ordering in the data with the objective of keeping track of the different blocks during the analysis in the same way as one keeps track of individual variables in classical multivariate data analysis. By integrating these different data blocks into the modeling and keeping their integrity intact, more parsimonious and informative models can be developed. Multiblock modeling methods are also useful to explain the relationships between different blocks, and the relative contribution of each block in the model. This leads to more informative insights in the end and increases model interpretability more than any result obtained by the individual analysis of each data set (or data source). Moreover, explicit information about the common and unique variation from each block of predictor can be extracted. Several multiblock methods based on latent variables have been suggested in the literature since their introduction several decades ago, offering more efficient solutions for a variety of problems many professionals face nowadays. However, there is not a clear workflow for their selection and application, and some important technical aspects have not been addressed properly.Therefore, in this thesis a systematic workflow for the development of multiblock modelling is proposed including a three-level approach for selecting the adequate pre-processing in multiblock modelling approaches. In multiblock models we face the additional complexity of having to deal with inter-block variability (i.e., between blocks variability) in addition to the intra-block variability (i.e., within blocks variability) in order to avoid the model outcomes to be impacted by aspects that are not directly related to the phenomena of interest but to data related issues (e.g., number of variables in each block, units, etc.). The strategy proposed in this thesis proceeds from handling intra-block effects regarding data quality (Level I) and variables’ balancing (Level II) to the equalization and tuning of the inter-block variability (Level III). Moreover, new, and more robust Level III pre-processing methods are proposed and compared with current state-of-the-art block scaling approaches in the scope of two real case studies.This thesis also provides a comprehensive and critical literature review focused on multiblock approaches followed by an extensive comparison assessment of state-of-the-art multiblock methodologies with regard to their prediction and interpretability capabilities by means of a robust statistical framework. The following state-of-the-art methods are explored: Concatenated PLS method, Hierarchical PLS (HPLS), Multiblock PLS (MBPLS), Network-Induced Supervised Learning (NI-SL), and Sequential Orthogonalized PLS (SO-PLS). Limitations and improvement opportunities of these methods are highlighted and discussed. Furthermore, as part of the contributions of this thesis, a new and more efficient multiblock methodology is presented, called Stepwise SO-PLS. This methodology conducts multiblock predictive analysis, overcoming several limitations found in current state-of-the-art methods, such as the issues of selecting the proper block order, finding out the blocks to left out, and mitigating the impact of inter-block scaling. The new method is tested on real data and the results are fully discussed.In summary, the contributions of this thesis represent an effort towards bringing multiblock data analysis to the forefront of advanced analytical methods to adopt in modern industrial data science problems, empowering practitioners with systematic and efficient frameworks to handle problems where variables can be naturally organized in blocks.
Description: Tese de Doutoramento em Engenharia Química apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/114385
Rights: openAccess
Appears in Collections:UC - Teses de Doutoramento

Files in This Item:
File SizeFormat
Tese_PhD_Maria_Campos JAN23.pdf4.76 MBAdobe PDFView/Open
Show full item record

Page view(s)

10
checked on Apr 24, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons