Development of inferential Models: Prediction of Research Octane Number in Catalytic Reforming Units

Dias, Tiago Alexandre Garcia

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/95290

Title:	Development of inferential Models: Prediction of Research Octane Number in Catalytic Reforming Units
Authors:	Dias, Tiago Alexandre Garcia
Orientador:	Reis, Marco Paulo Seabra dos Saraiva, Pedro Manuel Tavares Lopes de Andrade Oliveira, Rodolfo
Keywords:	Predictive Data Analytics; Soft Sensors; Research Octane Number; Catalytic Reforming; Linear Regression; Non Linear Regression; Análise Preditiva de Dados; Índice de Octano; Regressão Linear; Sensores Artificiais; Reformação Catalítica; Regressão Não-Linear
Issue Date:	22-Mar-2021
Project:	PD/BDE/128562/2017
Abstract:	The Research Octane Number (RON) is a key quality parameter for gasoline. It assesses the ability to resist engine knocking as the fuel burns in the combustion chamber. The main goal of this thesis is to address the critical but complex problem of predicting RON using real process data in the context of two catalytic reforming processes from a petrochemical refinery: semi regenerative catalytic reforming (SRR) and continuous catalytic reforming (CCR). In the Industry 4.0 and Big Data era, there has been a growing interest in exploring the high volumes of industrial data that is being collected and stored. In the context of the petrochemical industry, processes are equipped with many sensors recording continuously measurements from different process variables (e.g., flow rates, temperatures, pressures, pH or conductivities) mostly for process monitoring and control. There are also product quality variables that are measured in the laboratory and are registered less frequently than the process variables. These two different data sources, which are collected at different sampling rates, can be integrated and explored through advanced process analytics methodologies for developing predictive models that assist the operational management of the units. Predictive models are a valuable tool across several industries for: (i) Process and Equipment Monitoring; (ii) Process Control and Optimization; (iii) Off line Diagnosis and Engineering. Therefore, there is an increasing interest in applying process analytic methods to develop data driven or inferential models to provide real time estimates of the quality variables. Inferential models rely on the historical data of the process, in this case provided by the distributed control system (DCS) (source of process variables) and laboratory information management system (LIMS) (source of laboratory measurements). Dealing with industrial data raise many challenges, including dealing with multirate and multi-resolution structures, missing data, outliers, noisy features, redundant measurements, as well as proper model selection, training and validation. Thus, the first topic of this thesis is to propose a data analysis workflow that covers all the key aspects of developing a data driven model from data collection, cleaning and pre processing to data driven modelling, analysis and validation for a real industry refinery located in Matosinhos, Portugal. There are many regression methodologies currently available to perform predictive modelling. Therefore, an additional objective of the thesis is to develop a framework, where it could be possible to apply several regression methods from different classes and build a robust procedure to assess the predictive accuracy of the regression methods. In order to handle such a wide variety of methods, we considered regression methods from six categories: variable selection methods, penalized regression methods, latent variable methods, tree based ensemble methods, support vector machines, kernel methods (with principal components regression and partial least squares) and artificial neural networks. The set of predictive models were compared through a protocol that combines Monte Carlo Double Cross Validation for robust estimation of the methods’ parameters and hyperparameter(s); statistical hypothesis to rigorously assess the methods’ relative performances; and finally, a scoring operation to summarize the results of the pairwise comparison tests in an easily interpretable ranking of their performance. In addition, it was also developed a methodology to assess the importance of each variable. This methodology was based on the combined analysis of the regression coefficients obtained with the set of linear regression methodologies contemplated in the study. On the one hand, for the SRR data set, the non linear methods presented the best performances. On the other hand, for the CCR data set, the methods from the penalized regression class and kernel methods provided the best results. A final study was conducted to address the evolution of the catalyst deactivation and assess the value of its incorporation in a predictive modelling framework. The results have shown that this information has the potential to add value to the models for the prediction of RON. The prediction accuracy obtained with the best models can be considered very interesting, opening the possibility to use them to support operational decisions. This work shows that even under realistic settings, the adoption of appropriate advanced statistical/machine learning tools for data collection, cleaning, pre processing and modelling can indeed lead to good results and conclusions, supporting, in this case, the development of models that are able to estimate with good accuracy the RON values, and therefore to support process improvement efforts, as well as extract useful process knowledge and insights. Examples of these process benefits are: the reduction of energy consumption, increase of the catalyst lifetime cycle and reduction of CO2 emissions. O Índice de Octano (RON) é um parâmetro chave para analisar a qualidade da gasolina. O RON define a capacidade que um combustível tem para queimar corretamente num motor de combustão interna, de ignição provocada por faísca elétrica. Ou seja, mede a capacidade do combustível para resistir à detonação. O objetivo principal da tese é abordar o desafio complexo de prever o RON usando apenas dados processuais para duas unidades de reformação catalítica: uma de reformação catalítica semi regenerativa (SRR) e outra de reformação catalítica em contínuo (CCR). Na era da Indústria 4.0 e de Big Data, tem existido um elevado interesse em explorar o grande volume de dados que são adquiridos e armazenados pela indústria. No contexto da indústria petroquímica, os processos possuem um elevado número de sensores para registar as variáveis processuais (por exemplo, caudais, temperaturas, pressões, pH ou condutividades) com o objetivo principal de monitorizar e controlar o processo. Existem também variáveis de qualidade de produto que são medidas em laboratório e são adquiridas com uma menor frequência do que as variáveis de processo. Estes dois tipos diferentes de variáveis, com tempos de recolha diferentes, podem ser integrados e explorados através de metodologias analíticas avançadas para o desenvolvimento de novas soluções preditivas. Os modelos preditivos são uma ferramenta valiosa em várias indústrias para: (i) Monitorização de Processos e Equipamentos; (ii) Controlo e Otimização de Processos; (iii) Diagnóstico e Engenharia. Portanto, existe cada vez mais interesse em desenvolver métodos analíticos para desenvolver modelos inferenciais baseados em dados industriais, de modo a fornecer, em tempo real, estimativas das variáveis de qualidade. Os modelos inferenciais baseiam se no histórico de dados do processo, neste caso fornecidos pelo sistema de controlo distribuído (DCS) e pelo sistema de gestão de informações laboratoriais (LIMS) para as medições do RON. Trabalhar com dados industriais acarreta inúmeros desafios, como estruturas multirate e multiresolução, dados em falha, outliers, ruído, variáveis redundantes, seleção de variáveis, seleção de modelo e treino e validação do modelo. Portanto, a primeira etapa desta tese consistiu em propor uma metodologia de análise de dados que cobrisse todos os aspetos críticos no desenvolvimento de um modelo inferencial, desde a criação da base de dados, limpeza de dados e pré processamento dos dados até à modelação dos dados, análise e validação dos modelos para um caso de estudo real da refinaria da Galp localizada em Matosinhos, Portugal. Atualmente, existem diversos métodos de regressão para o desenvolvimento de modelos preditivos. Portanto, um objetivo adicional foi o de desenvolver uma metodologia, onde fosse possível estudar vários métodos de regressão de diferentes classes, e construir um procedimento robusto para avaliar a capacidade preditiva dos diversos métodos de regressão estudados. De forma a lidar com a grande variedade de métodos existente na literatura, foram consideradas seis categorias: métodos de seleção de variáveis, métodos de variáveis latentes, métodos de regularização, métodos de árvore de decisão, métodos de regressão por vetores de suporte, métodos kernel (baseados em algoritmos de componentes principais e mínimos quadrados parciais) e, redes neuronais artificiais. O conjunto de métodos preditivos foi comparado através de uma metodologia robusta de dupla validação cruzada de Monte Carlo para a estimação dos parâmetros e hiper parâmetro(s) de cada método; teste de hipótese estatística para avaliar rigorosamente o desempenho relativos dos métodos; e finalmente, um procedimento de avaliação dos resultados provenientes da hipótese de teste. Para finalizar, foi desenvolvida uma metodologia para avaliar a importâncias das variáveis. Esta metodologia baseou se na análise dos coeficientes de regressão obtidos para os diversos métodos de regressão linear contemplados neste estudo. Por um lado, para o conjunto de dados SRR, os métodos não lineares apresentaram os melhores desempenhos. Por outro lado, para o conjunto de dados CCR, os métodos de regularização e os métodos de kernel foram os que apresentaram melhores resultados. Foi efetuado um estudo para abordar a evolução da desativação do catalisador e avaliar a importância da sua incorporação na estrutura de modelação preditiva. Os resultados demonstram que a incorporação da informação do catalisador como preditor, acarreta potencial para o desenvolvimento de modelos para a previsão do RON. A performance obtida, dos métodos de regressão, pode ser considerada muito interessa, abrindo a possibilidade de utilizá los para apoiar decisões operacionais. Este trabalho mostra que mesmo em condições industriais, o uso de ferramentas estatísticas adequadas para a colheita, limpeza, pré processamento e modelação dos dados, pode de facto originar resultados e conclusões bastante interessantes, reforçando o desenvolvimento de modelos capazes de estimar o índice de octano. Desta forma é possível extrair informações úteis sobre o processo e torna lo mais eficiente. Exemplos destes benefícios do processo são: a redução do consumo de energia; o aumento do ciclo de vida do catalisador; e a redução de emissões de CO2.
Description:	Doctoral Thesis in Refining, Petrochemical and Chemical Engineering, presented to the Department of Chemical Engineering, Faculty od Sciences and Technology of the University of Coimbra.
URI:	https://hdl.handle.net/10316/95290
Rights:	openAccess
Appears in Collections:	UC - Teses de Doutoramento FCTUC Eng.Química - Teses de Doutoramento

Files in This Item:

File	Description	Size	Format
Tese Capa + Texto_30_07_2021.pdf		6.36 MB	Adobe PDF	View/Open

Show full item record

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Google ScholarTM

Google Scholar^TM