Self-organising engine for the Cloud-to-Edge continuum

Faria, Bruno

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110708

Title:	Self-organising engine for the Cloud-to-Edge continuum
Other Titles:	Mecanismo auto-organizável para o continuum de Nuvem-a-Ponta
Authors:	Faria, Bruno
Orientador:	Abreu, David Velasquez, Karima
Keywords:	Service Function Chains; Cloud-to-Edge Continuum; Self-Healing; Machine Learning; Time-Series Classification.; Cadeias de Função de Serviço; Continuum de Nuvem-a-Ponta; Auto-Recuperação; Aprendizagem Computacional; Classificação de Séries Temporais
Issue Date:	13-Sep-2023
Project:	POCI-01-0247-FEDER-049029/Reforçar a investigação, o desenvolvimento tecnológico e a inovação
Serial title, monograph or event:	Self-organising engine for the Cloud-to-Edge continuum
Place of publication or event:	Instituto Pedro Nunes
Abstract:	In the Cloud-to-Edge continuum, heterogeneous devices are distributed in a large area, which makes it challenging to manage. Furthermore, those devices are prone to performance degradation or even failures, which can cause the services to be unavailable or unreliable. Due to the distributed nature of the devices, it is not attainable to manually detect and recover the failures of the devices. Therefore, zero-touch techniques are required to manage the devices’ failures to improve the services’ availability and reliability by speeding up the recovery process.With this in mind, this work presents a self-organising engine that can be used to manage the failures of the devices, focusing on Central Processing Unit (CPU) failures, in a Cloud-to-Edge environment, aiming to improve the service’s availability and reliability. The proposed engine comprises three main components: fault detection, prediction, and mitigation, by migrating the heaviest work to a replica. Besides the engine, a fault injector was also implemented, simulating various levels of stress to the CPU and Random Access Memory (RAM). The engine was tested in a simulated environment, using the COupled Simulation and Container Orchestration framework (COSCO) simulator.The results show that the fault injection component is able to simulate stress on the devices, which can lead to failures. Additionally, the fault detection component can detect the failures of the devices after they occur. Moreover, the fault mitigation component can alleviate the failures of the devices using replicas and thus allow the service to continue to operate. Finally, the fault prediction component can predict CPU failures with an f1 score of around 87% and 73% for binary and multi-class classification problems, respectively. Num continuum de Nuvem-a-Ponta, os dispositivos estão distribuídos por uma vasta área, o que torna desafiante a sua gestão. Além disso, esses dispositivos estão sujeitos a degradação de desempenho ou até mesmo a falhas, o que pode levar a que os serviços fiquem indisponíveis ou não fiáveis. Devido à natureza distribuída dos dispositivos, é impossível detetar e recuperar manualmente as falhas dos dispositivos. Portanto, são necessárias técnicas de toque-zero para gerir as falhas dos dispositivos e, assim, melhorar a disponibilidade e fiabilidade dos serviços, acelerando o processo de recuperação.Tendo isto em conta, este trabalho apresenta um mecanismo auto-organizável que pode ser utilizado para gerir as falhas dos dispositivos, com foco em falhas na CPU, num ambiente Nuvem-a-Ponta, visando melhorar a disponibilidade e fiabilidade dos serviços. O mecanismo proposto é composto por três componentes principais: deteção, previsão e mitigação de falhas, através da migração das tarefas mais pesadas para uma réplica. Além do mecanismo, também foi implementado um injetor de falhas que simula vários níveis de stress na CPU e RAM. O mecanismo foi testado num ambiente simulado, utilizando o simulador COSCO.Os resultados preliminares mostram que a componente de deteção de falhas consegue detetar as falhas dos dispositivos após a sua ocorrência. Além disso, a componente de mitigação de falhas consegue aliviar as falhas dos dispositivos utilizando réplicas e, assim, permitir que o serviço continue a funcionar. Adicionalmente, a componente de injeção de falhas é capaz de simular stress nos dispositivos, podendo eventualmente levar a falhas. Por fim, a componente de previsão de falhas consegue prever falhas na CPU com um f1 score de cerca de 87% para problemas de classificação binária e 73% para problemas de classificação multiclasse.
Description:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/110708
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Size	Format
main.pdf	7.11 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

120

checked on Jul 17, 2024

Download(s)

100

checked on Jul 17, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM