Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/92477
Title: Development of an Orchestration Engine for the DS4NP Platform
Other Titles: Development of an Orchestration Engine for the DS4NP Platform
Authors: Oliveira, Ana Sofia da Silva Brito de
Orientador: Araújo, Filipe João Boavida Mendonça Machado de
Paiva, Rui Pedro Pinto de Carvalho e
Keywords: Orchestration; Microservices; Cloud Computing; Amazon Web Services; Machine Learning; Orquestração; Microsserviços; Computação na Nuvem; Amazon Web Services; Aprendizagem Computacional
Issue Date: 23-Jul-2020
Serial title, monograph or event: Development of an Orchestration Engine for the DS4NP Platform
Place of publication or event: DEI-FCTUC
Abstract: The demand for qualified people capable of extracting value from the ever-increasing volume of data is growing. More data scientists need to be trained, but training can be a time-consuming task due to the diversity of disciplines it involves. A more gradual learning curve can be achieved by abstracting programming languages from the scientists’ path. The ultimate goal of the Data Science for Non-Programmers project (DataScience4NP) is to implement data science practices rightfully without requiring programming skills, thus enabling non-programmers to be part of the data science workforce.The DataScience4NP is a platform focused on machine learning (ML) workflows and is available through a Web User Interface. It follows a microservices architecture with multiple Docker containerized services running ML algorithms orchestrated in a Kubernetes cluster. These technologies provide great flexibility in deploying and managing applications, either on-premises or on the cloud. Nevertheless, we still need an orchestration solution to manage the execution of workflows (a technology to orchestrate the ML tasks fed to the ML microservices). Netflix Conductor was the technology initially adopted for this purpose, but, because it cannot support workflows with hundreds of tasks (such as workflows involving cross-validation with repetitions), Conductor turned out to be an unsuitable solution.In this dissertation, we adopt a new approach to orchestrating ML workflows using Amazon Web Services (AWS) Step Functions with the final intention of executing more complex workflows.
Está a crescer a procura por pessoas qualificadas que sejam capazes de extrair valor do grande volume de dados gerados atualmente. Existe a necessidade de treinar novos cientistas de dados, no entanto este pode ser um processo lento e dispendioso devido às várias áreas interdisciplinares que a Ciência de Dados envolve. O tempo de aprendizagem pode ser reduzido se abstrairmos os cientistas das linguagens de programação. O objetivo do projeto Data Science for Non-Programmers (DataScience4NP) é implementar práticas usadas em Data Science de forma correta, sem serem necessários conhecimentos de programação. A aplicação foca-se em workflows de Machine Learning e está disponível através de uma interface web. Segue uma arquitetura de microsserviços conteinerizados com Docker e orquestrados num cluster de Kubernetes. Estas tecnologias providenciam uma alto nível de flexibilidade na gestão e no deployment de aplicações naCloud. No entanto, era ainda necessária uma solução para gerenciar a execução dos workflows de Machine Learning e assim orquestrar as tarefas de ML nos microsserviços. O Netflix Conductor foi a tecnologia inicialmente adoptada para esse fim mas que acabou por se revelar numa solução inadequada devido às suas limitações para executar workflows com centenas de tarefas, como por exemplo workflows que envolvam validação cruzada com repetições.Nesta dissertação, é adoptada uma nova abordagem para a orquestração dos workflows de ML usando Amazon Web Services (AWS) Step Functions para que seja possível executar workflows mais complexos.
Description: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/92477
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
Ana_Sofia_Oliveira.pdf9.56 MBAdobe PDFView/Open
Show full item record

Page view(s)

130
checked on Mar 26, 2024

Download(s)

205
checked on Mar 26, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons