DEEPRL-BASED DYNAMIC MOTION PLANNING FOR ROBOT NAVIGATION IN UNKNOWN INDOOR ENVIRONMENTS

Gonçalves, Gabriel de Jesus Simões

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/113088

Título:	DEEPRL-BASED DYNAMIC MOTION PLANNING FOR ROBOT NAVIGATION IN UNKNOWN INDOOR ENVIRONMENTS
Outros títulos:	PLANEAMENTO DINÂMICO DE MOVIMENTO BASEADO EM DEEPRL PARA NAVEGAÇÃO DE ROBÔS EM AMBIENTES INTERIORES DESCONHECIDOS
Autor:	Gonçalves, Gabriel de Jesus Simões
Orientador:	Garrote, Luís Carlos Artur da Silva Nunes, Urbano José Carreira
Palavras-chave:	Mobile Robot Navigation; Local Motion Planning; Deep Reinforcement Learning; Curriculum Learning; Dynamic environments; Navegação de Robôs Móveis; Planeamento de Movimento Local; Aprendizagem Profunda por Reforço; Aprendizagem por Currículo; Ambientes Dinâmicos
Data:	21-Set-2023
Título da revista, periódico, livro ou evento:	DEEPRL-BASED DYNAMIC MOTION PLANNING FOR ROBOT NAVIGATION IN UNKNOWN INDOOR ENVIRONMENTS
Local de edição ou do evento:	DEEC
Resumo:	Mobile robots are progressively taking over tasks in various industries, from industrial operations to space exploration, enhancing efficiency, safety, and productivity while also expanding the possibilities for automation and exploration in challenging environments. Difficulties in performing tasks such as navigation, target recognition and obstacle avoidance must be overcome. Motion planning is a crucial component within mobile robot navigation that establishes a route from an initial to a target point. However, in unknown domains, this task becomes significantly more challenging. In the absence of a global map of the environment, a local navigation strategy must be exploited. In local motion planning, short-term paths are devised based on real-time sensory observations of the surrounding environment. This dissertation proposes a RL-based approach to solve robot local motion planning in environments populated by both static and dynamic obstacles. It leverages the Double Dueling Deep Q-Network and a costmap representation of the robot's surrounding environment paired with distances and orientation measurements to define the RL state model. In conventional DeepRL approaches, experiences used to train the RL agent are usually sampled uniformly. In this work, the prioritized experience replay technique is implemented to enhance the learning efficiency by giving priority to training samples with higher impact. Reward propagation was also implemented to address the delayed rewards' problem common in RL, by assigning responsibility for a specific outcome to the various actions that contributed to it. The introduced motion planning algorithm comprises two separate stages: training and testing. During training, the agent learns via trial-and-error which actions lead to a collision-free movement towards the target. The testing phase assesses the agent's decision-making strategy in an online stage. To enhance the training stage, facilitating convergence and improving long-term generalization, curriculum learning techniques were integrated. Evaluation and validation took place within Gazebo simulation environments using the turtlebot virtual robot. The presented results showcase the developed framework's effectiveness in both static and dynamic environments, highlighting the benefits of the proposed techniques. Os robôs móveis estão a assumir cada vez mais tarefas em diversas áreas, desde aplicações industriais até exploração espacial, aumentando a eficiência, segurança e produtividade, e expandindo as possibilidades de automação e exploração em ambientes complexos. Dificuldades na execução de tarefas como navegação, reconhecimento de alvos e desvio de obstáculos devem ser superadas. O planeamento de movimento é um componente crucial na navegação de robôs móveis que estabelece uma rota de um ponto inicial para um ponto destino. No entanto, em domínios desconhecidos, esta tarefa torna-se significativamente mais complicada. Na ausência de um mapa global do ambiente, uma estratégia de navegação local deve ser explorada. No planeamento de movimento local, trajetos de curto prazo são elaboradas com base em observações sensoriais do ambiente envolvente em tempo real. Esta dissertação propõe uma abordagem baseada em DeepRL para resolver o planeamento de movimento local de robôs em ambientes com obstáculos estáticos e dinâmicos. Beneficia da utilização de uma Double Dueling Deep Q-Network, e de uma representação de mapa de custos do ambiente circundante do robô, em conjunto com medidas de distância e orientação para definir o modelo de estado de RL. Nas abordagens convencionais de DeepRL, as experiências usadas para treinar o agente de RL são amostradas de forma uniforme. Neste trabalho, a técnica de repetição de experiência priorizada é implementada para melhorar a eficiência da aprendizagem, dando prioridade às amostras de treino com maior impacto. A propagação de recompensas também foi implementada para lidar com o problema de recompensas atrasadas comuns em RL, atribuindo responsabilidade por um resultado específico às várias ações que contribuíram para o mesmo. O algoritmo de planeamento de movimento introduzido envolve duas etapas distintas: treino e teste. Durante o treino, o agente aprende, por tentativa e erro, as ações que levam a um movimento sem colisões em direção ao alvo. A fase de teste avalia a estratégia de tomada de decisão do agente numa etapa ‘online’. Para aprimorar a etapa de treino, facilitando a convergência e melhorando a generalização a longo prazo, foram integradas técnicas de aprendizado por currículo. A avaliação e validação foram efetuadas em ambientes de simulação Gazebo utilizando o robô virtual turtlebot. Os resultados apresentados destacam a eficácia da estrutura desenvolvida em ambientes estáticos e dinâmicos, bem como as vantagens das técnicas propostas.
Descrição:	Dissertação de Mestrado em Engenharia Eletrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/113088
Direitos:	openAccess
Aparece nas coleções:	UC - Dissertações de Mestrado