6D Object Detection for Mobile Robotics targeting industrial applications: a case study

Arsénio, Gonçalo Tomaz

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/113069

Título:	6D Object Detection for Mobile Robotics targeting industrial applications: a case study
Outros títulos:	Deteção de Objetos 6D para Robótica Móvel Orientada a Aplicações Industriais: um caso de estudo
Autor:	Arsénio, Gonçalo Tomaz
Orientador:	Garrote, Luís Carlos Artur da Silva Nunes, Urbano José Carreira
Palavras-chave:	Deep Learning; 6D Object Detection; 6D Pose Estimation; Industrial Applications; Aprendizagem Profunda; Deteção de Objetos 6D; Estimação de Pose 6D; Aplicações Industriais
Data:	11-Out-2023
Título da revista, periódico, livro ou evento:	6D Object Detection for Mobile Robotics targeting industrial applications: a case study
Local de edição ou do evento:	DEEC
Resumo:	A robótica móvel pode potencialmente revolucionar muitos aspetos da indústria, desde o manuseamento de materiais e o fabrico até à realidade aumentada ou à condução autónoma. Um dos principais desafios da robótica móvel é permitir que os robôs percebam e manipulem objetos no seu ambiente com precisão. A deteção da pose 6D de um objeto é uma tarefa crítica para este fim. A perceção da pose de um objeto é também essencial para a construção de indicadores de risco que podem ser utilizados no planeamento de movimentos para auxiliar os robôs a navegar em segurança e evitar colisões. No entanto, a maioria dos métodos de deteção de objetos 6D existentes foram desenvolvidos e avaliados em contextos académicos, pelo que poderão ser necessários mais estudos para demonstrar a sua viabilidade e eficácia em ambientes industriais. É importante notar que este contexto se refere ao problema de determinar os 6 graus de liberdade de um objeto no espaço 3D, incluindo a sua posição 3D e orientação 3D. Isto pode ser conseguido usando várias técnicas, tendo como entrada apenas nuvens de pontos, imagens RGB, imagens de profundidade ou imagens RGB-D.Esta dissertação introduz várias abordagens de múltiplas etapas para a deteção de objetos 6D inspiradas na DenseFusion, englobando componentes-chave como a deteção de objetos utilizando Yolov5, extração de características de imagem, extração de características de nuvens de pontos, rede de fusão e estimativa de pose. A validação no conjunto de dados LINEMOD forneceu informações cruciais sobre a eficácia dos métodos. Uma avaliação mais aprofundada no conjunto de dados KITTI revelou comportamentos diferenciados com base na proximidade do objeto. Também foi realizada uma análise multimodal para avaliar a influência de diferentes fontes de dados de entrada no desempenho do estimador de pose, considerando as vantagens e desvantagens entre câmaras económicas e sensores LiDAR robustos, mas dispendiosos.Foi ainda introduzida uma nova abordagem que incorpora dados do sensor LiDAR, acompanhada por uma função de perda personalizada que calcula a distância Chamfer entre nuvens de pontos. Esta abordagem produziu um desempenho comparável ao obtido com objetos ground truth e a função de perda original. A investigação culminou com a validação de todos os métodos num conjunto de dados virtuais de cariz industrial desenvolvido para o efeito. Os resultados apresentados realçam a possível eficácia dos métodos introduzidos em aplicações industriais. Mobile robotics can potentially revolutionize many aspects of industry, from material handling and manufacturing to augmented reality or autonomous driving. One of the key challenges in mobile robotics is enabling robots to perceive and manipulate objects in their environment accurately. Detecting the 6D pose of an object is a critical task for this purpose. It enables robots to classify and recognize objects, estimate their poses, and track them over time. Perceiving an object's pose is also essential for building risk indicators that can be used in motion planning to help robots navigate safely and avoid collisions. However, most of the existing 6D object detection methods have been developed and evaluated in academic contexts, so further studies may be needed to demonstrate their feasibility and effectiveness in industrial environments. It is important to note that this context refers to the problem of determining an object's 6DoF in 3D space, including its 3D position and 3D orientation. This can be achieved using various techniques, with only point clouds, RGB, Depth, or RGB-D images as inputs.This dissertation introduces several multi-stage frameworks for 6D object detection inspired in DenseFusion, encompassing key components such as object detection using Yolov5, image feature extraction, point cloud feature extraction, fusion network, and pose estimation. Validation on the LINEMOD dataset provided crucial insights into method effectiveness. Further evaluation on the KITTI dataset, unveiled nuanced behaviors based on object proximity. A multimodal analysis was also conducted to assess the influence of varying input data sources on the pose estimator performance, considering the trade-offs between cost-effective cameras and robust yet expensive LiDAR sensors.Furthermore, a novel approach incorporating LiDAR sensor data was introduced, accompanied by a custom loss function calculating Chamfer distance between point clouds. This approach yielded performance comparable to that achieved with ground truth objects and the original loss function. The research culminated in the validation of all methods on a virtual industrially-focused dataset developed for this purpose, the presented results highlight the possible efficacy of the introduced methods in industrial applications.
Descrição:	Dissertação de Mestrado em Engenharia Eletrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/113069
Direitos:	embargoedAccess
Aparece nas coleções:	UC - Dissertações de Mestrado