Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/110712
Title: Towards an automatic training system using Few-shot Object Detection
Other Titles: Em direção a um sistema de treino automático para deteção de objetos usando poucos exemplos
Authors: Pereira, Daniel Roque
Orientador: Correia, João Nuno Gonçalves Costa Cavaleiro
Antunes, Pedro Miguel Felizardo
Keywords: Visão por computador; Aprendizagem máquina; Anotação automática de imagem; Redes Neuronais; Deteção de objetos few-shot; Computer Vision; Machine Learning; Automatic Image Annotation,; Neural Networks; Few-shot Object Detection
Issue Date: 13-Sep-2023
Serial title, monograph or event: Towards an automatic training system using Few-shot Object Detection
Place of publication or event: RedLight Software Lda
Abstract: As empresas que fornecem redes globais de supermercados enfrentam desafiosna gestão de inventário e na garantia de entregas pontuais. Estas dificuldadespodem surgir devido a atrasos na reposição de produtos, problemas de gestão ouquestões relacionadas com a entrega atempada de encomendas.Dada a ineficiência de atribuir um trabalhador da empresa para monitorizar osprocessos de cada loja, a B&N propôs uma ferramenta para detetar objetos emprateleiras através de fotografias. No entanto, a ferramenta atual exige um númerosubstancial de imagens para deteção precisa de objetos e acarreta custos significa-tivos em termos de trabalho humano para anotação, o que também pode intro-duzir erros.Com o objetivo de otimizar o processo de integração, reduzir a mão de obra hu-mana e melhorar a escalabilidade, esta dissertação explora o campo em evoluçãoda Detecção de Objetos com Poucos Exemplos (FSOD) e investiga o campo deAnotação Automática(AA). AA utiliza algoritmos de computador para uma eti-quetagem eficiente e precisa de objetos, enquanto o FSOD, em particular o FSODbaseado em meta-aprendizagem, concentra-se na deteção de objetos com umnúmero limitado de exemplos de treino. Ao combinar estas técnicas, temos comoobjetivo criar uma ferramenta escalável, eficiente em termos de tempo e semerros, adequada para automatizar os processos de integração. Este empreendi-mento é relevante para enfrentar os desafios enfrentados pelas empresas quegerem redes de supermercados globais, especialmente na gestão de inventárioe no acompanhamento de envios. A ferramenta proposta envolve a deteção deobjetos através de imagem, acompanhada pela anotação automática e treino domodelo, melhorando a eficiência do sistema existente.Após uma revisão aprofundada do Estado da Arte(SOTA), propusemos uma ar-quitetura para incorporar ambas as técnicas num processo unificado. No entanto,rapidamente descobrimos que o processo não era viável, uma vez que o FSOD eo AA são processos que demonstram uma incompatibilidade significativa, o quecomplica a sua coexistência. Como resultado, concentramo-nos inteiramente nacriação de um sistema FSOD para treino automático.Para este fim, investigamos as capacidades dos modelos YOLOv8 e FRCNN dod2 para desenvolver um modelo que pudesse corresponder às nossas expetativassem desvantagens significativas em termos de desempenho. Nesta dissertação,implementamos a técnica FSOD em dois diferentes modelos SOTA de deteção deobjetos, a fim de ser capaz de detetar objetos em prateleiras com poucas instânciasde treino. Com base nos nossos resultados, concluímos que a abordagem é viávele que a prova de conceito funciona, mas que ainda há espaço significativo parao FSOD evoluir, e deixamos pontos chave a serem explorados para uma maiorprogressão e aprimoramento do mesmo.
Companies supplying large global supermarket networks face challenges in man-aging inventory and ensuring timely shipments. These difficulties can arise fromdelays in restocking products, management issues, or problems with the timelydelivery of shipments. Given the inefficiency of assigning a company workerto monitor each store’s processes, Brands&Ninjas (B&N) has proposed a frame-work for detecting objects on shelves through photography. However, the cur-rent framework demands a substantial number of images for accurate object de-tection and incurs significant costs in terms of human labor for annotation, whichcan also introduce errors.In order to streamline the onboarding process, reduce human labor, and improvescalability, this dissertation exploits the evolving field of Few-shot Object Detec-tion (FSOD) and explores the Automatic Annotation (AA) field. AA employscomputer algorithms for efficient and accurate object labeling, while FSOD, par-ticularly meta-learning FSOD, focuses on detecting objects with limited trainingexamples. By combining these techniques, we aim to create a scalable, time-efficient, and error-free tool suitable for automating onboarding processes. Thisendeavor finds relevance in addressing challenges faced by companies managingglobal supermarket networks, particularly in inventory management and ship-ment tracking. The proposed framework involves object detection through pho-tography, accompanied by automated annotation and model training, enhancingthe efficiency of the existing system. After an in-depth review of the State of theArt, we proposed an architecture to incorporate both of these techniques into aunified process. However, we soon discovered that the process was not feasible,as FSOD and AA are processes that demonstrate significant inherent incompati-bility which complicates their coexistence. Consequently, we focused entirely oncreating an FSOD system for automatic training.We evaluated the capabilities of the YOLOv8 and Detectron2 (d2)’s Faster-RCNN(FRCNN) models to develop a model that could meet our expectations withoutsignificant drawbacks in performance. In this dissertation, we implemented theFSOD technique across 2 different object detection State of the Art (SOTA) modelsin order to be able to detect objects on shelves with few training instances. Basedon our results, we concluded that the approach is viable and the proof conceptends up working, but there is still significant room for FSOD to evolve and weleave key points to be explored for further progression and enhancement on it.
Description: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/110712
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File SizeFormat
Thesis_daniel_pereira_2018283497.pdf14.54 MBAdobe PDFView/Open
Show full item record

Page view(s)

39
checked on May 8, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons