Adaptive Depth Map Estimation for Light Field Cameras using Machine Learning

Figueiredo, Daniel Jorge Oliveira

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/81638

Título:	Adaptive Depth Map Estimation for Light Field Cameras using Machine Learning
Outros títulos:	Mapa denso de profundidade para câmaras de campo de luz multi-focus - uma implementação melhorada e eficiente
Autor:	Figueiredo, Daniel Jorge Oliveira
Orientador:	Gonçalves, Nuno Miguel Mendonça da Silva
Palavras-chave:	Câmaras Plenópticas; Campo de luz; Estimação de profundidade; Dados plenópticos simulados; Raytrix; Plenoptic Cameras; Light Field; Depth Estimation; Synthetic Plenoptic data; Raytrix
Data:	29-Set-2016
Título da revista, periódico, livro ou evento:	Adaptive Depth Map Estimation for Light Field Cameras using Machine Learning
Local de edição ou do evento:	DEEC
Resumo:	Câmaras de campo de luz, também conhecidas por câmaras plenópticas, capturam informação redundante sobre a luz que emana de uma cena. Esta redundância permite a estimação da profundidade da cena, bem como a focagem da imagem depois desta ser tirada. Apesar do conceito por de trás das câmaras de campo de luz ter sido formalizado em 1908, foi apenas recentemente que estas câmaras começaram a ser comercializadas.Existem dois tipos de câmaras plenópticas, a câmara plenóptica standard e a câmara plenoptica multi-focus, sendo que a Lytro é o fabricante mais conhecido para a câmara plenóptica standard e a Raytrix para a multi-focus. Apesar das vantagens demonstradas pela câmara plenóptica standard, como a sua simplicidade e o seu preço reduzido, no nosso trabalho utilizamos imagens tiradas por uma câmara plenóptica multi-focus devido à sua qualidade e à sua maior resolução.Nesta tese apresentamos um algoritmo automático capaz de estimar a profundidade de uma cena como se fosse capturada por uma câmara convencional.A estimação de profundidade é iniciada com um algoritmo tipo RANSAC que gera uma nuvem de pontos. Uma vez que esta nuvem de pontos contém outliers, no trabalho anterior, foi aplicado um filtro de remoção de outliers de forma a obter um resultado mais preciso. Esta nuvem de pontos não é imune a oclusões. De forma a resolver este problema aplicamos um z-buffer, eliminando, desta forma, todos os pontos ocluídos. No que diz respeito às melhorias na estimação do mapa de profundidades, apresentamos um método de "supervised machine learning" que gera um mapa adaptativo com várias profundidades por micro lente, sendo uma alternativa sólida aos métodos apresentados nos trabalhos anteriores. Este mapa de profundidades irá servir como um passo intermédio para a geração do mapa denso de profundidades. Apresentamos ainda uma implementação do algoritmo de sintetização do mapa denso de profundidades. Com as melhorias introduzidas neste algoritmo somos capazes de estimar um mapa denso de profundidades independentemente do número de profundidades por micro lente presente no mapa intermédio.No trabalho anterior foi criado um simulador de imagens plenópticas, permitindo criar data sets plenópticos com parâmetros específicos. Sabendo a profundidade real destes data sets podemos calcular o erro presente nas nossas estimações. Isto permite-nos testar o algoritmo, melhorar o algoritmo e fornecer orientações para trabalhos futuros.O nosso algoritmo foi também testado com imagens plenópticas disponibilizadas publicamente pela Raytrix, mas, uma vez que a Raytrix não fornece a profundidade real dos seus data sets, não nos é possível calcular o erro das nossas estimações, desta forma apenas nos é possível fazer uma comparação visual dos resultados. Light field cameras, also known as plenoptic cameras, capture redundant information from the light that emanates from a scene. This redundancy allows a depth estimation of the captured scene and to refocus the image after it has been taken. Even though the light field camera's concept was first formalized in 1908, it was not until recently that these cameras were produced for commercial use. There are two types of plenoptic cameras, the standard plenoptic camera and the multi-focus plenoptic camera, being Lytro the most popular manufacturer of the standard plenoptic and Raytrix the most popular manufacturer of the multi-focus one. Despite the advantages of the standard plenoptic camera like their simplicity and lower price, our work uses results captured by a multi-focus plenoptic camera due to its quality and higher resolution images.In this thesis we present an automatic algorithm capable of estimating the depth of a captured scene as if it was taken by a pinhole camera. The depth estimation starts with a RANSAC-like algorithm, generating a point cloud. Since this point cloud contains some outliers, in the previous work, an outlier removal filter was applied to achieve a more accurate point set. This point cloud is not immune to occlusions so, in order to solve this problem, we applied a z-buffer, eliminating all the occluded points from the point cloud. Regarding the depth estimation improvements, we present a supervised machine learning method that generates an adaptive depth map with several depths per micro lens, presenting a solid alternative to the methods presented in the previous work. This depth map will serve as an intermediate step to the dense depth map generation.We also present an improved implementation of the dense depth map synthesization algorithm. With the improvements made to this algorithm we are able to estimate a dense depth map regardless of the number of depths per micro lens of the intermediate depth map. On the previous work a plenoptic data simulator was introduced, allowing us to create plenoptic data sets with specific parameters. By knowing the depth ground truth of these data sets we are able to measure the error between our estimation and the ground truth. Being able to do this we can test and improve our algorithm and provide guidelines to future work. Our algorithm was also tested with real plenoptic images provided by Raytrix, but, since Raytrix does not provide the depth ground truth of their data sets, we can not compute the error of our estimations, thus we are only able to make a visual comparison of the results.
Descrição:	Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/81638
Direitos:	openAccess
Aparece nas coleções:	UC - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
tese.pdf		82.37 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo

Visualizações de página 50

576

Visto em 23/abr/2024

Downloads 50

530

Visto em 23/abr/2024

Google Scholar^TM

Verificar

Este registo está protegido por Licença Creative Commons

Ficheiros deste registo:

Visualizações de página 50

Downloads 50

Google ScholarTM

Google Scholar^TM