Pseudo RGB-D Facial Image Processing - Towards Face Recognition and Facial Diagnosis

Jin, Bo

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/114679

Título:	Pseudo RGB-D Facial Image Processing - Towards Face Recognition and Facial Diagnosis
Outros títulos:	Processamento de Imagens Faciais Pseudo RGB-D para Reconhecimento Facial e Diagnóstico Facial
Autor:	Jin, Bo
Orientador:	Cruz, Leandro Moraes Valle Gonçalves, Nuno Miguel Mendonça da Silva
Palavras-chave:	Reconhecimento facial pseudo RGB-D; Diagnóstico facial profundo; Rede Adversarial Generativa com Profundidade Adicional (D+GAN); Estimativa de profundidade facial monocular; Rostos específicos de doenças; Pseudo RGB-D face recognition; Deep facial diagnosis; Depth Plus Generative Adversarial Network (D+GAN); Monocular face depth estimation; Disease-specific faces
Data:	20-Dez-2023
Título da revista, periódico, livro ou evento:	Pseudo RGB-D Facial Image Processing - Towards Face Recognition and Facial Diagnosis
Local de edição ou do evento:	DEEC
Resumo:	Hoje em dia, aplicações baseadas em imagens faciais tornaram-se generalizadas em campos como segurança, medicina e entretenimento. Fatores como iluminação, pose e expressões faciais podem impactar o desempenho dessas aplicações. Na última década, o desenvolvimento e a acessibilidade de sensores RGB-D de baixo custo tornaram possível obter informações de profundidade de objetos, levando os pesquisadores a abordar problemas de reconhecimento facial capturando imagens faciais RGB-D. No entanto, devido a restrições de privacidade, a obtenção de dados de profundidade de rostos humanos permanece um desafio, e as imagens faciais RGB 2D ainda são predominantes.Seres inteligentes, como os humanos, podem usar sua vasta experiência para derivar informações espaciais 3D de cenas 2D. As metodologias de aprendizado de máquina visam resolver tais problemas treinando computadores para gerar respostas precisas. O objetivo de nossa pesquisa é melhorar o desempenho das tarefas de processamento facial subsequentes, como reconhecimento facial e diagnóstico facial, obtendo mapas de profundidade diretamente das imagens RGB correspondentes. Propomos uma estrutura de processamento de imagem facial pseudo RGB-D que substitui sensores de profundidade com mapas pseudo-profundidade gerados e oferece métodos orientados a dados para criar mapas de profundidade a partir de imagens faciais 2D.Especificamente, projetamos e implementamos um modelo de rede adversarial generativa chamado 'D+GAN' para tradução de imagem para imagem multi-condicional com atributos faciais. Validamos a abordagem de processamento de imagem facial pseudo RGB-D através de experimentos em reconhecimento facial e diagnóstico facial usando vários conjuntos de dados. A estrutura de processamento de imagem facial pseudo RGB-D trabalha em conjunto com algoritmos de fusão de imagens para melhorar o desempenho do reconhecimento facial e diagnóstico facial.Para explorar ainda mais as características pseudo-profundidade, propomos finalmente uma estrutura de processamento de imagem facial multimodal simulada que melhora significativamente o desempenho com uma probabilidade mais alta. Today, face image-based applications have become widespread in fields such as security, medicine, and entertainment. Factors like lighting, pose, and facial expressions can impact the performance of these applications. Over the past decade, the development and affordability of low-cost RGB-D sensors have made it possible to obtain depth information of objects, leading researchers to tackle face recognition problems by capturing RGB-D face images. However, due to privacy restrictions, acquiring depth data from human faces remains challenging, and 2D RGB face images are still prevalent.Intelligent beings, such as humans, can use their vast experience to derive 3D spatial information from 2D scenes. Machine learning methodologies aim to solve such problems by training computers to generate accurate answers. Our research's objective is to enhance the performance of subsequent face processing tasks, such as face recognition and facial diagnosis, by obtaining depth maps directly from corresponding RGB images. We propose a pseudo RGB-D facial image processing framework that replaces depth sensors with generated pseudo-depth maps and offers data-driven methods to create depth maps from 2D face images.Specifically, we design and implement a generative adversarial network model named 'D+GAN' for multi-conditional image-to-image translation with facial attributes. We validate the pseudo RGB-D facial image processing approach through experiments on face recognition and facial diagnosis using various datasets. The pseudo RGB-D facial image processing framework works in conjunction with image fusion algorithms to enhance face recognition and facial diagnosis performance.To further exploit pseudo-depth features, we ultimately propose a simulated multimodal facial image processing framework that significantly improves performance with a higher probability.
Descrição:	Tese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/114679
Direitos:	embargoedAccess
Aparece nas coleções:	UC - Teses de Doutoramento

Ficheiros deste registo:

Ficheiro	Tamanho	Formato	Entrar
UCTese_Jin.pdf	26.33 MB	Adobe PDF	Acesso Embargado Pedir uma cópia

Mostrar registo em formato completo

Visualizações de página

62

Visto em 17/jul/2024

Downloads

2

Visto em 17/jul/2024

Google Scholar^TM

Verificar

Este registo está protegido por Licença Creative Commons

Ficheiros deste registo:

Visualizações de página

Downloads

Google ScholarTM

Google Scholar^TM