Vision Transformers For Face Anti-Spoofing

Silva, Miguel Mendes

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/113062

Title:	Vision Transformers For Face Anti-Spoofing
Other Titles:	Vision Transformers For Face Anti-Spoofing
Authors:	Silva, Miguel Mendes
Orientador:	Batista, Jorge Manuel Moreira de Campos Pereira
Keywords:	Ataques de Apresentação,; Anti-Spoofing Facial; Informação Modal; Vision Transformer; Deep Learning; Presentation Attacks; Face Anti-Spoofing; Multi-modal Information; Vision Transformer; Deep Learning
Issue Date:	20-Jul-2023
Serial title, monograph or event:	Vision Transformers For Face Anti-Spoofing
Place of publication or event:	DEEC
Abstract:	Os sistemas de autenticação baseados em reconhecimento facial tornaram-se nos últimos anos cada vez mais populares como uma abordagem conveniente para verificar indivíduos. Este método de autenticação não intrusivo analisa propriedades faciais distintas, compara as mesmas e examina padrões nos contornos faciais de uma pessoa. No entanto, o aumento dos Ataques de Apresentação (PAs) representa uma ameaça significativa para a confiabilidade desta forma de autenticação, uma vez que impostores tentam contornar os sistemas ao fazerem-se passar por outros utilizando fotos impressas ou máscaras 3D.Portanto, para garantir a confiabilidade da autenticação facial, é crucial desenvolver sistemas de Anti-Spoofing Facial (FAS) que permitam a defesa contra todos os tipos de tentativas de falsificação e superar os desafios associados. Para além das Redes Neuronais Convolucionais (CNNs) extensivamente estudadas, a emergência dos Transformers em outras áreas de visão por computador despertou interesse em utilizar esta arquitetura no campo de ASF. Por outro lado, para além de informação RGB, a incorporação de informações modais como Profundidade e Infravermelho, também tem mostrado resultados promissores na deteção de ataques mais complexos.Nesse sentido, o objetivo principal desta tese é explorar o uso de Vision Transformers (ViTs) multi-modais para a tarefa de FAS. Baseados em contribuições existentes na literatura, os frameworks propostos baseados em ViTs utilizam imagens multi-modais e vão ser comparados a uma abordagem baseada em CNN para avaliação e comparação de desempenho. Estes frameworks serão avaliados ao nível de intra-domain, cross-domain e zero-shot usando diferentes datasets de Detecção de Ataques de Apresentação (PAD). Os resultados visam demonstrar a eficácia dos mecanismos de atenção nesse contexto e destacar os benefícios de aproveitar informações multi-modais para distinguir faces genuínas de tentativas de falsificação em aplicações de FAS. Authentication systems based on facial recognition have become increasingly popular in recent years as a convenient approach to verifying individuals. This non-intrusive authentication method analyzes distinct facial properties, compares them, and examines patterns in a person's facial contours. However, the rise of Presentation Attacks (PAs) poses a significant threat to the reliability of this form of authentication, as impostors attempt to bypass the systems by impersonating others using printed photos or 3D masks.Therefore, to ensure the reliability of facial authentication, it is crucial to develop Face Anti-Spoofing (FAS) algorithms that can effectively defend against all types of spoofing attempts and overcome associated challenges. In addition to the extensively studied Convolutional Neural Networks (CNNs), the emergence of Vision Transformers (ViTs) in other areas of computer vision has sparked interest in utilizing this deep learning architecture in the field of FAS. Furthermore, in addition to RGB data, the incorporation of multi-modal information such as Depth and Infrared, has also shown promising results in detecting more complex attacks.In this regard, the main objective of this thesis is to explore the use of multi-modal Vision Transformers for the FAS task. Based on existing contributions in the literature, the proposed ViT-based frameworks using multi-modal images will be compared to a CNN-based approach for evaluation and performance comparison. These frameworks will be evaluated at the intra-domain, cross-domain, and zero-shot levels using different Presentation Attack Detection (PAD) datasets. The results aim to demonstrate the effectiveness of attention mechanisms in this context and highlight the benefits of leveraging multi-modal information to distinguish genuine faces from spoofing attempts in FAS applications.
Description:	Dissertação de Mestrado em Engenharia Eletrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/113062
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado