Vision Transformers For Face Anti-Spoofing

Silva, Miguel Mendes

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/113062

DC Field	Value	Language
dc.contributor.advisor	Batista, Jorge Manuel Moreira de Campos Pereira	-
dc.contributor.author	Silva, Miguel Mendes	-
dc.date.accessioned	2024-02-05T23:01:48Z	-
dc.date.available	2024-02-05T23:01:48Z	-
dc.date.issued	2023-07-20	-
dc.date.submitted	2024-02-05	-
dc.identifier.uri	https://hdl.handle.net/10316/113062	-
dc.description	Dissertação de Mestrado em Engenharia Eletrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia	-
dc.description.abstract	Os sistemas de autenticação baseados em reconhecimento facial tornaram-se nos últimos anos cada vez mais populares como uma abordagem conveniente para verificar indivíduos. Este método de autenticação não intrusivo analisa propriedades faciais distintas, compara as mesmas e examina padrões nos contornos faciais de uma pessoa. No entanto, o aumento dos Ataques de Apresentação (PAs) representa uma ameaça significativa para a confiabilidade desta forma de autenticação, uma vez que impostores tentam contornar os sistemas ao fazerem-se passar por outros utilizando fotos impressas ou máscaras 3D.Portanto, para garantir a confiabilidade da autenticação facial, é crucial desenvolver sistemas de Anti-Spoofing Facial (FAS) que permitam a defesa contra todos os tipos de tentativas de falsificação e superar os desafios associados. Para além das Redes Neuronais Convolucionais (CNNs) extensivamente estudadas, a emergência dos Transformers em outras áreas de visão por computador despertou interesse em utilizar esta arquitetura no campo de ASF. Por outro lado, para além de informação RGB, a incorporação de informações modais como Profundidade e Infravermelho, também tem mostrado resultados promissores na deteção de ataques mais complexos.Nesse sentido, o objetivo principal desta tese é explorar o uso de Vision Transformers (ViTs) multi-modais para a tarefa de FAS. Baseados em contribuições existentes na literatura, os frameworks propostos baseados em ViTs utilizam imagens multi-modais e vão ser comparados a uma abordagem baseada em CNN para avaliação e comparação de desempenho. Estes frameworks serão avaliados ao nível de intra-domain, cross-domain e zero-shot usando diferentes datasets de Detecção de Ataques de Apresentação (PAD). Os resultados visam demonstrar a eficácia dos mecanismos de atenção nesse contexto e destacar os benefícios de aproveitar informações multi-modais para distinguir faces genuínas de tentativas de falsificação em aplicações de FAS.	por
dc.description.abstract	Authentication systems based on facial recognition have become increasingly popular in recent years as a convenient approach to verifying individuals. This non-intrusive authentication method analyzes distinct facial properties, compares them, and examines patterns in a person's facial contours. However, the rise of Presentation Attacks (PAs) poses a significant threat to the reliability of this form of authentication, as impostors attempt to bypass the systems by impersonating others using printed photos or 3D masks.Therefore, to ensure the reliability of facial authentication, it is crucial to develop Face Anti-Spoofing (FAS) algorithms that can effectively defend against all types of spoofing attempts and overcome associated challenges. In addition to the extensively studied Convolutional Neural Networks (CNNs), the emergence of Vision Transformers (ViTs) in other areas of computer vision has sparked interest in utilizing this deep learning architecture in the field of FAS. Furthermore, in addition to RGB data, the incorporation of multi-modal information such as Depth and Infrared, has also shown promising results in detecting more complex attacks.In this regard, the main objective of this thesis is to explore the use of multi-modal Vision Transformers for the FAS task. Based on existing contributions in the literature, the proposed ViT-based frameworks using multi-modal images will be compared to a CNN-based approach for evaluation and performance comparison. These frameworks will be evaluated at the intra-domain, cross-domain, and zero-shot levels using different Presentation Attack Detection (PAD) datasets. The results aim to demonstrate the effectiveness of attention mechanisms in this context and highlight the benefits of leveraging multi-modal information to distinguish genuine faces from spoofing attempts in FAS applications.	eng
dc.language.iso	eng	-
dc.rights	openAccess	-
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	-
dc.subject	Ataques de Apresentação,	por
dc.subject	Anti-Spoofing Facial	por
dc.subject	Informação Modal	por
dc.subject	Vision Transformer	por
dc.subject	Deep Learning	por
dc.subject	Presentation Attacks	eng
dc.subject	Face Anti-Spoofing	eng
dc.subject	Multi-modal Information	eng
dc.subject	Vision Transformer	eng
dc.subject	Deep Learning	eng
dc.title	Vision Transformers For Face Anti-Spoofing	eng
dc.title.alternative	Vision Transformers For Face Anti-Spoofing	por
dc.type	masterThesis	-
degois.publication.location	DEEC	-
degois.publication.title	Vision Transformers For Face Anti-Spoofing	eng
dc.peerreviewed	yes	-
dc.identifier.tid	203511425	-
thesis.degree.discipline	Engenharia Electrotécnica e de Computadores	-
thesis.degree.grantor	Universidade de Coimbra	-
thesis.degree.level	1	-
thesis.degree.name	Mestrado em Engenharia Eletrotécnica e de Computadores	-
uc.degree.grantorUnit	Faculdade de Ciências e Tecnologia - Departamento de Eng. Electrotécnica e de Computadores	-
uc.degree.grantorID	0500	-
uc.contributor.author	Silva, Miguel Mendes::0009-0000-0860-0439	-
uc.degree.classification	18	-
uc.degree.presidentejuri	Dias, Jorge Manuel Miranda	-
uc.degree.elementojuri	Batista, Jorge Manuel Moreira de Campos Pereira	-
uc.degree.elementojuri	Gonçalves, Nuno Miguel Mendonça da Silva	-
uc.contributor.advisor	Batista, Jorge Manuel Moreira de Campos Pereira	-
item.openairetype	masterThesis	-
item.fulltext	Com Texto completo	-
item.languageiso639-1	en	-
item.grantfulltext	open	-
item.cerifentitytype	Publications	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Size	Format
MIguel_Silva_FAS_versaofinal_corrigida.pdf	11.72 MB	Adobe PDF	View/Open

Show simple item record

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Google ScholarTM

Google Scholar^TM