Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/113062
DC FieldValueLanguage
dc.contributor.advisorBatista, Jorge Manuel Moreira de Campos Pereira-
dc.contributor.authorSilva, Miguel Mendes-
dc.date.accessioned2024-02-05T23:01:48Z-
dc.date.available2024-02-05T23:01:48Z-
dc.date.issued2023-07-20-
dc.date.submitted2024-02-05-
dc.identifier.urihttps://hdl.handle.net/10316/113062-
dc.descriptionDissertação de Mestrado em Engenharia Eletrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia-
dc.description.abstractOs sistemas de autenticação baseados em reconhecimento facial tornaram-se nos últimos anos cada vez mais populares como uma abordagem conveniente para verificar indivíduos. Este método de autenticação não intrusivo analisa propriedades faciais distintas, compara as mesmas e examina padrões nos contornos faciais de uma pessoa. No entanto, o aumento dos Ataques de Apresentação (PAs) representa uma ameaça significativa para a confiabilidade desta forma de autenticação, uma vez que impostores tentam contornar os sistemas ao fazerem-se passar por outros utilizando fotos impressas ou máscaras 3D.Portanto, para garantir a confiabilidade da autenticação facial, é crucial desenvolver sistemas de Anti-Spoofing Facial (FAS) que permitam a defesa contra todos os tipos de tentativas de falsificação e superar os desafios associados. Para além das Redes Neuronais Convolucionais (CNNs) extensivamente estudadas, a emergência dos Transformers em outras áreas de visão por computador despertou interesse em utilizar esta arquitetura no campo de ASF. Por outro lado, para além de informação RGB, a incorporação de informações modais como Profundidade e Infravermelho, também tem mostrado resultados promissores na deteção de ataques mais complexos.Nesse sentido, o objetivo principal desta tese é explorar o uso de Vision Transformers (ViTs) multi-modais para a tarefa de FAS. Baseados em contribuições existentes na literatura, os frameworks propostos baseados em ViTs utilizam imagens multi-modais e vão ser comparados a uma abordagem baseada em CNN para avaliação e comparação de desempenho. Estes frameworks serão avaliados ao nível de intra-domain, cross-domain e zero-shot usando diferentes datasets de Detecção de Ataques de Apresentação (PAD). Os resultados visam demonstrar a eficácia dos mecanismos de atenção nesse contexto e destacar os benefícios de aproveitar informações multi-modais para distinguir faces genuínas de tentativas de falsificação em aplicações de FAS.por
dc.description.abstractAuthentication systems based on facial recognition have become increasingly popular in recent years as a convenient approach to verifying individuals. This non-intrusive authentication method analyzes distinct facial properties, compares them, and examines patterns in a person's facial contours. However, the rise of Presentation Attacks (PAs) poses a significant threat to the reliability of this form of authentication, as impostors attempt to bypass the systems by impersonating others using printed photos or 3D masks.Therefore, to ensure the reliability of facial authentication, it is crucial to develop Face Anti-Spoofing (FAS) algorithms that can effectively defend against all types of spoofing attempts and overcome associated challenges. In addition to the extensively studied Convolutional Neural Networks (CNNs), the emergence of Vision Transformers (ViTs) in other areas of computer vision has sparked interest in utilizing this deep learning architecture in the field of FAS. Furthermore, in addition to RGB data, the incorporation of multi-modal information such as Depth and Infrared, has also shown promising results in detecting more complex attacks.In this regard, the main objective of this thesis is to explore the use of multi-modal Vision Transformers for the FAS task. Based on existing contributions in the literature, the proposed ViT-based frameworks using multi-modal images will be compared to a CNN-based approach for evaluation and performance comparison. These frameworks will be evaluated at the intra-domain, cross-domain, and zero-shot levels using different Presentation Attack Detection (PAD) datasets. The results aim to demonstrate the effectiveness of attention mechanisms in this context and highlight the benefits of leveraging multi-modal information to distinguish genuine faces from spoofing attempts in FAS applications.eng
dc.language.isoeng-
dc.rightsopenAccess-
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/-
dc.subjectAtaques de Apresentação,por
dc.subjectAnti-Spoofing Facialpor
dc.subjectInformação Modalpor
dc.subjectVision Transformerpor
dc.subjectDeep Learningpor
dc.subjectPresentation Attackseng
dc.subjectFace Anti-Spoofingeng
dc.subjectMulti-modal Informationeng
dc.subjectVision Transformereng
dc.subjectDeep Learningeng
dc.titleVision Transformers For Face Anti-Spoofingeng
dc.title.alternativeVision Transformers For Face Anti-Spoofingpor
dc.typemasterThesis-
degois.publication.locationDEEC-
degois.publication.titleVision Transformers For Face Anti-Spoofingeng
dc.peerreviewedyes-
dc.identifier.tid203511425-
thesis.degree.disciplineEngenharia Electrotécnica e de Computadores-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.level1-
thesis.degree.nameMestrado em Engenharia Eletrotécnica e de Computadores-
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Eng. Electrotécnica e de Computadores-
uc.degree.grantorID0500-
uc.contributor.authorSilva, Miguel Mendes::0009-0000-0860-0439-
uc.degree.classification18-
uc.degree.presidentejuriDias, Jorge Manuel Miranda-
uc.degree.elementojuriBatista, Jorge Manuel Moreira de Campos Pereira-
uc.degree.elementojuriGonçalves, Nuno Miguel Mendonça da Silva-
uc.contributor.advisorBatista, Jorge Manuel Moreira de Campos Pereira-
item.openairetypemasterThesis-
item.fulltextCom Texto completo-
item.languageiso639-1en-
item.grantfulltextopen-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
Appears in Collections:UC - Dissertações de Mestrado
Files in This Item:
File SizeFormat
MIguel_Silva_FAS_versaofinal_corrigida.pdf11.72 MBAdobe PDFView/Open
Show simple item record

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons