Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/96064
Title: Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Other Titles: Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Authors: Pais, Eduardo de Souza
Orientador: Correia, António Dourado Pereira
Keywords: Aprendizagem Computacional; Aprendizagem Profunda; Visão Computacional; Processamento de Linguagem Natural; Reconhecimento Ótico de Caracteres; Machine Learning; Deep Learning; Computer Vision; Natural Language Processing; Optical Character Recognition
Issue Date: 21-Sep-2021
Serial title, monograph or event: Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Place of publication or event: Critical Software, SA
Abstract: Processos em organizações ao longo dos últimos anos têm sido cada vez mais automatizados de forma torná-los mais eficientes e práticos, no entanto, uma área em que o trabalho manual ainda é comum é a de análise de documentos. Nesta área, devido à ubiquidade trazida por meios eletrónicos, a submissão de documentos tem sido feita principalmente em formato digital. Intervenção humana ainda é frequente na análise destes documentos para tarefas como validação, extração de informação e classificação. Esta análise manual tem custos elevados em termos de tempo, desempenho e possibilidade de erro humano que pode ter consequências graves em ambientes críticos.Critical Software (CSW) tem atualmente em desenvolvimento uma solução que aborda este problema, utilizando tecnologias da área de Visão Computacional (CV), Aprendizagem Computacional (ML) e Processamento de Linguagem Natural (NLP). A solução consiste num sistema de Validação Inteligente de Documentos (IDV) que valida a autenticidade dos documentos submetidos e também extrai informação útil dos mesmos de forma a tornar o processo mais eficiente e menos suscetível a erros. Este desafio é o foco principal do estágio na empresa CSW com duração de um ano letivo. Em resumo, as etapas de desenvolvimento são: treino e otimização individual de modelos textuais e visuais recorrendo a abordagens de última geração e também a recursos já em uso pela empresa, seguido da criação de modelos de ensemble e finalmente treino e otimização de um modelo híbrido baseado em técnicas utilizadas na literatura e respetiva análise de resultados.
Processes in organizations over the past few years have been increasingly automated in order to make them more efficient and practical, however, one area in which manual work is still common is document analysis. In this area, due to the ubiquity brought by electronic means, the submission of documents has been made, primarily, in digital format. Human intervention is still frequent in the analysis of these documents for tasks such as validation, information extraction and classification. This manual analysis has high costs in terms of time, performance, and possibility of human error which could have serious consequences in critical environments.Critical Software (CSW) has currently under development a solution that addresses this problem, using technologies in the area of Computer Vision (CV), Machine Learning (ML) and Natural Language Processing (NLP). The solution consists of an Intelligent Document Validation (IDV) system that validates the authenticity of the submitted documents and also extracts useful information from them in order to make the process more efficient and less susceptible to errors. At this internship the objective is to develop a hybrid IDV solution, which use textual and visual characteristics for document classification, and that can improve performance in relation to current models and, simultaneously, ensure robustness in the training of the IDV for new types of documents. This challenge is the main focus of the internship at CSW company lasting one academic year. In summary, the stages of development are: individual training and optimization of textual and image-based models using know state of the art approaches and also already in-use company resources, followed by the creation of ensemble models and finally hybrid model training and optimization based on state-of-the-art-work ending on results analysis.
Description: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/96064
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
Eduardo de Sousa Pais.pdf2.27 MBAdobe PDFView/Open
Show full item record

Page view(s)

105
checked on Apr 23, 2024

Download(s)

259
checked on Apr 23, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons