Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/96064
Título: Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Outros títulos: Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Autor: Pais, Eduardo de Souza
Orientador: Correia, António Dourado Pereira
Palavras-chave: Aprendizagem Computacional; Aprendizagem Profunda; Visão Computacional; Processamento de Linguagem Natural; Reconhecimento Ótico de Caracteres; Machine Learning; Deep Learning; Computer Vision; Natural Language Processing; Optical Character Recognition
Data: 21-Set-2021
Título da revista, periódico, livro ou evento: Intelligent Document Validation INTELLIGENT DOCUMENT VALIDATION USING NATURAL LANGUAGE PROCESSING AND COMPUTER VISION
Local de edição ou do evento: Critical Software, SA
Resumo: Processos em organizações ao longo dos últimos anos têm sido cada vez mais automatizados de forma torná-los mais eficientes e práticos, no entanto, uma área em que o trabalho manual ainda é comum é a de análise de documentos. Nesta área, devido à ubiquidade trazida por meios eletrónicos, a submissão de documentos tem sido feita principalmente em formato digital. Intervenção humana ainda é frequente na análise destes documentos para tarefas como validação, extração de informação e classificação. Esta análise manual tem custos elevados em termos de tempo, desempenho e possibilidade de erro humano que pode ter consequências graves em ambientes críticos.Critical Software (CSW) tem atualmente em desenvolvimento uma solução que aborda este problema, utilizando tecnologias da área de Visão Computacional (CV), Aprendizagem Computacional (ML) e Processamento de Linguagem Natural (NLP). A solução consiste num sistema de Validação Inteligente de Documentos (IDV) que valida a autenticidade dos documentos submetidos e também extrai informação útil dos mesmos de forma a tornar o processo mais eficiente e menos suscetível a erros. Este desafio é o foco principal do estágio na empresa CSW com duração de um ano letivo. Em resumo, as etapas de desenvolvimento são: treino e otimização individual de modelos textuais e visuais recorrendo a abordagens de última geração e também a recursos já em uso pela empresa, seguido da criação de modelos de ensemble e finalmente treino e otimização de um modelo híbrido baseado em técnicas utilizadas na literatura e respetiva análise de resultados.
Processes in organizations over the past few years have been increasingly automated in order to make them more efficient and practical, however, one area in which manual work is still common is document analysis. In this area, due to the ubiquity brought by electronic means, the submission of documents has been made, primarily, in digital format. Human intervention is still frequent in the analysis of these documents for tasks such as validation, information extraction and classification. This manual analysis has high costs in terms of time, performance, and possibility of human error which could have serious consequences in critical environments.Critical Software (CSW) has currently under development a solution that addresses this problem, using technologies in the area of Computer Vision (CV), Machine Learning (ML) and Natural Language Processing (NLP). The solution consists of an Intelligent Document Validation (IDV) system that validates the authenticity of the submitted documents and also extracts useful information from them in order to make the process more efficient and less susceptible to errors. At this internship the objective is to develop a hybrid IDV solution, which use textual and visual characteristics for document classification, and that can improve performance in relation to current models and, simultaneously, ensure robustness in the training of the IDV for new types of documents. This challenge is the main focus of the internship at CSW company lasting one academic year. In summary, the stages of development are: individual training and optimization of textual and image-based models using know state of the art approaches and also already in-use company resources, followed by the creation of ensemble models and finally hybrid model training and optimization based on state-of-the-art-work ending on results analysis.
Descrição: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/96064
Direitos: openAccess
Aparece nas coleções:UC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato
Eduardo de Sousa Pais.pdf2.27 MBAdobe PDFVer/Abrir
Mostrar registo em formato completo

Visualizações de página

120
Visto em 16/jul/2024

Downloads

296
Visto em 16/jul/2024

Google ScholarTM

Verificar


Este registo está protegido por Licença Creative Commons Creative Commons