Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/92530
Title: Intelligent Document Validation Using Computer Vision and Natural Language Processing
Other Titles: Intelligent Document Validation Using Computer Vision and Natural Language Processing
Authors: Castilho, João Filipe Mendes
Orientador: Henriques, Jorge Manuel Oliveira
Keywords: Aprendizagem Computacional; Visão Computacional; Processamento de Linguagem Natural; Processamento de Imagens; Aprendizagem Profunda; Machine Learning; Computer Vision; Natural Language Processing; Image Processing; Deep Learning
Issue Date: 6-Jul-2020
Serial title, monograph or event: Intelligent Document Validation Using Computer Vision and Natural Language Processing
Place of publication or event: Critical Software, S.A.
Abstract: Nos últimos anos, produz-se cada vez mais informação que necessita de estar facilmente disponível e acessível. Esta necessidade levou a uma crescente digitalização da informação de forma a satisfazer as exigências dos utilizadores. Este processo pode ser realizado atravésde trabalho manual, ou através de scanning de ficheiros. A primeira opção fornece melhores resultados, visto que a informação passa a ser "editável", no entanto, é um processo moroso, repetitivo e suscetível a falhas. A segunda opção é bastante mais rápida, no entanto,a informação acaba por estar em formato de imagem, o que torna difícil a sua gestão e organização. Mesmo que nesta segunda abordagem se utilize uma ferramenta de Reconhecimento de Caracteres Óptico (RCO), a informação não fica estruturada, o que torna bastante ´complexo o processo de pesquisa e organização.A CRITICAL Software (CSW) está a desenvolver uma plataforma de análise de documentos, que oferece inúmeros serviços, onde se destacam o serviço de classificação de documentos e o serviço de extração e análise de informação. O estágio realizado na empresa CSW, com a duração de um ano letivo, foca-se no serviço de extração e análise da informação de documentos. Tem como principal objetivo implementar uma prova de conceito de um algoritmo de extração e análise de informação de documentos na plataforma da CSW, o Intelligent Document Validation (IDV). O estágio desenvolvou-se em três etapas. Na primeira etapa, foram explorados artigos de investigação de algoritmos do estado da arte da análise de informação de documentos e foram selecionados os algoritmos CloudScan, CUTIE, Chargrid e BERTGrid. Na segunda etapa, foram implementados os algoritmos selecionados na etapa anterior e respetivas variantes num total de 9 algoritmos. Na terceira etapa, foi realizada a análise de optimização e comparação do desempenho dos algoritmos implementados. Estes algoritmos foram testados num conjunto de dados composto por 1210 faturas e, concluiu-se que o algoritmo com melhor desempenho resulta de uma variante que combina os algoritmos do Chargrid com BERTgrid, cujo desempenho geral foi de 85.89% com a métrica F1-Score. Como prova de conceito, esta versão foi implementada com sucesso na plataforma IDV da CSW.
In recent years, more and more information has been produced that needs to be easily available and accessible. This need has led to an increasing digitization of information in order to meet the demands of users. This process can be carried out through manual work, or by scanning files. The first option provides better results, since the information becomes "editable", however, it is a time-consuming, repetitive process and it’s susceptible to failures. The second option is much faster, however, the information turns out to be in image format, which makes its management and organization difficult. Even if this second approach uses an Optical Character Recognition (OCR) tool, the information is not structured, which makes the research and organization process quite complex.CRITICAL Software (CSW) is developing a document analysis platform, which offers numerous services, including the document classification service and the information extraction and analysis service.The internship carried out at the CSW company, with the duration of an academic year, focuses on the extraction and analysis of information from documents. Its main objective is to implement a proof of concept of an algorithm for extracting and analyzing information from documents on the CSW platform, Intelligent Document Validation (IDV). The internship took place in three stages. In the first stage, research articles on state-of-the-art algorithms for document information analysis were explored and CloudScan, CUTIE,Chargrid and BERTgrid algorithms were selected. In the second stage, the algorithms selected in the previous step and respective variants were implemented in a total of 9 algorithms. In the third stage, an optimization analysis and performance comparison of the implemented algorithms was performed. These algorithms were tested on a data set composed of 1210 invoices and it was concluded that the algorithm with the best performance results from a variant that combines the Chargrid and BERTgrid algorithms, whose overall performance was 85.89% with the F1-Score metric . As a proof of concept, this version was successfully implemented on CSW’s IDV platform.
Description: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/92530
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
joao castilho Final Estagio Capa.pdf4.34 MBAdobe PDFView/Open
Show full item record

Page view(s)

185
checked on Mar 26, 2024

Download(s)

249
checked on Mar 26, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons