Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/92530
DC FieldValueLanguage
dc.contributor.advisorHenriques, Jorge Manuel Oliveira-
dc.contributor.authorCastilho, João Filipe Mendes-
dc.date.accessioned2021-01-14T23:04:59Z-
dc.date.available2021-01-14T23:04:59Z-
dc.date.issued2020-07-06-
dc.date.submitted2021-01-14-
dc.identifier.urihttps://hdl.handle.net/10316/92530-
dc.descriptionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia-
dc.description.abstractNos últimos anos, produz-se cada vez mais informação que necessita de estar facilmente disponível e acessível. Esta necessidade levou a uma crescente digitalização da informação de forma a satisfazer as exigências dos utilizadores. Este processo pode ser realizado atravésde trabalho manual, ou através de scanning de ficheiros. A primeira opção fornece melhores resultados, visto que a informação passa a ser "editável", no entanto, é um processo moroso, repetitivo e suscetível a falhas. A segunda opção é bastante mais rápida, no entanto,a informação acaba por estar em formato de imagem, o que torna difícil a sua gestão e organização. Mesmo que nesta segunda abordagem se utilize uma ferramenta de Reconhecimento de Caracteres Óptico (RCO), a informação não fica estruturada, o que torna bastante ´complexo o processo de pesquisa e organização.A CRITICAL Software (CSW) está a desenvolver uma plataforma de análise de documentos, que oferece inúmeros serviços, onde se destacam o serviço de classificação de documentos e o serviço de extração e análise de informação. O estágio realizado na empresa CSW, com a duração de um ano letivo, foca-se no serviço de extração e análise da informação de documentos. Tem como principal objetivo implementar uma prova de conceito de um algoritmo de extração e análise de informação de documentos na plataforma da CSW, o Intelligent Document Validation (IDV). O estágio desenvolvou-se em três etapas. Na primeira etapa, foram explorados artigos de investigação de algoritmos do estado da arte da análise de informação de documentos e foram selecionados os algoritmos CloudScan, CUTIE, Chargrid e BERTGrid. Na segunda etapa, foram implementados os algoritmos selecionados na etapa anterior e respetivas variantes num total de 9 algoritmos. Na terceira etapa, foi realizada a análise de optimização e comparação do desempenho dos algoritmos implementados. Estes algoritmos foram testados num conjunto de dados composto por 1210 faturas e, concluiu-se que o algoritmo com melhor desempenho resulta de uma variante que combina os algoritmos do Chargrid com BERTgrid, cujo desempenho geral foi de 85.89% com a métrica F1-Score. Como prova de conceito, esta versão foi implementada com sucesso na plataforma IDV da CSW.por
dc.description.abstractIn recent years, more and more information has been produced that needs to be easily available and accessible. This need has led to an increasing digitization of information in order to meet the demands of users. This process can be carried out through manual work, or by scanning files. The first option provides better results, since the information becomes "editable", however, it is a time-consuming, repetitive process and it’s susceptible to failures. The second option is much faster, however, the information turns out to be in image format, which makes its management and organization difficult. Even if this second approach uses an Optical Character Recognition (OCR) tool, the information is not structured, which makes the research and organization process quite complex.CRITICAL Software (CSW) is developing a document analysis platform, which offers numerous services, including the document classification service and the information extraction and analysis service.The internship carried out at the CSW company, with the duration of an academic year, focuses on the extraction and analysis of information from documents. Its main objective is to implement a proof of concept of an algorithm for extracting and analyzing information from documents on the CSW platform, Intelligent Document Validation (IDV). The internship took place in three stages. In the first stage, research articles on state-of-the-art algorithms for document information analysis were explored and CloudScan, CUTIE,Chargrid and BERTgrid algorithms were selected. In the second stage, the algorithms selected in the previous step and respective variants were implemented in a total of 9 algorithms. In the third stage, an optimization analysis and performance comparison of the implemented algorithms was performed. These algorithms were tested on a data set composed of 1210 invoices and it was concluded that the algorithm with the best performance results from a variant that combines the Chargrid and BERTgrid algorithms, whose overall performance was 85.89% with the F1-Score metric . As a proof of concept, this version was successfully implemented on CSW’s IDV platform.eng
dc.language.isopor-
dc.rightsopenAccess-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/-
dc.subjectAprendizagem Computacionalpor
dc.subjectVisão Computacionalpor
dc.subjectProcessamento de Linguagem Naturalpor
dc.subjectProcessamento de Imagenspor
dc.subjectAprendizagem Profundapor
dc.subjectMachine Learningeng
dc.subjectComputer Visioneng
dc.subjectNatural Language Processingeng
dc.subjectImage Processingeng
dc.subjectDeep Learningeng
dc.titleIntelligent Document Validation Using Computer Vision and Natural Language Processingpor
dc.title.alternativeIntelligent Document Validation Using Computer Vision and Natural Language Processingeng
dc.typemasterThesis-
degois.publication.locationCritical Software, S.A.-
degois.publication.titleIntelligent Document Validation Using Computer Vision and Natural Language Processingpor
dc.peerreviewedyes-
dc.identifier.tid202521087-
thesis.degree.disciplineInformática-
thesis.degree.grantorUniversidade de Coimbra-
thesis.degree.level1-
thesis.degree.nameMestrado em Engenharia Informática-
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Engenharia Informática-
uc.degree.grantorID0500-
uc.contributor.authorCastilho, João Filipe Mendes::0000-0002-3580-8734-
uc.degree.classification18-
uc.degree.presidentejuriPaquete, Luís Filipe dos Santos Coelho-
uc.degree.elementojuriOliveira, Hugo Ricardo Gonçalo-
uc.degree.elementojuriHenriques, Jorge Manuel Oliveira-
uc.contributor.advisorHenriques, Jorge Manuel Oliveira-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.openairetypemasterThesis-
item.cerifentitytypePublications-
item.grantfulltextopen-
item.fulltextCom Texto completo-
item.languageiso639-1pt-
Appears in Collections:UC - Dissertações de Mestrado
Files in This Item:
File Description SizeFormat
joao castilho Final Estagio Capa.pdf4.34 MBAdobe PDFView/Open
Show simple item record

Page view(s)

194
checked on Apr 24, 2024

Download(s)

258
checked on Apr 24, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons