Extração de Informação em Documentos Não Estruturados

Pereira, José Henrique Gomes da Silva Dias

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/104685

Title:	Extração de Informação em Documentos Não Estruturados
Other Titles:	Information Extraction in Unstructured Documents
Authors:	Pereira, José Henrique Gomes da Silva Dias
Orientador:	Silva, Catarina Helena Branco Simões da Amaro, Hugo Dinis Pereirinha da Silva Oliveira, Hugo Ricardo Gonçalo
Keywords:	Processamento de Linguagem Natural; Reconhecimento de Entidades; Extração de Relações; Extração de Informação; Modelos Linguísticos; Natural Language Processing; Named Entity Recognition; Relation Extraction; Information Extraction; Language Models
Issue Date:	12-Sep-2022
Serial title, monograph or event:	Extração de Informação em Documentos Não Estruturados
Place of publication or event:	IPN – Instituto Pedro Nunes
Abstract:	A par da evolução tecnológica dos últimos anos, cada vez mais empresas e indústrias caminham no sentido da automatização dos seus processos, quer seja motivado pela redução dos custos, acréscimo de eficiência ou rapidez. O mesmo acontece em tarefas do domínio linguístico onde avanços recentes cada vez mais aproximam a capacidade de compreensão de um modelo de inteligência artificial à do ser humano. Assim, aproveitando a cada vez maior quantidade de informação disponível online, este trabalho foca-se na extração de informação automática a partir de documentos não estruturados, utilizada na elaboração de relatórios toxicológicos de substâncias químicas. Através de técnicas como reconhecimento de entidades, similaridade semântica, identificação de palavras-chave e sumarização são extraídas de documentos as frases relevantes à elaboração de relatórios toxicológicos. Pela utilização de uma abordagem de sumarização é alcançada uma redução da dimensão dos documentos de 80%, identificando-se corretamente 45 das 53 frases utilizadas numa abordagem convencional, realizada por um especialista do domínio. Já nas abordagens de reconhecimento de entidades, similaridade semântica e identificação de palavras-chave apesar de conseguirem também alcançar ganhos similares obrigam a um maior compromisso no número de frases relevantes identificadas onde, numa abordagem baseada em similaridade semântica, para um ganho de 76% são apenas identificadas 23 das 53 frases utilizadas na abordagem manual, sendo necessário reduzir o ganho a 35% de modo a serem obtidos os mesmos resultados no número de frases corretamente identificadas. Os resultados da avaliação das abordagens são obtidos através de um método de avaliação automático que compara as frases identificadas com as frases de uma abordagem manual. As technology has evolved in recent years, more and more companies and industries have been moving towards automation of their processes, whether motivated by cost reduction, increased efficiency or speed. The same happens in the linguistic domain, where recent advances bring the comprehension capacity of an artificial intelligence model closer and closer to that of a human being. Thus, taking advantage of the ever-increasing amount of information available online, this work focuses on automatic information extraction from unstructured documents used in chemical toxicology reports. Through entity recognition, semantic similarity, keyword identification and summarization, relevant sentences for toxicological reports are extracted from documents. By using a summarization approach, a reduction in document size of 80% is reached, correctly identifying 45 of the 53 sentences used in a conventional approach, performed by a domain expert. The entity recognition, semantic similarity and keyword identification approaches, despite also achieving similar gains, require a greater compromise in the number of relevant sentences identified where, in an approach based on semantic similarity, for a gain of 76% only 23 of the 53 sentences used in the manual approach are identified, requiring a reduction of the gain to 35% in order to obtain the same results in the number of correctly identified sentences. The results of the evaluation of the approaches are obtained using an automated evaluation method that compares the sentences identified with the sentences from a manual approach.
Description:	Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/104685
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
tese_final.pdf		2.58 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

75

checked on Jul 16, 2024

Download(s)

69

checked on Jul 16, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM