Template Generation for Automatic Summarization

Gouveia, André Francisco Gonçalves

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/92483

Título:	Template Generation for Automatic Summarization
Outros títulos:	Template Generation for Automatic Summarization
Autor:	Gouveia, André Francisco Gonçalves
Orientador:	Oliveira, Hugo Ricardo Gonçalo
Palavras-chave:	Processamento de Linguagem Natural; Extração de Informação; Geração de Templates; Sumarização; Representação de Triplos; Natural Language Processing; Information Extraction; Template Generation; Summarization; Triple Representation
Data:	6-Jul-2020
Título da revista, periódico, livro ou evento:	Template Generation for Automatic Summarization
Local de edição ou do evento:	Talkdesk
Resumo:	O excesso de dados textuais não estruturados que cresce consistemente a um elevado ritmo via "call centers", onde as interações, usando linguagem natural, entre agentes e clientes ocorrem numa escala de milhões por dia, elevam a urgência de soluções capazes de identificar e resumir o conteúdo relevante nos diálogos.Este estágio ocorreu no Laboratório Inovador da Talkdesk, localizado em Coimbra. Em relação ao produto desenvolvido, este integrará o produto Agent Assist. Com o objetivo claro de revolucionar a forma como os Contact Center funcionam, o Talkdesk Agent Assist é um guia inteligente de conversação que fornece ações sugeridas contextualizadas em tempo real para ajudar e guiar os agentes na entrega de interações de qualidade com os clientes.A equipa do Agent Assist já implementou uma solução para resumir as chamadas de "call centers". No entanto, nesta solução, os templates são criados manualmente. Portanto, o objetivo do estágio é automatizar esse processo, desenvolvendo um produto, recebendo um conjunto de momentos já identificados e classificados, que gere automaticamente resumos de templates.Para alcançar esse objetivo, foram estudados os métodos seguidos por diferentes autores na tarefa de extrair informações de diálogos e de sumarização dos mesmos. Posteriormente, alguns conjuntos de dados foram examinados com base na variação e complexidade da riqueza linguística, bem como na dimensão, sendo, depois, escolhido aquele que tinha mais capacidades de representar as informações não estruturadas existentes nos diálogos. Optamos por uma abordagem baseada na extração de triplos e no clustering para extrair fatos que irão entrar nos templates finais. Foram obtidos resultados que atingiram 78% F1 para alguns domínios, o que nos leva a concluir que o nosso produto é capaz de automatizar o processo de geração de templates. The plethora of unstructured textual data continually growing at an immense rate via call center logs where interactions, using natural language, between agents and customers, happen at a scale of millions per day elevate the urgency of solutions capable of identifying and summarizing relevant content in dialogues.This internship took place at Talkdesk's Innovative Lab located in Coimbra. Regarding the framework developed, it will integrate the Agent Assist Product. With the clear target of revolutionizing the Contact Center space, Talkdesk Agent Assist is an intelligent conversational guide that supplies real-time contextualized suggested actions to aid and support agents in delivering quality customer interactions.Agent Assist team already implemented a solution for summarizing calls. However, in this solution, templates are created manually. So, the purpose of the internship is to automate this process by developing a framework, receiving a set of already identified and classified moments, that automatically generates template summaries.Towards this goal, methods proposed by different researchers for the task of extracting information from dialogues, or even, that summarize dialogues, were first investigated. Later, some datasets were examined based on the linguistic richness, variation, and complexity, as well as the dimension, and therefore was chosen the one most capable of representing the unstructured information present in dialogues.We opted for an approach relying on triple extraction and clustering to extract the facts that will enter the final templates. Results were obtained that reached 78% F1 for some domain types, which leads us to conclude that our framework is capable of automating the process of generating templates/structural summaries.
Descrição:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/92483
Direitos:	embargoedAccess
Aparece nas coleções:	UC - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Tamanho	Formato
ThesisFinal_AndreGouveia.pdf	6.8 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo

Visualizações de página

110

Visto em 24/abr/2024

Downloads

53

Visto em 24/abr/2024

Google Scholar^TM

Verificar

Este registo está protegido por Licença Creative Commons

Ficheiros deste registo:

Visualizações de página

Downloads

Google ScholarTM

Google Scholar^TM