Speech Synthesis Framework

Simões, Pedro Vide

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/92500

Title:	Speech Synthesis Framework
Other Titles:	Speech Synthesis Framework
Authors:	Simões, Pedro Vide
Orientador:	Cardoso, Fernando Amílcar Bandeira
Keywords:	Agentes Virtuais; Texto para Fala; Redes Neuronais; Sintetização de Fala; Deteção de Erros; Virtual Agents; Text-to-Speech; Neural Networks; Speech Synthesis; Error Detection
Issue Date:	15-Jul-2020
Serial title, monograph or event:	Speech Synthesis Framework
Place of publication or event:	Talkdesk
Abstract:	O desenvolvimento de sistemas capazes de compreender e sintetizar fala tem visto grandes progressos nos últimos anos, sendo que estes sistemas, mais conhecidos por assistentes virtuais, já estão presentes em grande parte dos telemóveis e computadores usados nos dias de hoje. Estes assistentes são compostos por dois sistemas principais, um de texto para voz e outro de voz para texto, que permitem interação usando linguagem natural, fornecendo assim uma forma mais fácil e intuitiva de comunicação entre o utilizador e a máquina.Ao aperceber-se dos rápidos desenvolvimentos tecnológicos neste campo, a Talkdesk decidiu avançar com a criação do projeto Virtual Agent (Agente Virtual), cujo intuito é o desenvolvimento de um sistema capaz de responder a simples perguntas recorrentes em call-centers, permitindo assim que os agentes humanos se foquem em assuntos de maior complexidade, o que leva a uma otimização em termos de tempo e recursos.Embora o objetivo inicial fosse o desenvolvimento de uma solução interna, a investigação realizada durante o primeiro semestre permitiu que a equipa adquirisse conhecimentos técnicos nesta área, o que por sua vez permitiu concluir que para alcançar melhoramentos sobre as implementação open-source existentes, seria necessário um investimento considerável em termos financeiros e temporais. Sendo assim, uma nova solução foi pensada.Esta dissertação propõe o desenvolvimento de uma ferramenta interna de sintetização de fala, baseada em redes neuronais e aprendizagem profunda, para o módulo de texto para fala do projeto Virtual Agent, tendo o objetivo de detectar erros ocorridos durante a sintetização e permitir obter uma avaliação de vários sistemas de texto para fala de uma forma rápida e eficaz. A meta final é adquirir conhecimento sobre como um determinado sistema se comporta em relação aos áudio que gera, tendo em conta erros comuns como vozes robóticas ou a presença de longos excertos de silêncio no meio das frases. The development of systems capable of understanding and synthesizing speech has seen great progress in the last years, to a degree where such systems, more commonly known as virtual assistants, are present in most of smartphones and computers used today. These assistants are a conjunction between speech-to-text and text-to-speech systems, which allow interaction using natural language, providing an easier and more intuitive way to communicate between the user and the machine.Seeing these quick technological advances, Talkdesk created the Virtual Agent project, aiming at the development of a system capable of answering simple and recurrent questions on call-centers, allowing human agents to deal with more complex matters and, as a consequence, optimize time and resources.While the initial goal was the development of an in-house solution, all the research made during the first internship allowed us to gather technical knowledge on the text-to-speech field, bringing the conclusion that to make improvements over the existing open-source implementations, a considerable amount of financial and temporal resources would be needed. As such, a new, useful approach, was devised.This dissertation proposes the development of an in-house deep learning speech synthesis framework, for Virtual Agent's text-to-speech module, aimed at detecting synthesization errors and evaluate given text-to-speech solutions. The final goal is gathering knowledge on how a certain system performs when synthesizing speech, looking at usual errors such as robotic tones, presence of extensive silence mid phrases, among others.
Description:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/92500
Rights:	embargoedAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
pedro_vide_simoes_master_thesis_cover.pdf		7.66 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

93

checked on Apr 17, 2024

Download(s)

49

checked on Apr 17, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM