Please use this identifier to cite or link to this item: http://hdl.handle.net/10316/87965
Title: Human Emotion Recognition Through Speech Analysis on Convolutional Neural Networks
Other Titles: Reconhecimento de Emoções Humanas por Análise da Fala em Redes Neuronais Convolucionais
Authors: Assunção, Gustavo Miguel Santos
Orientador: Perdigão, Fernando Manuel dos Santos
Menezes, Paulo Jorge Carvalho
Keywords: reconhecimento de emoções na fala; CNN; VGG; processamento de sinal; machine learning; speech emotion recognition; CNN; VGG; signal processing; machine learning
Issue Date: 5-Jun-2019
Serial title, monograph or event: Human Emotion Recognition Through Speech Analysis on Convolutional Neural Networks
Place of publication or event: Instituto de Sistemas e Robótica, DEEC
Abstract: A noção de reconhecer emoções humanas tem, recentemente, vindo a receber considerável atenção por parte da comunidade científica, devido às suas variadas aplicações forenses e potencial melhoramento de sistemas interactivos. Assim sendo, e seguindo a actual tendência de investigação, bastantes modelos de machine learning têm sido propostos com foco na questão de reconhecimento de emoções na fala (SER), o conceito de classificar o estado emocional de uma pessoa com base na análise da sua fala. Estes modelos já deveras ultrapassaram a performance de outras técnicas clássicas a eles precedentes. Não obstante, mesmo os modelos com mais sucesso incorporam um certo nível de défice em relação à adaptação a locutores e cenários específicos, fazendo com que sejam incapazes de atingir os padrões de performance real humana. Nesta dissertação, um modelo de machine learning de grande escala é avaliado para classificação de estados emocionais. Este modelo foi treinado para identificação de locutor mas é, ao invés, aqui usado como uma componente basilar para a extracção de características robustas de fala emocional. A hipótese aqui proposta é que a adaptação à prosódia emocional de um locutor pode seriamente melhorar a precisão de sistemas SER. Diversas experiências foram feitas usando vários classificadores de estado-da-arte, com recurso ao software Weka, de vista a avaliar a robustez das características extraídas. Foram observados melhoramentos consideráveis quando comparados os resultados obtidos com outras técnicas de SER de estado-da-arte, demonstrando então a importância de adaptação ao locutor nesta matéria.
The idea of recognizing human emotion has recently received considerable attention from the research community, due to its many possible forensic applications and potential boosting of interactive systems. As such, and following the current trend of research, many machine learning models have been proposed addressing the interesting topic of speech emotion recognition (SER), the idea of classifying a person's emotional state based on speech analysis. These models have far surpassed the performance of previous classical techniques. Nevertheless, even the most successful methods are still rather lacking in terms of adaptation to specific speakers and scenarios, which causes them to be incapable of meeting real human performance standards. In this dissertation, a large scale machine learning model for classification of emotional states is evaluated. This model has previously been trained for speaker identification but is instead used here as a front-end for extracting robust features from emotional speech. The proposed hypothesis is that adaptation to a speaker's emotional prosody can greatly improve the accuracy of a SER system. Several experiments using various state-of-the-art classifiers were carried out, using the Weka software, in order to evaluate the robustness of the extracted features. Considerable improvement was observed when comparing the obtained results with other SER state-of-the-art techniques, which demonstrates the importance of speaker adaptation in this matter.
Description: Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI: http://hdl.handle.net/10316/87965
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
dissertacao_Gustavo_Assunção.pdf2.83 MBAdobe PDFView/Open
Show full item record

Page view(s)

86
checked on Jul 9, 2020

Download(s)

81
checked on Jul 9, 2020

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons