Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/87965
Título: Human Emotion Recognition Through Speech Analysis on Convolutional Neural Networks
Outros títulos: Reconhecimento de Emoções Humanas por Análise da Fala em Redes Neuronais Convolucionais
Autor: Assunção, Gustavo Miguel Santos
Orientador: Perdigão, Fernando Manuel dos Santos
Menezes, Paulo Jorge Carvalho
Palavras-chave: reconhecimento de emoções na fala; CNN; VGG; processamento de sinal; machine learning; speech emotion recognition; CNN; VGG; signal processing; machine learning
Data: 5-Jun-2019
Título da revista, periódico, livro ou evento: Human Emotion Recognition Through Speech Analysis on Convolutional Neural Networks
Local de edição ou do evento: Instituto de Sistemas e Robótica, DEEC
Resumo: A noção de reconhecer emoções humanas tem, recentemente, vindo a receber considerável atenção por parte da comunidade científica, devido às suas variadas aplicações forenses e potencial melhoramento de sistemas interactivos. Assim sendo, e seguindo a actual tendência de investigação, bastantes modelos de machine learning têm sido propostos com foco na questão de reconhecimento de emoções na fala (SER), o conceito de classificar o estado emocional de uma pessoa com base na análise da sua fala. Estes modelos já deveras ultrapassaram a performance de outras técnicas clássicas a eles precedentes. Não obstante, mesmo os modelos com mais sucesso incorporam um certo nível de défice em relação à adaptação a locutores e cenários específicos, fazendo com que sejam incapazes de atingir os padrões de performance real humana. Nesta dissertação, um modelo de machine learning de grande escala é avaliado para classificação de estados emocionais. Este modelo foi treinado para identificação de locutor mas é, ao invés, aqui usado como uma componente basilar para a extracção de características robustas de fala emocional. A hipótese aqui proposta é que a adaptação à prosódia emocional de um locutor pode seriamente melhorar a precisão de sistemas SER. Diversas experiências foram feitas usando vários classificadores de estado-da-arte, com recurso ao software Weka, de vista a avaliar a robustez das características extraídas. Foram observados melhoramentos consideráveis quando comparados os resultados obtidos com outras técnicas de SER de estado-da-arte, demonstrando então a importância de adaptação ao locutor nesta matéria.
The idea of recognizing human emotion has recently received considerable attention from the research community, due to its many possible forensic applications and potential boosting of interactive systems. As such, and following the current trend of research, many machine learning models have been proposed addressing the interesting topic of speech emotion recognition (SER), the idea of classifying a person's emotional state based on speech analysis. These models have far surpassed the performance of previous classical techniques. Nevertheless, even the most successful methods are still rather lacking in terms of adaptation to specific speakers and scenarios, which causes them to be incapable of meeting real human performance standards. In this dissertation, a large scale machine learning model for classification of emotional states is evaluated. This model has previously been trained for speaker identification but is instead used here as a front-end for extracting robust features from emotional speech. The proposed hypothesis is that adaptation to a speaker's emotional prosody can greatly improve the accuracy of a SER system. Several experiments using various state-of-the-art classifiers were carried out, using the Weka software, in order to evaluate the robustness of the extracted features. Considerable improvement was observed when comparing the obtained results with other SER state-of-the-art techniques, which demonstrates the importance of speaker adaptation in this matter.
Descrição: Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/87965
Direitos: openAccess
Aparece nas coleções:UC - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato
dissertacao_Gustavo_Assunção.pdf2.83 MBAdobe PDFVer/Abrir
Mostrar registo em formato completo

Visualizações de página

219
Visto em 16/abr/2024

Downloads

259
Visto em 16/abr/2024

Google ScholarTM

Verificar


Este registo está protegido por Licença Creative Commons Creative Commons