MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning

Sá, Pedro Marques Alegre de

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/97970

DC Field	Value	Language
dc.contributor.advisor	Paiva, Rui Pedro Pinto de Carvalho e	-
dc.contributor.advisor	Panda, Renato	-
dc.contributor.author	Sá, Pedro Marques Alegre de	-
dc.date.accessioned	2022-02-02T23:02:04Z	-
dc.date.available	2022-02-02T23:02:04Z	-
dc.date.issued	2021-11-10	-
dc.date.submitted	2022-02-02	-
dc.identifier.uri	https://hdl.handle.net/10316/97970	-
dc.description	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia	pt
dc.description.abstract	The growing Music Emotion Recognition research field is evolving accompanied by an already massive and expanding library of digital music, which raises the need for it to be segmented and organized. Traditional Machine Learning approaches to identify perceived emotion in music are based on carefully crafted features that have dominated this field and brought state-of-the-art results. Our goal was to approach this field with Deep Learning (DL), as it can skip this expensive feature design by automatically extracting features. We propose a Deep Learning approach to the existing static 4QAED dataset, which achieved a state-of-the-art F1-Score of 88.45%. This model consisted in a hybrid approach with a Dense Neural Network (DNN) and a Convolutional Neural Network (CNN) for the features and melspectrograms (converted from audio samples), respectively. Additionally, different methods of data augmentation were experimented with for the static MER problem, using a Generative Adversarial Neural Network (GAN) and classical audio augmentation, which improved the overall performance of the model. Other pre-trained models were also tested (i.e. VGG19 and a CNN trained for music genre recognition). The Music Emotion Variation Detection field was explored as well, with (Bidirectional) Long Short Term Memory layers in combination with pre-trained CNN models, as we consider that the perceived emotion can change throughout the song. This research gave us a good insight into several distinct deep learning approaches resulting in a new state-of-the-art result with the 4QAED dataset, in addition to getting to know the limitations of both datasets.	pt
dc.description.abstract	A investigação do Reconhecimento da Emoção na Música está evoluir, acompanhado por uma biblioteca de música digital já maciça e em expansão, o que levanta a necessidade de ser segmentada e organizada. As abordagens tradicionais de Machine Learning para identificar a emoção percebida na música baseiam-se em features cuidadosamente trabalhadas que dominaram este campo e trouxeram resultados de última geração. O nosso objectivo era abordar este campo com o Deep Learning (DL), uma vez que pode saltar este dispendioso processo de criação de features, extraindo automaticamente as features. Propomos uma abordagem de Deep Learning ao conjunto de dados estáticos 4QAED existente, que alcançou um F1-Score de 88,45%. Este modelo consistiu numa abordagem híbrida com uma Dense Neural Network (DNN) e uma Convolutional Neural Network (CNN) para as features e melspectrogramas (convertidos a partir de amostras de áudio), respectivamente. Além disso, foram experimentados diferentes métodos de aumento de dados para o problema do MER estático, utilizando uma Generative Adversarial Neural Network (GAN) e um aumento de áudio clássico, o que melhorou o desempenho global do modelo. Outros modelos pré-treinados foram também testados (ou seja, VGG19 e uma CNN treinada para o reconhecimento do género musical). O campo de Detecção da Variação da Emoção Musical também foi explorado, com camadas de (Bidireccional) Long Short Term Memory em combinação com modelos CNN pré-treinados, pois consideramos que a emoção percebida pode mudar ao longo da canção. Esta investigação deu-nos uma boa visão de várias abordagens distintas de Deep Learning, resultando num novo resultado de ponta com o conjunto de dados 4QAED, para além de conhecer as limitações de ambos os conjuntos de dados.	pt
dc.description.sponsorship	FCT	pt
dc.language.iso	eng	pt
dc.relation	info:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB/00326/2020/PT	pt
dc.rights	openAccess	pt
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt
dc.subject	deep learning	pt
dc.subject	audio augmentation	pt
dc.subject	music emotion recognition	pt
dc.subject	music emotion variation detection	pt
dc.subject	deep learning	pt
dc.subject	aumento de dados de audio	pt
dc.subject	reconhecimento de emoção na música	pt
dc.subject	reconhecimento da variação da emoção na música	pt
dc.title	MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning	pt
dc.title.alternative	MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning	pt
dc.type	masterThesis	pt
degois.publication.location	DEI- FCTUC	pt
degois.publication.title	MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning	eng
dc.peerreviewed	yes	-
dc.date.embargo	2021-11-10	*
dc.identifier.tid	202921328	pt
thesis.degree.discipline	Informática	-
thesis.degree.level	1	-
thesis.degree.name	Mestrado em Engenharia Informática	pt
uc.degree.grantorUnit	Faculdade de Ciências e Tecnologia - Departamento de Engenharia Informática	-
uc.rechabilitacaoestrangeira	no	pt
uc.degree.grantorID	0500	-
uc.contributor.author	Sá, Pedro Marques Alegre de::0000-0002-9700-3704	-
uc.degree.classification	18	-
uc.date.periodoEmbargo	0	pt
uc.degree.presidentejuri	Pereira, Vasco Nuno Sousa Simões	-
uc.degree.elementojuri	Cardoso, Alberto Jorge Lebre	-
uc.degree.elementojuri	Paiva, Rui Pedro Pinto de Carvalho e	-
uc.contributor.advisor	Paiva, Rui Pedro Pinto de Carvalho e::0000-0003-3215-3960	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
item.openairetype	masterThesis	-
item.cerifentitytype	Publications	-
item.grantfulltext	open	-
item.fulltext	Com Texto completo	-
item.languageiso639-1	en	-
crisitem.advisor.researchunit	CISUC - Centre for Informatics and Systems of the University of Coimbra	-
crisitem.advisor.researchunit	CISUC - Centre for Informatics and Systems of the University of Coimbra	-
crisitem.advisor.parentresearchunit	Faculty of Sciences and Technology	-
crisitem.advisor.parentresearchunit	Faculty of Sciences and Technology	-
crisitem.advisor.orcid	0000-0003-3215-3960	-
crisitem.advisor.orcid	0000-0003-2539-5590	-
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Pedro Marques Alegre de Sá.pdf		7.07 MB	Adobe PDF	View/Open

Show simple item record

Page view(s)

161

checked on Apr 24, 2024

Download(s)

98

checked on Apr 24, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM