Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/97970
DC FieldValueLanguage
dc.contributor.advisorPaiva, Rui Pedro Pinto de Carvalho e-
dc.contributor.advisorPanda, Renato-
dc.contributor.authorSá, Pedro Marques Alegre de-
dc.date.accessioned2022-02-02T23:02:04Z-
dc.date.available2022-02-02T23:02:04Z-
dc.date.issued2021-11-10-
dc.date.submitted2022-02-02-
dc.identifier.urihttps://hdl.handle.net/10316/97970-
dc.descriptionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologiapt
dc.description.abstractThe growing Music Emotion Recognition research field is evolving accompanied by an already massive and expanding library of digital music, which raises the need for it to be segmented and organized. Traditional Machine Learning approaches to identify perceived emotion in music are based on carefully crafted features that have dominated this field and brought state-of-the-art results. Our goal was to approach this field with Deep Learning (DL), as it can skip this expensive feature design by automatically extracting features. We propose a Deep Learning approach to the existing static 4QAED dataset, which achieved a state-of-the-art F1-Score of 88.45%. This model consisted in a hybrid approach with a Dense Neural Network (DNN) and a Convolutional Neural Network (CNN) for the features and melspectrograms (converted from audio samples), respectively. Additionally, different methods of data augmentation were experimented with for the static MER problem, using a Generative Adversarial Neural Network (GAN) and classical audio augmentation, which improved the overall performance of the model. Other pre-trained models were also tested (i.e. VGG19 and a CNN trained for music genre recognition). The Music Emotion Variation Detection field was explored as well, with (Bidirectional) Long Short Term Memory layers in combination with pre-trained CNN models, as we consider that the perceived emotion can change throughout the song. This research gave us a good insight into several distinct deep learning approaches resulting in a new state-of-the-art result with the 4QAED dataset, in addition to getting to know the limitations of both datasets.pt
dc.description.abstractA investigação do Reconhecimento da Emoção na Música está evoluir, acompanhado por uma biblioteca de música digital já maciça e em expansão, o que levanta a necessidade de ser segmentada e organizada. As abordagens tradicionais de Machine Learning para identificar a emoção percebida na música baseiam-se em features cuidadosamente trabalhadas que dominaram este campo e trouxeram resultados de última geração. O nosso objectivo era abordar este campo com o Deep Learning (DL), uma vez que pode saltar este dispendioso processo de criação de features, extraindo automaticamente as features. Propomos uma abordagem de Deep Learning ao conjunto de dados estáticos 4QAED existente, que alcançou um F1-Score de 88,45%. Este modelo consistiu numa abordagem híbrida com uma Dense Neural Network (DNN) e uma Convolutional Neural Network (CNN) para as features e melspectrogramas (convertidos a partir de amostras de áudio), respectivamente. Além disso, foram experimentados diferentes métodos de aumento de dados para o problema do MER estático, utilizando uma Generative Adversarial Neural Network (GAN) e um aumento de áudio clássico, o que melhorou o desempenho global do modelo. Outros modelos pré-treinados foram também testados (ou seja, VGG19 e uma CNN treinada para o reconhecimento do género musical). O campo de Detecção da Variação da Emoção Musical também foi explorado, com camadas de (Bidireccional) Long Short Term Memory em combinação com modelos CNN pré-treinados, pois consideramos que a emoção percebida pode mudar ao longo da canção. Esta investigação deu-nos uma boa visão de várias abordagens distintas de Deep Learning, resultando num novo resultado de ponta com o conjunto de dados 4QAED, para além de conhecer as limitações de ambos os conjuntos de dados.pt
dc.description.sponsorshipFCTpt
dc.language.isoengpt
dc.relationinfo:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB/00326/2020/PTpt
dc.rightsopenAccesspt
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt
dc.subjectdeep learningpt
dc.subjectaudio augmentationpt
dc.subjectmusic emotion recognitionpt
dc.subjectmusic emotion variation detectionpt
dc.subjectdeep learningpt
dc.subjectaumento de dados de audiopt
dc.subjectreconhecimento de emoção na músicapt
dc.subjectreconhecimento da variação da emoção na músicapt
dc.titleMERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learningpt
dc.title.alternativeMERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learningpt
dc.typemasterThesispt
degois.publication.locationDEI- FCTUCpt
degois.publication.titleMERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learningeng
dc.peerreviewedyes-
dc.date.embargo2021-11-10*
dc.identifier.tid202921328pt
thesis.degree.disciplineInformática-
thesis.degree.level1-
thesis.degree.nameMestrado em Engenharia Informáticapt
uc.degree.grantorUnitFaculdade de Ciências e Tecnologia - Departamento de Engenharia Informática-
uc.rechabilitacaoestrangeiranopt
uc.degree.grantorID0500-
uc.contributor.authorSá, Pedro Marques Alegre de::0000-0002-9700-3704-
uc.degree.classification18-
uc.date.periodoEmbargo0pt
uc.degree.presidentejuriPereira, Vasco Nuno Sousa Simões-
uc.degree.elementojuriCardoso, Alberto Jorge Lebre-
uc.degree.elementojuriPaiva, Rui Pedro Pinto de Carvalho e-
uc.contributor.advisorPaiva, Rui Pedro Pinto de Carvalho e::0000-0003-3215-3960-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.openairetypemasterThesis-
item.cerifentitytypePublications-
item.grantfulltextopen-
item.fulltextCom Texto completo-
item.languageiso639-1en-
crisitem.advisor.researchunitCISUC - Centre for Informatics and Systems of the University of Coimbra-
crisitem.advisor.researchunitCISUC - Centre for Informatics and Systems of the University of Coimbra-
crisitem.advisor.parentresearchunitFaculty of Sciences and Technology-
crisitem.advisor.parentresearchunitFaculty of Sciences and Technology-
crisitem.advisor.orcid0000-0003-3215-3960-
crisitem.advisor.orcid0000-0003-2539-5590-
Appears in Collections:UC - Dissertações de Mestrado
Files in This Item:
File Description SizeFormat
Pedro Marques Alegre de Sá.pdf7.07 MBAdobe PDFView/Open
Show simple item record

Page view(s)

161
checked on Apr 24, 2024

Download(s)

98
checked on Apr 24, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons