?
                     
                    來源:Frontiers of Computer Science 發布時間:2022/6/23 11:09:54
                    選擇字號:
                    FCS | 前沿綜述:音樂情感識別

                    論文標題:A survey of music emotion recognition

                    期刊:Frontiers of Computer Science

                    作者:Donghong HAN, Yanru KONG, Jiayi HAN, Guoren WANG

                    發表時間:12 Jan 2022

                    DOI: 10.1007/s11704-021-0569-4

                    微信鏈接:點擊此處閱讀微信文章

                    原文信息

                    • 標題:

                    A survey of music emotion recognition

                    • 發表年份:

                    2022年

                    • 原文鏈接:

                    https://journal.hep.com.cn/fcs/EN/10.1007/s11704-021-0569-4

                    • 引用格式:

                    Donghong HAN, Yanru KONG, Jiayi HAN, Guoren WANG. A survey of music emotion recognition. Front. Comput. Sci., 2022, 16(6): 166335

                    1.導讀

                    音樂是情感的語言。近年來,音樂情感識別在學術界和工業界引起了廣泛的關注,它可以廣泛應用于推薦系統、自動音樂創作、心理治療、音樂可視化等領域。特別是隨著人工智能的快速發展,基于深度學習的音樂情感識別也逐漸成為主流。本文對音樂情感識別進行了詳細的調查。從音樂情感識別的一些初步知識開始,本文首先介紹了一些常用的評價指標。 然后提出了一個由三部分組成的的研究框架。在這三部分研究框架的基礎上,詳細分析了各部分涉及的知識和算法,包括一些常用的數據集、情感模型、特征提取和情感識別算法。之后,提出了音樂情感識別技術的挑戰性問題和發展趨勢,最后對整篇論文進行了總結。

                    2.研究背景及介紹

                    近年來,電子音樂市場取得了快速的發展,可以從各種來源獲得大量的音樂資源。這些音樂資源需要根據情感、流派等標簽信息進行組織和管理。這樣聽眾就可以方便地獲得音樂作品。由于音樂是情感的載體,所以識別音樂作品中的情感標簽尤為重要。使用手動方法來獲取標簽信息可能會很耗時、勞動密集和容易出錯。因此,自動識別情緒標簽的研究領域開始形成。

                    音樂情緒識別(MER)是利用計算機提取和分析音樂特征,形成音樂特征與情緒空間的映射關系,識別音樂表達[1]的情緒的過程。音樂特征通常是從音頻信號、象征性的樂譜、歌詞文本,甚至是從腦電圖等生物特征中提取出來的。情感空間可以用有限數量的離散類別或連續多維空間中的無限個點來表示。MER屬于音樂心理學、音頻信號處理和自然語言處理(NLP)的跨學科研究領域,而MER是音樂信息檢索(MIR)的一個子任務。MER可廣泛應用于音樂推薦、檢索、可視化、自動作曲、心理治療等領域。因此,MER已成為學術界和學術界的研究熱點。

                    自20世紀30年代以來,研究人員就音樂和情感之間的關系展開了開創性的研究。在本世紀初,越來越多的研究人員開始研究如何從音樂數據中自動提取情感。近年來,隨著人們對音樂特征的深入理解和人工智能的日益成熟,MER取得了很大的進展。本文對音樂情感識別進行了詳細的研究,由于現有文章已經對一些關于音頻特征和傳統機器學習算法的進行了評論,本文的重點將是近年來使用深度學習算法的MER研究。

                    3.相關背景知識

                    評價指標

                    分類問題:

                    準確率:正確分類的樣本占樣本總數的比例,但在不平衡數據上表現不佳。

                    精度:真實的陽性樣本與預測的陽性樣本總數的比例。

                    回歸問題:

                    R2:確定系數,評估回歸模型與樣本數據的擬合程度。

                    均方根誤差:計算預測值和真實值之間的誤差。

                    研究框架

                    現有的基于機器學習的MER工作包括三個部分,即領域定義、特征提取和情緒識別。整體框架如圖1所示。從圖1中可以看出,在域定義階段選擇了情緒模型和數據集,在特征提取階段提取了有用的特征,在情緒識別階段對情緒標簽進行了預測。

                    圖1. MER框架

                    情感模型和數據集

                    • 情感模型

                    表1. 情感模型的總結

                    表1總結了MER中一些常用的情感模型。 在“應用領域”一欄中,“一般”是指一般情感模型,“音樂”是指音樂情感模型。 一般情感模型可以用于各個領域的情感分析,這對多模態MER來說是很好的。音樂情感模型是專門針對音樂領域的,它可以更準確地描述音樂情感。 在 “情感概念化”一欄中,“分類”是指分類情感模型,“維度”是指回歸情感模型。 一些學者認為,分類情感模型是模糊的,所以回歸情感模型最近被使用得比較多。在 “情感定義”一欄中,“感知”指的是感知的情感,“誘發”是誘發的情感。 感知情感指的是音樂本身傳達的情感,通常需要音樂數據(如音頻、符號樂譜和歌詞等)來識別。 誘發情緒是指音樂在聽眾中激起的情緒,這需要通過聽眾聽音樂時產生的生理數據(如EEG)來確認。

                    • 數據集

                    表2. 數據集的總結

                    4.特征提取與情緒識別

                    手工制作的特征和傳統的機器學習模型

                    • 手工制作的特征

                    特征提取是MER的核心問題,特征的質量直接影響著情緒識別的準確性。表3總結了一些數據格式、預處理方法、工具和結果。

                    表3. 數據格式和處理信息

                    音頻特征。與情緒有關的音頻特征可以分為節奏特征、音色特征和頻譜特征。表4中總結了每一類中最常用的特征。

                    符號特征。是指從象征性的樂譜中提取的特征。

                    抒情特征。諸如詞和情感類別的相關性、韻律信息、俚語、結構分析特征和語義特征被作為抒情特征使用。 此外,諸如情感詞典、統計分析工具和Latent Dirichlet Allocation(LDA)等方法也被用來提取抒情詩特征。

                    生物特征。從聽者那里收集生理數據。

                    表4. 音頻特征

                    • 傳統的機器學習模型

                    歌曲級別的分類MER。表5中總結了歌曲級分類MER的代表性作品。

                    表5. 歌曲級別的分類MER代表工作

                    歌曲級別的回歸MER。表6總結了該領域的代表性工作。

                    表6. 歌曲級別的回歸MER代表工作

                    MEVD。關于MEVD的代表性研究工作總結見表7。

                    表7. MEVD(ML)的代表工作

                    基于深度學習的MER

                    可以采用卷積神經網絡(CNN)或遞歸神經網絡(RNN)等DL模型作為端到端處理框架,將整個學習過程完全移交給DL框架,完成從原始數據到預期輸出的映射。與傳統的機器學習模型相比,基于dl的MER模型有兩個優點。首先,DL模型的性能會隨著訓練數據量的增加而增加。其次,基于dl的模型可以從數據中自動提取出合適的特征。

                    • 歌曲級別的分類MER

                    表8總結了該領域的代表性工作。 可以看出,基于CNN的模型很常見。CNN是DL的代表性學習算法之一,它模擬了生物的視覺感知,可以有效地從數據中學習特征表征。

                    表8. 歌曲級別的分類MER(DL)代表工作

                    • 歌曲級別的回歸MER

                    表9中列出了歌曲級回歸MER領域的代表性作品,基于CNN和RNN的DL框架經常被使用。 RNN是DL的另一種代表性算法,它擅長處理序列數據,所以經常被用于NLP領域。 Bi-RNN和LSTM是RNN的兩個常用變體。

                    表9. 歌曲級別的回歸MER(DL)代表工作

                    • 回歸MEVD

                    表10總結了使用DL技術在該領域的代表性工作。在動態情緒識別中,常用的模型是基于RNN的模型。

                    表10. 回歸MEVD(DL)的代表工作

                    5.發展狀況和趨勢

                    表11給出了在一些常見數據集上的性能指標,以全面顯示了MER方法的當前性能。

                    表11. 通用數據集上的性能表現

                    現有挑戰

                    • 情緒是主觀的,難以量化的。對于分類情緒模型,有一些形容詞很難準確地量化音樂情緒的豐富性。對于維度情緒模型,如最常用的VA模型,它的一個象限通常包含多個近似的情緒(如第一象限包含高興、興奮等),但哪個數值對應于哪個情感是模糊且難以量化的。

                    • 對于音頻之外的其他數據模式和特征的研究不足。

                    • MER領域需要一些權威的大規模多元化的情緒標記音樂數據集。

                    • 一些高級的音樂概念(調、旋律進程等)能在一定程度上反映出音樂的情感,但它們的定量研究很少。

                    發展趨勢

                    • 領域定義:新的數據集和情感模型已經出現,如動態注釋的數據集DEAM和誘導情感模型GEMS。動態處理更符合音樂的特點。音樂情感會在一首音樂作品中動態變化,所以靜態處理并不詳細和準確。特別是隨著像RNN這樣的序列模型的出現,動態地識別連續的情感變得更加方便。單獨使用音頻數據的性能已經達到了天花板,所以添加其他信息如誘導數據是必要的。

                    • 特征提取和情感識別:這兩個步驟的方法正在從手工提取和傳統的ML模型,轉向使用DL框架進行端到端處理。表12展示了MIREX中AMC任務的年份、方法和準確率信息,從ML到DL的趨勢很明顯。

                    表12. mirex中AMC任務的效果

                    6.總結

                    本文綜述了目前對MER的研究進展。首先,介紹了研究背景,給出了定義,總結了MER的意義,并簡要介紹了MER的歷史。然后介紹了當前的研究框架,并闡述了各部分所涉及的知識和算法。最后,指出了MER面臨的挑戰和未來的發展趨勢。

                    摘要

                    Music is the language of emotions. In recent years, music emotion recognition has attracted widespread attention in the academic and industrial community since it can be widely used in fields like recommendation systems, automatic music composing, psychotherapy, music visualization, and so on. Especially with the rapid development of artificial intelligence, deep learning-based music emotion recognition is gradually becoming mainstream. This paper gives a detailed survey of music emotion recognition. Starting with some preliminary knowledge of music emotion recognition, this paper first introduces some commonly used evaluation metrics. Then a three-part research framework is put forward. Based on this three-part research framework, the knowledge and algorithms involved in each part are introduced with detailed analysis, including some commonly used datasets, emotion models, feature extraction, and emotion recognition algorithms. After that, the challenging problems and development trends of music emotion recognition technology are proposed, and finally, the whole paper is summarized.

                    解讀:薛均曉 鄭州大學

                    審核:張琨 合肥工業大學


                    Frontiers of Computer Science


                    Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大學共同主辦、SpringerNature 公司海外發行的英文學術期刊。本刊于 2007 年創刊,雙月刊,全球發行。主要刊登計算機科學領域具有創新性的綜述論文、研究論文等。本刊主編為周志華教授,共同主編為熊璋教授。編委會及青年 AE 團隊由國內外知名學者及優秀青年學者組成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中國科學引文數據庫(CSCD)核心庫等收錄,為 CCF 推薦期刊;兩次入選“中國科技期刊國際影響力提升計劃”;入選“第4屆中國國際化精品科技期刊”;入選“中國科技期刊卓越行動計劃項目”。


                    《前沿》系列英文學術期刊

                    由教育部主管、高等教育出版社主辦的《前沿》(Frontiers)系列英文學術期刊,于2006年正式創刊,以網絡版和印刷版向全球發行。系列期刊包括基礎科學、生命科學、工程技術和人文社會科學四個主題,是我國覆蓋學科最廣泛的英文學術期刊群,其中13種被SCI收錄,其他也被A&HCI、Ei、MEDLINE或相應學科國際權威檢索系統收錄,具有一定的國際學術影響力。系列期刊采用在線優先出版方式,保證文章以最快速度發表。

                    中國學術前沿期刊網

                    http://journal.hep.com.cn

                     
                     
                     
                    特別聲明:本文轉載僅僅是出于傳播信息的需要,并不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站注明的“來源”,并自負版權等法律責任;作者如果不希望被轉載或者聯系轉載稿費等事宜,請與我們接洽。
                     
                     打印  發E-mail給: 
                        
                     
                    相關新聞 相關論文
                    ?
                    圖片新聞
                    30厘米!問天實驗艙水稻長勢喜人 翼龍成功實施四川高溫抗旱人工影響天氣
                    利用3D打印技術制造柔性電致發光裝置 早期人類700萬年前或直立行走
                    >>更多
                     
                    一周新聞排行
                     
                    編輯部推薦博文
                     
                    av色导航