基於語音的情緒識別

05-03

機器會不會有情緒呢？這個很難定義。如果機器能夠識別人的情緒也是一件很酷的事。想想以後的私人電子助理無法識別你是否在生氣，那是很惱火的。另外，在如今的社會中，心理健康的形式比較嚴峻，每個人不抑鬱或焦慮下什麼的都不好意思說你在努力。而更準確更廉價的心理疏導方法需要研究和技術的投入。利用machine進行情緒識別以及跟蹤將是其中很重要的部分。

語音是能反映人類情感的一個很重要的行為信號，基於語音信號的情緒識別在近幾年得到了廣泛的關注和研究。現階段的基於語音信號的情緒識別主要分為兩大類，依據是情緒的不同表示方式。第一種表示方式是情感的種類，最常用的六種基本情感包括開心(happiness)，難過(sadness)，生氣(anger)，噁心(disgust)，害怕(fear)，驚訝(surprise)，如圖一。第二種表示方式是基於幾個維度向量，最常用的是arousal 和 valence，如圖二。Arousal代表喚起程度的高低，valence代表積極情緒的高低，這兩個維度都是通過數值來代表他的高低程度。比如一個數值區間[-1,1], -1代表非常低迷/消極，1代表非常激動/積極。這樣，開心(happiness)就可以用高arousal 和高 valence來表示，而抑鬱(depression) 則可以用低arousal 和低

valence 來表示。幾乎人類所有的情緒都可以用這兩個維度所構成的二維空間來表示。

Figure 1: http://news.softpedia.com/news/Is-Emotion-Tracking-the-Future-in-Tech-or-Just-Down-Right-Creepy-434806.shtml

Figure 2： https://www.nature.com/articles/srep04998/figures/1

在構建主動情緒識別系統時，這兩種不同的情緒表示方式造就了兩種不同的識別系統。第一種識別情緒種類的系統是基於分類器的識別，第二種識別情緒維度的系統是一個回歸系統，因為系統的輸出是一個連續性的數字。首先，這兩種系統都是從聲音信號裡面可以提取出與情感相關聯的一系列信息，稱之為特徵向量。比如，pitch在人開心或者喚起狀態變高的時候也會隨之升高，jitter/shimmer嗓音的顫抖和持續時間會隨著人抑鬱而變得遲緩。這些與情緒相關的特徵向量接著會被用來訓練分類器或者回歸系統。

目前這兩種表達方式都在被廣泛的研究。同時，多模型的融合也引起了關注，包括語音，人臉，肢體動作，生理信號等，都作為可預測情緒的模型來進行分析，由於多個模型的融合能更好的提供補充信息，提高自動系統的識別率。

文章來源：Sally