看穿情緒的 AI

隨著 AI 時代來臨，越來越多科學家們利用機器、深度學習等技術進行物體、圖像辨識，並得到可信的成果。然而，情緒、同理心、個性這種被稱為熱認知 (Hot cognition) [1] 的表現因為參雜著個體內在、外在環境等因素，因此被許多認知科學家視為區別人類與機器的高牆之一。2019 年，一群由科羅拉多大學與杜克大學組成的研究團隊嘗試以深度學習的方式打造一個能夠辨識情緒的 AI [2]。

1980 末期，知名計算神經生物學家 T.J. Sejnowski 曾以三層全連結神經網絡 (Artificial Neural Network, ANN) 透過人臉辨識性別，並達到 92% 的高正確率 (受試者辨識正確率為 88%)，顯示機器在圖像識別領域的進步 [3]。然而，情緒相對於性別是一個更加複雜的心理、生理表現，其中還牽扯到一個人的生理感知、認知過程、個性、經驗等許多因子，至今對於情緒的定義在科學界還沒有一個共識。因此，情緒也被認為是機器學習的一大限制；確實，在自然語言處理 (Natural Language Processing, NLP) 文本情感分析 (Sentiment Analysis) 也被電腦科學家們視為大難題 [4]。相較於字詞上所表達的情感，圖像視覺對情緒的產生的影響反而更為直接，因此可做容易切入的方法。2019 年中旬，一群由科羅拉多大學 (University of Colorado) 與杜克大學 (Duke University) 組成的認知科學團隊開發出「EmoNet」，利用深層卷積神經網路 (Deep Convolutional Neural Network, DCNN) 的數學運算達成透過圖像辨識情緒的目標。

該團隊認為雖然情緒的產生涉及過去的經驗與認知基模 (schemas) [5]，但人腦對於視覺影像的刺激可以產生更及時與明顯的情緒 (也被稱為 System 1 Appraisal) [6,7]，因此，作者希望藉由分析視覺影像所產生的情緒並訓練機器學習，使得機器得以辨識情緒。他們打造了一台 8 層的 DCNN 系統 (圖一)，並透過大量被標籤的圖像資料訓練該系統 (訓練資料量為 137,482 張圖片，所有圖片均被 853 人分類至 20 種情緒類別 [8]。訓練資料量與測試資料量比為 9:1)。

圖一、深度卷積神經網路 (Deep convolutional neural network, DCNN) 架構
此神經網路改良自 AlexNet，AlexNet 是前幾年由 Alex Krizhevsky 打造的深層卷積神經網路，因為辨識效果異常顯著而聲名大噪 [9]。EmoNet 的架構與 AlexNet 類似，前 5 層為卷積層 (Convolutional layers) 和池化層 (Pooling layers)，後 3 層為一般的全連結神經層 (Fully connected neural networks)。卷積層的運算方式是把原始影像轉換成像素數值的矩陣做一定權重的矩陣內積，目的是凸顯特徵；而池化層的運算方式是把矩陣降維並保持其特徵值。
圖片來源：DOI: 10.1126/sciadv.aaw4358

藉由這 137,482 張圖片的訓練，可看出當該神經網路在做卷積 (Convolution) 和池化運算 (Pooling) 時圖像的特徵越來越明顯，並且情緒的分群 (clustering) 也漸漸顯著 (圖二)，到最後一層時情緒種類可明顯的分成 20 種獨立的情緒 (圖三)。

圖二、神經網路訓練的不同層激活效果
五張散狀圖分別為 1, 3, 5 的卷積層和 6, 8 全連結層的激活狀態。散狀圖是透過隨機選擇 1,000 單位 t-distributed stochastic neighbor embedding (t-SNE) 的降維方法呈現。
圖片來源：DOI: 10.1126/sciadv.aaw4358

透過以上 20 種的情緒分類和接收者操作特徵曲線 (Receiver operating characteristic curve, ROC curve) 的分析，結果發現 EmoNet 的平均鑑別能力雖然僅為可接受 (Acceptable Discrimination, AUC = 0.74) (AUC 為 ROC 曲線下面積 (Area under the Curve of ROC)，數值越高代表模型預測正確率越高)，但在一些特定情緒種類上卻有相當優異的判斷效果，像是在渴望 (Craving)、性慾 (Sexual desire)、狂喜 (Entrancement) 與恐懼 (Horror) 這四種情緒上的判斷效果是最好的 (AUC = 0.98, 0.96, 0.90, 0.87)，可達到九成以上的預測準確度；而困惑 (Confusion)、驚嘆 (Awe) 和驚喜 (Surprise) 判斷效果卻較差 (AUC = 0.63, 0.61, 0.54)。另外，從標準化的混淆矩陣 (Normalized confusion matrix) 中，可看出有些情緒無法區別 (圖四)。最後，他們將可區分的情緒再分類成 11 種，並在之後的測驗以這 11 種情緒為主。

EmoNet測試影片

影片說明：EmoNet 實際測試辨識情緒之影片，每個畫面的數值代表該情緒的預測機率

影片來源：Phil Kragel

圖三、20 種的情緒分類
使用 t-SNE 畫出的測試資料散布圖，可得到 20 種的情緒分類。
圖片來源：DOI: 10.1126/sciadv.aaw4358

圖四、測試資料的混淆矩陣（標準化）
縱軸為預測的情緒種類，橫軸為可區分的 11 種情緒分群。右邊的長條圖顏色越深代表預測準確度越高，value = 0-1。從矩陣中可看出有些情緒，如娛樂 (amusement)、喜悅 (joy)、崇拜 (adoration) 等情緒的混淆程度較高，EmoNet 難以區別。
圖片來源：DOI: 10.1126/sciadv.aaw4358

在打造完此機器模型後，為了測試 EmoNet 模型的概化能力 (generalizability)，該團隊將 EmoNet 模型套用到電影預告的資料集上進行分析 [10,11]。此預告片資料集包含動作片 (n = 9)、恐怖片 (n = 10) 和浪漫喜劇 (n = 9)，他們希望透過 EmoNet 模型分析預告片中各畫面的情緒元素，以判斷影片的類型 (圖五)。有趣的是，該 EmoNet 在整體上有不錯的預測率 (Accuracy = 71%, AUC = 0.85) ；在個別辨識上浪漫喜劇比起其他兩者有著顯著的判斷優勢，而恐怖片和動作片之間存在一定的混淆效果 (Classification errors = 26.32%)，推測可能為兩者包含某些相似的情緒元素 (圖六)。

圖五、利用 EmoNet 判斷電影預告片種類。
EmoNet 會在一部預告片的不同時間點截圖藉由 DCNN 判斷情緒種類，最後整合所預測出的情緒加總判定該預告片的種類。
圖片來源：DOI: 10.1126/sciadv.aaw4358

圖六、電影預告片預測結果
左圖為三種預告片的接收者操作特徵曲線 (ROC)。藍線、黃線、紅線分別為浪漫喜劇、動作片、恐怖片。從曲線可看出浪漫喜劇的預測準確度最高。右圖為三種預告片的混淆矩陣，可看出恐怖片和動作片的混淆程度較高。
圖片來源：DOI: 10.1126/sciadv.aaw4358

除了這幾個實驗，這群團隊另外所做的幾項 fMRI 的實驗也支持了情緒可被拆解，並透過視覺感知系統投射到大腦相對應皮質的假說 [12]。簡言之，從這個研究中可看出隨著電腦科學的蓬勃進步，這種計算生物導向的方法已漸漸地成為目前心理學、神經科學的研究趨勢。

參考文獻：

Brand, A. G. et al. (1985). Hot cognition: Emotions and writing behavior, JAC, 6: 5–15, JSTOR 20865583. https://www.jstor.org/stable/20865583
Kragel, P. A., Reddan, M. et al. (2018). Emotion schemas are embedded in the human visual system. Science Advances 24 Jul 2019 DOI: 10.1126/sciadv.aaw4358
D.T. Lawrence, et al. (1990), Sexnet: A neural network identifies sex from human faces, Neural Information Processing Systems, pp. 572–577, 1991.
Mika V. Mantyla, et al., The evolution of sentiment analysis—a review of research topics, venues, and top cited papers. Computer Science Review, 27:16 – 32, 2018. ISSN 1574-0137. DOI: 10.1016/j.cosrev.2017.10.002
C. E. Izard, et al., Basic emotions, natural kinds, emotion schemas, and a new paradigm. Perspect. Psychol. Sci. 2, 260–280 (2007). DOI: 10.1111/j.1745-6916.2007.00044.x.
P. Vuilleumier, M. P. Richardson, J. L. Armony, J. Driver, R. J. Dolan, Distant influences of amygdala lesion on visual cortical activation during emotional face processing. DOI: 10.1038/nn1341.
D. Kahneman, P. Egan, Thinking, Fast and Slow (Farrar, Straus and Giroux, 2011), vol. 1.
A. S. Cowen, D. Keltner, Self-report captures 27 distinct categories of emotion bridged by continuous gradients. Proc. Natl. Acad. Sci. U.S.A. 114, E7900–E7909 (2017). DOI: 10.1073/pnas.1702247114
A. Krizhevsky, et al., ImageNet classification with deep convolutional neural networks, in Advances in Neural Information Processing Systems, (2012), pp. 1097–1105. DOI: 10.1061/(ASCE)GT.1943-5606.0001284
P. J. Lang, M. M. Bradley, B. N. Cuthbert, International affective picture system (IAPS): Affective ratings of pictures and instruction manual (Report no. A-8, University of Florida, 2008).
Z. Rasheed et al., Movie genre classification by exploiting audio-visual features of previews, in Object Recognition Supported by User Interaction for Service Robots (IEEE, 2002), vol. 2, pp. 1086–1089. DOI: 10.1109/ICPR.2002.1048494
D. E. Rumelhart, et al. Schemata and sequential sequential thought processes, in PDP Models, in Parallel Distributed Processing: Explorations in the Microstructures of Cognition (1987), vol. 2, pp. 7–57

撰稿人｜胡傳宇
審稿人｜吳畇芸

About the author

Investigator團隊

Leave a Comment X

About the author

Investigator團隊

You may also like

Leave a Comment X