情绪识别在文教医疗、人机交互等领域均有广阔应用前景。情绪可通过语音、面部表情、姿态等行为信号或脑电、心电等生理信号进行识别。相对而言, 基于生理信号的情绪识别方法不易伪装, 可获得更加客观、有效的结果。本文从情绪分类模型、诱发与识别流程等方面介绍了近年来基于生理信号的主要情绪识别方法和研究进展, 归纳总结了其中的难点和未来的发展趋势。
引用本文: 张迪, 万柏坤, 明东. 基于生理信号的情绪识别研究进展. 生物医学工程学杂志, 2015, 32(1): 229-234. doi: 10.7507/1001-5515.20150042 复制
引言
情绪(emotion)是人对客观事物是否满足自身需要而产生的综合状态。它作为人脑的高级功能,保证着有机体的生存和适应,不同程度上影响着人的学习、记忆与决策[1]。情绪也是个性特征和心理病理的关键因素[2],在日常生活中扮演着重要角色。情绪识别是人类智能的重要部分,在远程教育、医疗保健、人机交互等多领域均有广泛的应用前景[3],受到业界人士高度重视并成为研究热点。
情绪不仅有内心体验和外部行为表现,同时伴随着复杂的神经过程和生理变化。情绪通常可由面部表情、语音声调、身体姿态[3]等外显特征进行识别,但这类信号易被人为掩饰或伪装,难以排除主观因素影响,有时无法获知内在真实的情绪状态。而伴随情绪的生理反应则由神经和内分泌系统支配,具有自发性,不易受主观意念控制,故基于所对应生理信号的情绪识别能获得客观真实的结果[4],也更贴切于实际应用。
本文从情绪的分类模型、情绪诱发与识别流程等方面出发,详细介绍了近年来利用生理信号进行情绪识别的主要方法和研究进展,归纳总结了目前存在的研究难点,最后指出了未来的发展方向。
1 情绪识别研究基础
1.1 情绪的生理学基础
19世纪美国心理学家James率先开展情绪生理机制的研究,认为情绪来源于机体外周生理反应[3],提示不同情绪会伴随特异性外周生理活动[5]。其后Kreibig[6]研究了不同情绪下自主神经系统活动模式,表明不同情绪生理反应存在特异性,例如,恐惧会引起心率和呼吸节律的加快,皮电反应会随情绪唤醒度的提高而增大。该理论肯定了自主生理活动对情绪的参与,但忽视了大脑中枢对情绪的作用。1929年,Cannon质疑James的观点并与Bard一起提出了Cannon-Bard理论(又称丘脑理论)。Cannon-Bard理论认为,情绪与其对应的生理变化是同时发生的,二者都受丘脑的控制,真正决定情绪性质的是中枢脑区[5],肯定了中枢神经系统对情绪的调节、控制作用。近年来神经功能成像研究表明:不同情绪体验期间的皮层与皮层下脑区往往伴有特异性激活或失活,揭示不同情绪感受与大脑皮层和皮层下神经活动过程密切相关[7]。
综上可知,情绪的发生伴随着中枢和周围神经系统在一定水平上的生理激活。这为研究不同生理模式下的情绪识别提供了理论依据。
1.2 情绪分类模型
情绪识别面临的首要问题是如何划分情绪,也就是建立情绪分类模型。采用一个世界通用的分类标准将有利于不同研究结果间的可比性和推广性,但目前尚未统一标准而存在两种情绪分类模型:基本情绪模型和维度空间模型。
基本情绪模型认为:情绪在发生上具有原型模式,存在数种基本情绪类型[8],每一类型各有其独特的体验模式、生理唤醒和外显特征,其不同形式的组合形成了人类的所有情绪。Ekman提出了包括喜悦、愤怒、悲伤、恐惧、厌恶、惊奇的基本情绪集;Izard提出基本情绪有11种:兴奋、惊奇、痛苦、厌恶、愉快、愤怒、恐惧、悲伤、害羞、轻蔑和自罪感。维度空间论则认为情绪之间不是离散、突变的,而存在一定的关联。在维度空间模型中,各种情绪用不同的空间位置来代表,不同情绪间的相似性和差异性根据彼此在维度空间中的距离来显示,不同情绪间可以实现逐渐平稳的转变。目前维度空间论中应用最广泛的是由效价(valence)和唤醒度(arousal)组成的二维空间模型[2, 9]。如图 1所示,效价也叫愉悦度(pleasure),其理论基础是正负情绪的分离激活,反映了人对情况的判断,从不愉快到愉快。唤醒度或称激活度(activation),指与情绪状态相联系的机体能量的激活程度,表现的是人感受的兴奋程度,从平静到兴奋。知名的国际情绪图片系统(International Affective Picture System, IAPS)[3]和国际情绪情感数字化声音系统(International Affective Digitized Sounds, IADS)[10]就很好地体现了上述二维空间。
图1
效价-唤醒度模型中的基本情绪
Figure1.
Basic emotions on the valence-arousal dimensional model
实际上,维度空间论并未排斥基本情绪的存在。如图 1所示,一些基本情绪(图中加下划线者)可通过分解为两个维度在二维空间中进行大概的定位[8-9],但两者之间并不具备一一对应关系,无法实现精确的转换。
1.3 情绪诱发方法
在实验室条件下唤起个体真实的情绪状态并维持一段时间是情绪研究得以进行的前提,选取合适的诱发方法至关重要。目前情绪诱发方法主要有以下几种。
(1)素材刺激法:给被试呈现图片、声音(音乐)、视频等感官刺激材料以诱发被试产生不同情绪[10]。该方法操作简便、易于控制。上述IAPS和IADS为情绪研究提供了标准化的诱发材料,使不同实验结果具有可比性,增强了实验的可重复性,因此被广泛用于情绪研究。但这两套系统在跨国使用时由于存在较大的文化差异,故一般需要先做适用性评估或进行本土化修订与补充。我国心理学工作者已进行了相应工作,建立了中国情绪图片系统和中国情绪数码声音系统[10],为国内情绪研究提供了重要的诱发素材。听觉刺激法中音乐诱发的情绪更为深入、持久;视听刺激法中视频诱发感染力强、特征要求低,更接近真实生活体验。近年来这两种方法因其独特的优势受到研究重视和应用推崇。
(2)回忆/想象情境:让被试回忆所经历的感情色彩事件,或想象处于某个具体场景(进入某种情绪状态)来诱发特定情绪[11]。该方法虽能有效诱发情绪,但需专业人士指导,有特定要求,操作难度较大,难以准确设计和把握诱发情绪的持续时间及强度。
(3)情绪性情境诱发:在实验室模拟所需诱发情绪对应的真实情境,通过对情境的设置和操控,使被试产生相应的情绪体验[10]。例如让被试做博弈、电脑游戏、即兴演讲、特定表情等,令被试在该情境下体验到高唤醒度的情绪。该方法诱发生态效度高,但操作复杂度也高。
对于同一诱发情境,不同被试的情绪体验可能存在很大差异。故研究中常以被试的主观感受评价为辅,用自我评估量表(self-assessment manikins, SAM)[3]来衡量诱发效果。上述诱发方法各有优缺点,只有综合考虑被试状况、研究目标和具体应用场景,选择合适诱发方法并对实验过程进行严格控制,才能达到理想的情绪诱发效果。
随着情绪研究的深入,越来越多的诱发方法被开发出来,为研究提供更多的选择。然而,研究中也面临如下问题亟需解决:①如何建立标准化的情绪诱发材料库和操作流程,使得选用相同诱发方法的情绪识别研究之间具有可比性[11];②如何考察同一情绪不同诱发方法之间的区别和联系[10],加深对该情绪的理解,寻找独立于诱发方法的稳定的情绪评估指标;③如何设计出更有效的诱发方法来缩小实验室诱发与生活中真实情绪体验的差距。这些都值得研究者深入研究和进一步完善。
2 基于生理信号的情绪识别
情绪识别即运用计算机信号处理和分析方法对各种情绪状态下的心理、生理或体征行为参数进行特征提取与分类识别,以确认个体所处的情绪状态。目前情绪识别主要通过两种方式:①外部行为测量法:通过面部表情、语音或姿态等外在行为特征进行识别;②生理信号测量法:测量呼吸、心律、脑电或体温等生理信号进行识别;虽然生理信号的获取不如前者简单,但具有自发性、不受人为因素控制,更能客观、真实地反映人的情绪状态。随着便携式、无线传输的电生理采集装置的快速发展,基于生理信号的情绪识别研究日渐受到重视并成为研究热点。
基于生理信号的情绪识别研究起步相对较晚,在研究早期,国内外主要采用皮温(skin temperature, SKT)、血压(blood pressure, BP)、心电图(electrocardiogram, ECG)、肌电图(electromyogram, EMG)、呼吸作用(respiration, RSP)、皮肤电反应(galvanic skin response, GSR)和血容量搏动(blood volume pulse, BVP)等自主生理信号进行情绪识别,因此也称作自主神经系统测量[8]。美国麻省理工媒体实验室Picard教授所带领的情感计算研究小组率先从生理信号中提取特征进行情绪识别研究[4],并证明该方法是可行的。多种自主生理信号的组合可以反映更全面的信息,因此利用这类信号进行情绪识别时常采用多信息融合的方式。2008年Kim等[9]利用心电、肌电、皮肤电导和呼吸等多种自主生理信号的时频特征信息融合,对音乐诱发的4种情绪进行分类识别,达到了95%的分类率;但由于自主生理信号变化速率通常较慢,且信号采集的时间分辨率有限,在需要快速识别情绪时,在线系统的实时性和鲁棒性受到挑战。
近年来,随着神经生理学的发展和脑成像技术的兴起,脑信号因其时间分辨率高、功能特异性强等优势,受到研究人员的重视并被引入到情绪识别领域。在研究初期,最常用的测量指标是脑电图(electroencephalogram, EEG),一些学者指出前额脑不对称现象与情绪效价或趋避特性密切相关;后来也有学者将自主生理信号和脑电信号融合,利用综合信息以提高识别率[12-13]。然而脑电采集过程相对复杂,易受外界噪声和肌电等干扰,基于功能性近红外光谱成像的脑血氧参数测量法因其便携性好,对噪声、动作不敏感,允许长时连续测量等优点开始在情绪识别领域崭露头角。2009年Tai等[14]提取氧合血红蛋白和脱氧血红蛋白的时域特征对IAPS图片诱发的积极和消极情绪进行识别,13个被试的识别率为75.0%~96.67%。而功能核磁共振(functional magnetic resonance imaging, fMRI)的设备体积庞大、价格昂贵,易产生幽闭恐惧,不宜实际应用,所以fMRI更多地用于情绪神经机制的研究,很少用于情绪识别研究。
在基于生理信号的情绪识别研究中,信号预处理、特征提取与优选、分类识别是最为关键的三个环节,下面分别介绍如下。
2.1 信号预处理
实验室条件下诱发的情绪通常难以保持稳定,且生理信号易在采集过程中受到噪声及其它信号干扰,故信号预处理主要是保留有效数据段,例如只截取情绪诱发高潮时段数据进行分析[13],然后去除信号中的噪声和伪迹。目前常用的伪迹去除方法主要有滤波、归一化、独立成分分析等。不同频带参数设置的滤波器例如自适应滤波器、巴特沃斯滤波器等常用于生理信号的去噪,例如对皮电进行平滑滤波,去除高频毛刺。不同被试间生理信号的基线普遍存在明显的个体差异,所以需要对信号进行归一化处理来降低基线个体差异对情绪识别的不利影响[15]。脑电信号的预处理相对复杂,常涉及变参考电位、降低采样率、利用独立成分分析或主成分分析等方法去除眼电、伪迹[16]。
2.2 特征提取与优选
特征提取是情绪识别的关键环节,提取出敏感、有效的特征,才能保证后续的准确识别。常用的特征主要有4类:时域、频域、时-频和非线性特征。
时域特征提取发展最早、较为简单,是通过对信号时域波形进行分析,从波幅[17]、均值、标准差、偏歪度[14]和峭度等方面获取信息,在处理过程中损失的信息较少。常用的时域分析方法有:过零点分析、直方图分析、方差分析、相关分析、峰值检测、波形参数分析和波形识别等。因其直观性强、物理意义较明确,至今仍受到不少研究者的青睐。利用脑血氧参数进行情绪识别研究时,较多采用时域的特征分析和提取[14, 18]。
频域特征提取建立在功率谱分析基础上,相对较为成熟,广泛应用于心电、呼吸、脑电等信号的分析,例如不同频段的功率谱比值、功率谱能量、子带功率谱密度[16]等,可分为经典谱估计和现代谱估计。经典谱估计建立在傅里叶变换基础上,常用的实现方法有周期图法和自相关法。经典谱估计原理简单,便于实现,但存在“边瓣泄露效应”、谱分辨率较低、估计方差性能不好等缺点。现代功率谱估计法大致分为参数模型谱估计和非参数模型谱估计两类。参数模型法在谱分辨率和谱真实性方面比经典法有所改善,但改善的程度取决于所选模型的恰当性和模型参数的估计质量。
时频特征提供了时域和频域的联合分布信息,清晰地描述了信号频率随时间变化的关系,蕴含内容更加丰富、全面。其常用分析方法有:小波变换,短时傅里叶变换[4]、希尔伯特-黄变换等。小波变换具有多分辨率特性,滑移时窗可调,在时域和频域均有良好的分辨率,成为分析非平稳信号的有效工具。已有学者将小波变换用于情绪状态下脑电[19]、心电、肌电等信号的分析和特征提取。
脑电信号产生于复杂的大脑系统,具有显著的非线性和混沌性,故与其它生理信号相比,脑电特征的提取更为复杂和多样化。近年来在情绪脑电识别研究中,熵[20]、相关维数、分形维数等非线性特征分析逐渐增多。Konstantinidis等[21]计算情绪脑电的相关维数进行在线识别研究;Liu等[22]提取脑电的分形维数等非线性特征取得了理想的识别效果,并搭建了在线应用系统。目前,研究中常将几种类型的特征进行融合以提高识别准确率[23]。特征层融合的优点是能够实现可观的信息压缩,有利于实时处理,而且所提取的特征直接与决策分析有关,因而融合结果能最大限度地给出决策分析所需要的特征信息。
从多种生理信号提取的原始特征维数通常很高,难免含有无效特征,不仅影响识别精度且会降低运算效率,故在分类前需进行特征优选,即从数量为D的特征集中优选出数量为d(D>d)的最优特征集,剔除不相关或冗余特征,从而减少特征个数,提高模型分类精度,降低模型计算量和运行时间。在情绪识别研究中,已有序列前向搜索、方差分析、序列后向搜索、Fisher投影等方法获得了较好的特征优选结果[4]。Wagner等[24]采用序列前向搜索、方差分析和Fisher投影方法进行特征选择,四种情绪的识别率达到90%以上。近年来,遗传算法、蚁群算法和粒子群等智能算法因较低的计算代价和优异的解空间搜索能力得到广泛应用。国内吕宝良和刘光远等教授的课题组尝试利用共空间模式、相关性分析、粒子群优化等算法做特征优选,取得了不错的结果[16, 25-26]。
2.3 模式识别
根据情绪分类模型,通常从基本情绪和不同维度情绪两方面进行情绪识别。所用分类模型主要包括:贝叶斯网络(Bayesian networks, BN)[17]、支持向量机(support vector machines, SVM)[23, 25, 27-28]、多层感知器(multilayer perceptron, MLP)[23]、K近邻均值聚类(K-nearest neighbour, KNN)[29]以及线性判别分析(linear discriminant analysis, LDA)[9, 18, 30]等。表 1总结了近年来基于生理信号的情绪识别相关研究方案及结果。由于各实验间诱发方法、样本大小、分类级别不同,很难准确详细地比较不同算法的分类优劣。但可以看出SVM因其处理高维小样本的良好性能,被广泛运用于情绪识别研究。
现有情绪识别成果普遍处于离线水平,多集中于用户依赖系统,而且达到了较高的识别率,音乐诱发的4种情绪识别率已达98%[9],图片诱发的6种基本情绪的识别率达到了92%[28];且用户依赖系统的识别率优于非用户依赖系统[9, 27, 29],但其识别效果却难以推广。随着识别情绪种类的增加或融合信息通道的减少,识别率会有所下降[30]。目前情绪识别研究尚局限于少数的情绪类型,识别范围有待今后进一步扩展。现有研究采用的实验范式较单一,大多采用被动的视觉(图片)呈现或听觉(音乐)刺激诱发目标情绪,更接近真实生活体验的视听诱发(视频)或主动式诱发的情绪识别研究相对较少,未来该方面的研究可望加强和进一步完善。
3 小结与展望
近年来基于生理信号的情绪识别研究虽然取得了长足进步,但在基础理论和实际应用上仍任重而道远,皆面临多方面难题:①情绪生理机制的基础研究特别是在神经机制方面还远未成熟,需要深入探讨和进一步完善,为情绪识别在疾病诊断、情绪神经反馈调控等方面的应用提供有力的理论支持。②生理信号极易受内外噪声干扰,研究更为有效的实时在线消噪方法和开发抗干扰能力更强的便携化生理信号检测分析仪器是面临的基本技术挑战;③情绪研究正向建立用户独立系统和实时在线识别转变,如何提高情绪识别精度、运算速度和拓宽识别种类是面临的更高技术挑战。多模态情绪识别将是该领域未来发展的趋势之一,将生理信号与表情、语音等情绪特征相结合以开拓多特征融合的情绪识别方法,尝试多种智能学习算法和分类模型,有望进一步提高情绪识别的准确性和鲁棒性。
4 结论
情绪在人类的社交生活、行为调控中扮演着重要角色,情绪识别是科学界重要的研究任务和前沿的研究方向。利用生理信号进行情绪识别具有客观、真实性,虽然该研究尚未成熟, 但已显示出积极深远的影响和广泛的应用价值、社会效益。众多学者正积极地从不同角度尝试多种研究手段开展情绪分析和识别,开发出可靠的非用户依赖在线应用系统将是未来研究的重要内容。
引言
情绪(emotion)是人对客观事物是否满足自身需要而产生的综合状态。它作为人脑的高级功能,保证着有机体的生存和适应,不同程度上影响着人的学习、记忆与决策[1]。情绪也是个性特征和心理病理的关键因素[2],在日常生活中扮演着重要角色。情绪识别是人类智能的重要部分,在远程教育、医疗保健、人机交互等多领域均有广泛的应用前景[3],受到业界人士高度重视并成为研究热点。
情绪不仅有内心体验和外部行为表现,同时伴随着复杂的神经过程和生理变化。情绪通常可由面部表情、语音声调、身体姿态[3]等外显特征进行识别,但这类信号易被人为掩饰或伪装,难以排除主观因素影响,有时无法获知内在真实的情绪状态。而伴随情绪的生理反应则由神经和内分泌系统支配,具有自发性,不易受主观意念控制,故基于所对应生理信号的情绪识别能获得客观真实的结果[4],也更贴切于实际应用。
本文从情绪的分类模型、情绪诱发与识别流程等方面出发,详细介绍了近年来利用生理信号进行情绪识别的主要方法和研究进展,归纳总结了目前存在的研究难点,最后指出了未来的发展方向。
1 情绪识别研究基础
1.1 情绪的生理学基础
19世纪美国心理学家James率先开展情绪生理机制的研究,认为情绪来源于机体外周生理反应[3],提示不同情绪会伴随特异性外周生理活动[5]。其后Kreibig[6]研究了不同情绪下自主神经系统活动模式,表明不同情绪生理反应存在特异性,例如,恐惧会引起心率和呼吸节律的加快,皮电反应会随情绪唤醒度的提高而增大。该理论肯定了自主生理活动对情绪的参与,但忽视了大脑中枢对情绪的作用。1929年,Cannon质疑James的观点并与Bard一起提出了Cannon-Bard理论(又称丘脑理论)。Cannon-Bard理论认为,情绪与其对应的生理变化是同时发生的,二者都受丘脑的控制,真正决定情绪性质的是中枢脑区[5],肯定了中枢神经系统对情绪的调节、控制作用。近年来神经功能成像研究表明:不同情绪体验期间的皮层与皮层下脑区往往伴有特异性激活或失活,揭示不同情绪感受与大脑皮层和皮层下神经活动过程密切相关[7]。
综上可知,情绪的发生伴随着中枢和周围神经系统在一定水平上的生理激活。这为研究不同生理模式下的情绪识别提供了理论依据。
1.2 情绪分类模型
情绪识别面临的首要问题是如何划分情绪,也就是建立情绪分类模型。采用一个世界通用的分类标准将有利于不同研究结果间的可比性和推广性,但目前尚未统一标准而存在两种情绪分类模型:基本情绪模型和维度空间模型。
基本情绪模型认为:情绪在发生上具有原型模式,存在数种基本情绪类型[8],每一类型各有其独特的体验模式、生理唤醒和外显特征,其不同形式的组合形成了人类的所有情绪。Ekman提出了包括喜悦、愤怒、悲伤、恐惧、厌恶、惊奇的基本情绪集;Izard提出基本情绪有11种:兴奋、惊奇、痛苦、厌恶、愉快、愤怒、恐惧、悲伤、害羞、轻蔑和自罪感。维度空间论则认为情绪之间不是离散、突变的,而存在一定的关联。在维度空间模型中,各种情绪用不同的空间位置来代表,不同情绪间的相似性和差异性根据彼此在维度空间中的距离来显示,不同情绪间可以实现逐渐平稳的转变。目前维度空间论中应用最广泛的是由效价(valence)和唤醒度(arousal)组成的二维空间模型[2, 9]。如图 1所示,效价也叫愉悦度(pleasure),其理论基础是正负情绪的分离激活,反映了人对情况的判断,从不愉快到愉快。唤醒度或称激活度(activation),指与情绪状态相联系的机体能量的激活程度,表现的是人感受的兴奋程度,从平静到兴奋。知名的国际情绪图片系统(International Affective Picture System, IAPS)[3]和国际情绪情感数字化声音系统(International Affective Digitized Sounds, IADS)[10]就很好地体现了上述二维空间。
图1
效价-唤醒度模型中的基本情绪
Figure1.
Basic emotions on the valence-arousal dimensional model
实际上,维度空间论并未排斥基本情绪的存在。如图 1所示,一些基本情绪(图中加下划线者)可通过分解为两个维度在二维空间中进行大概的定位[8-9],但两者之间并不具备一一对应关系,无法实现精确的转换。
1.3 情绪诱发方法
在实验室条件下唤起个体真实的情绪状态并维持一段时间是情绪研究得以进行的前提,选取合适的诱发方法至关重要。目前情绪诱发方法主要有以下几种。
(1)素材刺激法:给被试呈现图片、声音(音乐)、视频等感官刺激材料以诱发被试产生不同情绪[10]。该方法操作简便、易于控制。上述IAPS和IADS为情绪研究提供了标准化的诱发材料,使不同实验结果具有可比性,增强了实验的可重复性,因此被广泛用于情绪研究。但这两套系统在跨国使用时由于存在较大的文化差异,故一般需要先做适用性评估或进行本土化修订与补充。我国心理学工作者已进行了相应工作,建立了中国情绪图片系统和中国情绪数码声音系统[10],为国内情绪研究提供了重要的诱发素材。听觉刺激法中音乐诱发的情绪更为深入、持久;视听刺激法中视频诱发感染力强、特征要求低,更接近真实生活体验。近年来这两种方法因其独特的优势受到研究重视和应用推崇。
(2)回忆/想象情境:让被试回忆所经历的感情色彩事件,或想象处于某个具体场景(进入某种情绪状态)来诱发特定情绪[11]。该方法虽能有效诱发情绪,但需专业人士指导,有特定要求,操作难度较大,难以准确设计和把握诱发情绪的持续时间及强度。
(3)情绪性情境诱发:在实验室模拟所需诱发情绪对应的真实情境,通过对情境的设置和操控,使被试产生相应的情绪体验[10]。例如让被试做博弈、电脑游戏、即兴演讲、特定表情等,令被试在该情境下体验到高唤醒度的情绪。该方法诱发生态效度高,但操作复杂度也高。
对于同一诱发情境,不同被试的情绪体验可能存在很大差异。故研究中常以被试的主观感受评价为辅,用自我评估量表(self-assessment manikins, SAM)[3]来衡量诱发效果。上述诱发方法各有优缺点,只有综合考虑被试状况、研究目标和具体应用场景,选择合适诱发方法并对实验过程进行严格控制,才能达到理想的情绪诱发效果。
随着情绪研究的深入,越来越多的诱发方法被开发出来,为研究提供更多的选择。然而,研究中也面临如下问题亟需解决:①如何建立标准化的情绪诱发材料库和操作流程,使得选用相同诱发方法的情绪识别研究之间具有可比性[11];②如何考察同一情绪不同诱发方法之间的区别和联系[10],加深对该情绪的理解,寻找独立于诱发方法的稳定的情绪评估指标;③如何设计出更有效的诱发方法来缩小实验室诱发与生活中真实情绪体验的差距。这些都值得研究者深入研究和进一步完善。
2 基于生理信号的情绪识别
情绪识别即运用计算机信号处理和分析方法对各种情绪状态下的心理、生理或体征行为参数进行特征提取与分类识别,以确认个体所处的情绪状态。目前情绪识别主要通过两种方式:①外部行为测量法:通过面部表情、语音或姿态等外在行为特征进行识别;②生理信号测量法:测量呼吸、心律、脑电或体温等生理信号进行识别;虽然生理信号的获取不如前者简单,但具有自发性、不受人为因素控制,更能客观、真实地反映人的情绪状态。随着便携式、无线传输的电生理采集装置的快速发展,基于生理信号的情绪识别研究日渐受到重视并成为研究热点。
基于生理信号的情绪识别研究起步相对较晚,在研究早期,国内外主要采用皮温(skin temperature, SKT)、血压(blood pressure, BP)、心电图(electrocardiogram, ECG)、肌电图(electromyogram, EMG)、呼吸作用(respiration, RSP)、皮肤电反应(galvanic skin response, GSR)和血容量搏动(blood volume pulse, BVP)等自主生理信号进行情绪识别,因此也称作自主神经系统测量[8]。美国麻省理工媒体实验室Picard教授所带领的情感计算研究小组率先从生理信号中提取特征进行情绪识别研究[4],并证明该方法是可行的。多种自主生理信号的组合可以反映更全面的信息,因此利用这类信号进行情绪识别时常采用多信息融合的方式。2008年Kim等[9]利用心电、肌电、皮肤电导和呼吸等多种自主生理信号的时频特征信息融合,对音乐诱发的4种情绪进行分类识别,达到了95%的分类率;但由于自主生理信号变化速率通常较慢,且信号采集的时间分辨率有限,在需要快速识别情绪时,在线系统的实时性和鲁棒性受到挑战。
近年来,随着神经生理学的发展和脑成像技术的兴起,脑信号因其时间分辨率高、功能特异性强等优势,受到研究人员的重视并被引入到情绪识别领域。在研究初期,最常用的测量指标是脑电图(electroencephalogram, EEG),一些学者指出前额脑不对称现象与情绪效价或趋避特性密切相关;后来也有学者将自主生理信号和脑电信号融合,利用综合信息以提高识别率[12-13]。然而脑电采集过程相对复杂,易受外界噪声和肌电等干扰,基于功能性近红外光谱成像的脑血氧参数测量法因其便携性好,对噪声、动作不敏感,允许长时连续测量等优点开始在情绪识别领域崭露头角。2009年Tai等[14]提取氧合血红蛋白和脱氧血红蛋白的时域特征对IAPS图片诱发的积极和消极情绪进行识别,13个被试的识别率为75.0%~96.67%。而功能核磁共振(functional magnetic resonance imaging, fMRI)的设备体积庞大、价格昂贵,易产生幽闭恐惧,不宜实际应用,所以fMRI更多地用于情绪神经机制的研究,很少用于情绪识别研究。
在基于生理信号的情绪识别研究中,信号预处理、特征提取与优选、分类识别是最为关键的三个环节,下面分别介绍如下。
2.1 信号预处理
实验室条件下诱发的情绪通常难以保持稳定,且生理信号易在采集过程中受到噪声及其它信号干扰,故信号预处理主要是保留有效数据段,例如只截取情绪诱发高潮时段数据进行分析[13],然后去除信号中的噪声和伪迹。目前常用的伪迹去除方法主要有滤波、归一化、独立成分分析等。不同频带参数设置的滤波器例如自适应滤波器、巴特沃斯滤波器等常用于生理信号的去噪,例如对皮电进行平滑滤波,去除高频毛刺。不同被试间生理信号的基线普遍存在明显的个体差异,所以需要对信号进行归一化处理来降低基线个体差异对情绪识别的不利影响[15]。脑电信号的预处理相对复杂,常涉及变参考电位、降低采样率、利用独立成分分析或主成分分析等方法去除眼电、伪迹[16]。
2.2 特征提取与优选
特征提取是情绪识别的关键环节,提取出敏感、有效的特征,才能保证后续的准确识别。常用的特征主要有4类:时域、频域、时-频和非线性特征。
时域特征提取发展最早、较为简单,是通过对信号时域波形进行分析,从波幅[17]、均值、标准差、偏歪度[14]和峭度等方面获取信息,在处理过程中损失的信息较少。常用的时域分析方法有:过零点分析、直方图分析、方差分析、相关分析、峰值检测、波形参数分析和波形识别等。因其直观性强、物理意义较明确,至今仍受到不少研究者的青睐。利用脑血氧参数进行情绪识别研究时,较多采用时域的特征分析和提取[14, 18]。
频域特征提取建立在功率谱分析基础上,相对较为成熟,广泛应用于心电、呼吸、脑电等信号的分析,例如不同频段的功率谱比值、功率谱能量、子带功率谱密度[16]等,可分为经典谱估计和现代谱估计。经典谱估计建立在傅里叶变换基础上,常用的实现方法有周期图法和自相关法。经典谱估计原理简单,便于实现,但存在“边瓣泄露效应”、谱分辨率较低、估计方差性能不好等缺点。现代功率谱估计法大致分为参数模型谱估计和非参数模型谱估计两类。参数模型法在谱分辨率和谱真实性方面比经典法有所改善,但改善的程度取决于所选模型的恰当性和模型参数的估计质量。
时频特征提供了时域和频域的联合分布信息,清晰地描述了信号频率随时间变化的关系,蕴含内容更加丰富、全面。其常用分析方法有:小波变换,短时傅里叶变换[4]、希尔伯特-黄变换等。小波变换具有多分辨率特性,滑移时窗可调,在时域和频域均有良好的分辨率,成为分析非平稳信号的有效工具。已有学者将小波变换用于情绪状态下脑电[19]、心电、肌电等信号的分析和特征提取。
脑电信号产生于复杂的大脑系统,具有显著的非线性和混沌性,故与其它生理信号相比,脑电特征的提取更为复杂和多样化。近年来在情绪脑电识别研究中,熵[20]、相关维数、分形维数等非线性特征分析逐渐增多。Konstantinidis等[21]计算情绪脑电的相关维数进行在线识别研究;Liu等[22]提取脑电的分形维数等非线性特征取得了理想的识别效果,并搭建了在线应用系统。目前,研究中常将几种类型的特征进行融合以提高识别准确率[23]。特征层融合的优点是能够实现可观的信息压缩,有利于实时处理,而且所提取的特征直接与决策分析有关,因而融合结果能最大限度地给出决策分析所需要的特征信息。
从多种生理信号提取的原始特征维数通常很高,难免含有无效特征,不仅影响识别精度且会降低运算效率,故在分类前需进行特征优选,即从数量为D的特征集中优选出数量为d(D>d)的最优特征集,剔除不相关或冗余特征,从而减少特征个数,提高模型分类精度,降低模型计算量和运行时间。在情绪识别研究中,已有序列前向搜索、方差分析、序列后向搜索、Fisher投影等方法获得了较好的特征优选结果[4]。Wagner等[24]采用序列前向搜索、方差分析和Fisher投影方法进行特征选择,四种情绪的识别率达到90%以上。近年来,遗传算法、蚁群算法和粒子群等智能算法因较低的计算代价和优异的解空间搜索能力得到广泛应用。国内吕宝良和刘光远等教授的课题组尝试利用共空间模式、相关性分析、粒子群优化等算法做特征优选,取得了不错的结果[16, 25-26]。
2.3 模式识别
根据情绪分类模型,通常从基本情绪和不同维度情绪两方面进行情绪识别。所用分类模型主要包括:贝叶斯网络(Bayesian networks, BN)[17]、支持向量机(support vector machines, SVM)[23, 25, 27-28]、多层感知器(multilayer perceptron, MLP)[23]、K近邻均值聚类(K-nearest neighbour, KNN)[29]以及线性判别分析(linear discriminant analysis, LDA)[9, 18, 30]等。表 1总结了近年来基于生理信号的情绪识别相关研究方案及结果。由于各实验间诱发方法、样本大小、分类级别不同,很难准确详细地比较不同算法的分类优劣。但可以看出SVM因其处理高维小样本的良好性能,被广泛运用于情绪识别研究。
现有情绪识别成果普遍处于离线水平,多集中于用户依赖系统,而且达到了较高的识别率,音乐诱发的4种情绪识别率已达98%[9],图片诱发的6种基本情绪的识别率达到了92%[28];且用户依赖系统的识别率优于非用户依赖系统[9, 27, 29],但其识别效果却难以推广。随着识别情绪种类的增加或融合信息通道的减少,识别率会有所下降[30]。目前情绪识别研究尚局限于少数的情绪类型,识别范围有待今后进一步扩展。现有研究采用的实验范式较单一,大多采用被动的视觉(图片)呈现或听觉(音乐)刺激诱发目标情绪,更接近真实生活体验的视听诱发(视频)或主动式诱发的情绪识别研究相对较少,未来该方面的研究可望加强和进一步完善。
3 小结与展望
近年来基于生理信号的情绪识别研究虽然取得了长足进步,但在基础理论和实际应用上仍任重而道远,皆面临多方面难题:①情绪生理机制的基础研究特别是在神经机制方面还远未成熟,需要深入探讨和进一步完善,为情绪识别在疾病诊断、情绪神经反馈调控等方面的应用提供有力的理论支持。②生理信号极易受内外噪声干扰,研究更为有效的实时在线消噪方法和开发抗干扰能力更强的便携化生理信号检测分析仪器是面临的基本技术挑战;③情绪研究正向建立用户独立系统和实时在线识别转变,如何提高情绪识别精度、运算速度和拓宽识别种类是面临的更高技术挑战。多模态情绪识别将是该领域未来发展的趋势之一,将生理信号与表情、语音等情绪特征相结合以开拓多特征融合的情绪识别方法,尝试多种智能学习算法和分类模型,有望进一步提高情绪识别的准确性和鲁棒性。
4 结论
情绪在人类的社交生活、行为调控中扮演着重要角色,情绪识别是科学界重要的研究任务和前沿的研究方向。利用生理信号进行情绪识别具有客观、真实性,虽然该研究尚未成熟, 但已显示出积极深远的影响和广泛的应用价值、社会效益。众多学者正积极地从不同角度尝试多种研究手段开展情绪分析和识别,开发出可靠的非用户依赖在线应用系统将是未来研究的重要内容。

