孤独症谱系障碍(ASD)儿童的早期诊断至关重要。脑电图(EEG)是最常用于神经成像的技术之一,其使用方便并且包含信息丰富。本文从 ASD 儿童和正常儿童的 EEG 信号中提取近似熵(ApEn)、样本熵(SaEn)、排序熵(PeEn)和小波熵(WaEn)四种熵特征,应用独立样本 t 检验分析组间差异,利用支持向量机(SVM)学习算法为不同脑区的每种熵测量建立分类模型,最后通过置换检验搜索优化子集,使 SVM 模型实现最佳性能。结果表明,与正常对照组相比,ASD 儿童脑电复杂度较低;在所有四种熵中,WaEn 的分类性能优于其他熵;分类效果在不同脑区表现出差异性,其中额叶区域表现最佳;最后经过特征选择,筛选出六个特征,建立分类模型,分类准确率最高提高到 84.55%。本研究结果可为孤独症的早期发现提供帮助。
引用本文: 赵杰, 丁萌, 佟祯, 韩俊霞, 李小俚, 康健楠. 基于熵算法的孤独症谱系障碍儿童脑电特征提取与分类. 生物医学工程学杂志, 2019, 36(2): 183-188, 198. doi: 10.7507/1001-5515.201709047 复制
引言
孤独症谱系障碍(autism spectrum disorder,ASD)是一种以社会交往能力缺陷、语言交流功能障碍、兴趣狭窄和行为举止刻板为核心特征的儿童广泛性神经发育障碍[1]。当前 ASD 发病率在全球呈现急剧上升趋势。据 Blaxill(2004)的数据显示,20 世纪 70 年代,ASD 发病率低于 3/1 000,在 90 年代,该比例上升至 30/1 000。在美国,ASD 发病率的上升速度在 20 年时间里增长了近 10 倍[2]。随着 ASD 患病数量逐年递增,到目前为止,其核心病因与发病机制仍不明确,对 ASD 的评估与诊断高度依赖于行为观察以及诊断量表,具有一定主观性,因此寻找客观评估指标具有重要意义。
脑电图(eletroencephalography,EEG)主要测量与大脑皮层突触活动相关的神经生理变化,作为一种非侵入式的采集方法,具有较高的时间分辨率,已被证明是研究复杂神经精神障碍的有力工具[3]。EEG 分析研究表明 ASD 在快波频段(即 γ 和 β)同步性增加[4]。对于慢波频段,大多数报道表明 α 频段同步性降低[5-6]。一些报告描述了即使在相同频段,所选电极位点同步增加和减少[7]。综合来看,EEG 同步结果在某种程度上已经证明 ASD 的“异常神经连接”。脑电分析方法包括线性分析方法,例如功率谱和连接性分析,以及非线性分析方法,例如复杂度、预报误差、协方差复杂性。由于 EEG 信号是一种微弱的非平稳性、非线性的信号,因此线性分析方法可能不包含 EEG 信号的完整信息,而非线性特征能够发现 EEG 时间序列中存在的隐藏复杂性,EEG 信号的非线性复杂性被认为包含了有关大脑神经网络的结构信息[8]。先前研究显示,复杂性改变与异常神经连接有一定联系,并且异常模式与孤独症相关。脑电复杂度可作为神经信息处理和神经连通性的指标评估孤独症早期症状[8]。而信息熵作为一种衡量系统复杂度的物理量,由于基于非线性理论,适用于脑电这类高维混沌信号系统的研究,因此已经成为衡量生物信号复杂度的有力工具。此外,规则系统具有较低的熵值,而完全不规则系统具有较高熵值。过去近几十年来,基于熵的新颖的非线性方法已经广泛用于 ASD 复杂度的研究。第一次是在 2008 年由 Kulisek 等[9]提出。他们在研究非快速眼球运动(rapid eyes movement,REM)睡眠脑电中发现,应用一种非线性方法,即粗粒熵信息,在非 REM 3 期发现 ASD 儿童同步性显著低于正常儿童。另一组研究者还将 EEG 复杂性理论用于 ASD 频域评估。他们研究了 ASD 儿童(6~13 岁)和正常儿童(7~13 岁)的 Higuchi 分形维数和 Katz 分数维度的静息态 EEG,发现两组被试脑电信号存在差异性,并且在 Katz 分形维数(电极 Fp2 和 C3)和 γ(电极 T6)特征上差异具有统计学意义(P < 0.001),他们认为这可能是 ASD 大脑功能连通性不足导致大脑动力学变化引起的[10]。最近,两项研究评估了多尺度熵分析方法的有效性,以帮助阐明病理生理机制,并作为 ASD 风险干扰和早期检测的有用生物标志物。Bosl 等[8]调查了 33 位正常发育儿童和 46 位具有 ASD 病史(ASD 组高风险)家族儿童的静息态 EEG 复杂性。他们使用多类支持向量机(support vector machine,SVM)算法,将改进 MSE 作为特征向量来区分正常发育群体和高风险群体。结果表明,高风险 ASD 组在所有电极上、所有时间尺度及所有年龄段(特别是 9~12 个月时),其 EEG 复杂性始终较低。另一项研究由 Catarino 等[11]提出,提取 15 位 ASD 被试(平均年龄 29.38 岁)和 15 位正常被试(平均年龄 31.44 岁)的脑电特征,报告称随着时间尺度的增加,在颞叶和枕叶区域,ASD 被试的 EEG 复杂性显著降低。
一般来说,婴儿大脑信号复杂性在突触繁殖和修剪背景下增加,而在正常发育过程中,大脑发育缺损可能是 ASD 发病机制的基础[12-13]。本文通过采集 ASD 以及正常儿童 EEG 信号,检验复杂性在 ASD 儿童分类中的效用。从静息态脑电中提取四种熵特征,即近似熵(approximate entropy,ApEn)、样本熵(sample entropy,SaEn)、排序熵(permutation entropy,PeEn)和小波熵(wavelet entropy,WaEn),将这些特征通过 SVM 进行分类,经过特征选择筛选得到特征子集,构造有效分类模型,检验是否可以为今后 ASD 评估提供辅助诊断方法。
1 资料与方法
1.1 被试信息
本研究共招收了 75 名被试。其中 ASD 组为 37 名 ASD 儿童,8 名女孩,29 名男孩,年龄 3~7(4.7 ± 1.2)岁,从深圳爱佑慈善基金会招募。对照组为 38 名正常儿童,10 名女孩,28 名男孩,年龄 3~7(4.8 ± 0.9)岁,从燕郊当地幼儿园招募。入组 ASD 患者均由儿童精神科医生根据《精神病诊断与统计手册(第五版)》和《孤独症诊断访谈量表修订版》进行诊断确定。两组被试之间,年龄与性别均无显著差异(年龄:t(1,73)= –0.351,P = 0.727;性别:χ2 = 0.226,P = 0.634)。
本研究经过北京师范大学伦理委员会批准,在完整描述实验步骤之后,家长或者被试监护人签署书面知情同意书,所有儿童均自愿参加本次实验。
1.2 EEG 采集
本研究采用八通道采集系统来获取 EEG 信号,采集电极分别为 F3、F4、T3、C3、C4、T4、O1、O2,Cz 为参考电极,采样频率为 1 000 Hz,电极阻抗要求均控制在 50 kΩ 以下。实验在安静环境内进行,实验室的温度控制在(23 ± 2)℃,采集时要求受试者睁眼,坐在一把舒适的扶手椅上,保持放松状态 5 min 左右。
1.3 数据预处理
将所采集数据利用 Matlab 中的 EEGLAB 工具箱进行预处理。首先将 EEG 信号通过 0.5~40 Hz 的带通滤波器;其次,去除伪迹;然后将 EEG 信号截取成非重叠的 4 秒时间序列,每个数据截取 30 段;最后将数据降采样至 256 Hz。自适应伪迹检测方法被用于去除伪迹,包括工频、眼电、眨眼、心电、肌电、呼吸等,如果某段序列中含有超过阈值的部分,则将该段序列去除。
1.4 特征提取
1.4.1 ApEn
ApEn 是在 20 世纪 90 年代初由 Pincus[14-15]提出,用于分析动态系统中有限长度信号如 EEG 信号并描述其复杂性或不规则程度。它主要是基于相空间重构,将信号嵌入到相空间中,当相空间的嵌入维度从 m 维增加到 m + 1 维时,预测产生新模式的概率大小。产生新模式概率越大,序列复杂性越大,相应 ApEn 也就越大,在脑电方面也反映具有较高程度的脑活跃性[16]。对于时间序列 ,有限长度
,按照以下步骤得到 ApEn:
① 将序列 按顺序组成 m 维向量,即:
![]() |
② 定义 为任意向量
与
之间距离小于 r 的概率:
![]() |
其中 是 Heaviside 函数,
是向量
与
之间的距离,定义为:
![]() |
③ 先对 取对数,再求其所有 i 的平均值,记为
,即:
![]() |
④ 当维数增加到 m + 1 维时,重复上述处理,得到 ,即:
![]() |
⑤ 此序列的 ApEn 为:
![]() |
ApEn 数值受数据长度(N)、容限(r)和嵌入维数(m)的影响。根据 Pincus 和 Bruhn 等的实践,N 建议为 1 000,r 取值范围从 0.1SD 到 0.2SD,SD 是标准差。在本研究中,我们选取 m = 3,r = 0.20*SD。
1.4.2 SaEn
SaEn 是 Richman 和 Moorman 提出的一种基于 ApEn 的改进算法,用来描述时间序列复杂性,也被应用于分析精神障碍或神经生理状态[17-19]。SaEn 与 ApEn 的主要区别在于:①SaEn 消除了自身匹配;② 为避免因消除自身匹配引起的 ln0,SaEn 在对数运算之前计算模板匹配总数,并且在计算 m + 1 维统计量时,使用与其自身匹配的模板个数来计算[20]。SaEn 具体计算步骤如下:
① 前两步与 ApEn 类似,将原始序列组成 m 维向量,定义 为任意向量
与
之间距离小于 r 的概率;
② 对所有 叠加平均后,得到模板匹配总数
:
![]() |
③ 当嵌入维数为 m + 1 时,模板匹配总数为:
![]() |
④ 此序列的 SaEn 为:
![]() |
与 ApEn 的参数相同,我们选取参数 m = 3,r= 0.20*SD。
1.4.3 PeEn
PeEn 是由 Bandt 和 PomPe 提出的一种针对局部时间序列估计信号规律性的顺序分析方法,提出将连续时间序列映射到符号序列上,以便捕捉随肌电活动和正常行为之间的差异[21]。由于 PeEn 只依赖于原始时间序列的符号描述并且只与数据相对长度有关,因此它在计算速度与抗噪性能方面具有一定的优势[22-23]。计算步骤如下:
① 将时间序列 重构得到新的时间序列 Xi,即:
![]() |
其中 是时间延迟,m 是嵌入维数。
② 对于时间序列 Xi,m 维向量有 m!种排列方式,其中出现排列方式 的概率为:
![]() |
③ 此序列的 PeEn 为:
![]() |
参数 m 的选取一般是在 3~10 之间[22],以此来计算信号的复杂性。在本研究中,我们选取 m = 3,则排序熵的排列方式有 m! = 6 种。
1.4.4 WaEn
WaEn 是基于小波变换,将小波变换与熵结合,计算小波变换后频谱能量占总频带能量的比值[24]。例如在 EEG 时间序列中,如果其具有窄频带,如深度睡眠中的脑电信号,则在 δ 频带功率会较高,WaEn 将较低,如果 EEG 时间序列具有更多频带分量,那么 WaEn 将会较高。具体计算步骤如下:
① 将原始序列进行小波分解得到不同的信号成分,在每个节点 j 处的小波能量定义为 Ej,即:
![]() |
其中 k 和 Lj 分别为给定序列在每个节点 j 处的求和指数和系数数量。总能量为:
![]() |
② 然后将小波能量除以总能量,以得到每个比例 j 处的相对小波能量:
![]() |
③ 此时,WaEn 为:
![]() |
在本研究中,我们将原始信号分解成 5 层,分解信号的频带与 δ、θ、α 和 β 类似。
1.5 特征选择与分类
1.5.1 特征选择
在许多分类研究中,识别特征的方法就是测试所有特征集并将分类误差最小化。但是,当特征数量较大时,样本在特征空间中会变得稀疏,不利于有效地进行分类。因此需要进行特征选择,找出一个有效的特征子集,使得特征向量相关较高,同时使冗余信息较低。本文采用的方法是置换检验(permutation test)。
置换检验又称为随机检验,是统计学显著性检验的一种重要方法。其基于假设检验,假设两组样本没有差异,将两组样本合并,然后随机抽取再计算统计量,构造新的经验分布,最后基于此结论求得统计量,推断是否拒绝原假设[25]。
本文中将其作为特征选择方法,首先计算单一特征量的分类准确率,然后将样本序列随机打乱重复 100 次,计算统计量,得到新的经验分布,计算置换后样本统计量与原假设偏差,抽取样本中偏差范围在三个标准差以上的特征量,说明这些特征具有显著差异(P < 0.01),然后将其组合,得到有效特征子集。
1.5.2 分类方法
在本研究中,选用 SVM 方法进行分类。SVM 主要原理就是在特征空间中寻找类别间距离最大的一个最优超平面,超平面取决于最接近的数据点,这些点被称为支持向量[26]。但是传统的 SVM 仅限于线性可分离数据,为了克服这个问题,SVM 算法将数据点映射到更高维空间寻找最优超平面,这个映射函数被称为核函数[27]。针对不同数据选用的核函数不同,本研究中,主要选用径向基核函数,其中需要对松弛系数和惩罚系数两个参数进行选取,本研究是通过网格搜索确定最佳参数组合来进行参数选择[28-30]。
为了评估分类模型,需要对数据进行交叉验证,本文采用 Leave-one-out 方法进行交叉验证。假设原始数据有 n 个样本,Leave-one-out 交叉验证将每个样本单独作为测试集,其余 n-1 个样本用于训练,从而得到 n 个分类模型,n 次结果平均,得到最终分类精度。本研究中共有 75 个样本,将每个样本单独作为测试集,其余 74 个样本用于训练,并且重复 30 次,以此获得更为准确的分类精度。
2 结果
2.1 两组被试脑电复杂性差异以及区域分布特性
本研究提取了 ASD 儿童和正常儿童的 ApEn、SaEn、PeEn 和 WaEn 四种特征量,结果见图 1。

FR:额叶;LT:左颞叶;CEN:中央区;RT:右颞叶;OC:枕叶。*
FR: front region; LT: left temporal region; CEN: central region: RT: right region; OC: occipital region. *
如图 1 所示,本文比较了正常儿童与 ASD 儿童在不同脑区的四类熵值,通过独立样本 t 检验分析组间差异。我们发现两组被试在额叶区域,其 ApEn(P = 0.043)、SaEn(P = 0.019)以及 WaEn(P = 0.009)的组间差异具有统计学意义,ASD 组熵值明显低于对照组。此外,PeEn 在枕叶的组间差异具有统计学意义(P = 0.002);WaEn 除左颞叶及枕叶外,在额叶(P = 0.009)、中央区(P = 0.003)以及右颞叶(P = 0.032)的组间差异均有统计学意义,ASD 组熵值均低于对照组。
2.2 单一特征量分类结果
上述结果表明正常组与 ASD 组在不同脑区各类熵值之间存在差异,现用这四种特征对两组被试进行分类,不同特征量分类效果有所不同,得到的分类结果如表 1 所示。

由表 1 数据可知,不同特征量对 ASD 组和正常组分类效果有很大差异。就单一特征量在单一脑区而言,WaEn 中央区域分类效果最好,分类精度为 72.33%,说明该特征对正常组和 ASD 组差异的识别程度最高。就特征而言,WaEn 除个别脑区外分类效果最佳,全脑分类精度亦达 72.28%;ApEn 与 SaEn 分类准确率均值则相差很小,在额叶区域分类效果较为明显;而 PeEn 分类效果最差。就脑区而言,额叶区域分类性能最好,其中 PeEn 最低为 67.11%,WaEn 分类准确率最高为 71.00%,组合分类精度达到 72.70%;左颞叶分类效果最差,各特征量组合分类精度只有 62.71%;另外右颞叶、中央区和枕叶总体分类效果一般,其中中央区与右颞叶区域 WaEn 分类准确率最高,分别为 72.33% 和 68.11%,PeEn 在枕叶区域分类最明显为 69.03%。将所有特征量组合后,全脑分类精度达到 73.71%。
2.3 改进分类结果
从表 1 可以看出,不同特征对两组被试差异性的相关程度高低不同,并且单一特征量对 ASD 组与正常组分类效果不是很好,因此,我们需要对所提取特征进行选择,将相关程度高的特征量组合在一起,突出差异性特征,提高分类效果。
本研究中采用置换检验方法进行特征选择,将特征量随机排列 100 次,计算每次的分类准确率,当特征量偏差范围在三个标准差以上,此时存在显著差异(P < 0.01),说明该特征与两组被试差异的相关程度较高。我们按照这一标准共找到 6 个特征子集,分别为 F4-ApEn、F4-SaEn、C4-SaEn、O2-PeEn、F4-WaEn 和 C4-WaEn,将这些特征组合得到有效特征子集,然后对正常儿童与 ASD 儿童进行分类。将该特征子集输入 SVM 分类器,采用不同核函数(线性、多项式和径向基)进行分类,表 2 显示出采用该特征子集选用不同核函数得到的分类结果。基于该特征子集,虽然采用不同核函数,但分类准确率相对于单一特征量分类效果明显改善,其中径向基核函数分类效果最佳,分类精度达到 84.55%。

3 讨论与总结
本文首先采用四种熵算法提取 ASD 儿童以及正常儿童 EEG 信号特征,经过统计检验发现两组被试脑电特征存在差异,然后运用 SVM 分类器计算单一特征量的分类精度,最后经过特征选择得到特征子集,建立有效分类模型。
结果显示,与正常对照组相比,ASD 组通过四种熵算法得到的 EEG 复杂度较低;与其他三种方法相比,WaEn 差异性最明显,并且分类效果最佳,分类准确率最高能达到 72.33%;就区域而言,额叶区域分类性能最好,ApEn、SaEn 以及 WaEn 分类准确率均在 70% 以上;最后通过特征选择得到最佳特征子集,此时 ASD 与正常儿童脑电的分类精度最高达到 84.55%,比基于单一特征量例如 PeEn 进行分类识别的精度高出将近 20%。
EEG 信号复杂度反映了 EEG 所包含信息出现新模式的概率,复杂度越高,表明新模式出现的概率越高,动力学行为越复杂。本文结果显示 ASD 儿童相比正常儿童脑电信号复杂度较低,表明脑电信号复杂度降低与临床认知功能下降具有一致性,反映了 ASD 儿童参与任务以及适应新认知任务的能力较弱,而额叶区域最为明显也符合 ASD 儿童在语言以及智力方面较正常儿童发育迟缓的临床表现[8]。最后通过特征选择得到一个分类模型,将分类准确率提高到 84.55%,表明基于该方法得到的评估模型是有效的,希望将来能在采用客观指标诊断 ASD 儿童方面提供有效帮助。
引言
孤独症谱系障碍(autism spectrum disorder,ASD)是一种以社会交往能力缺陷、语言交流功能障碍、兴趣狭窄和行为举止刻板为核心特征的儿童广泛性神经发育障碍[1]。当前 ASD 发病率在全球呈现急剧上升趋势。据 Blaxill(2004)的数据显示,20 世纪 70 年代,ASD 发病率低于 3/1 000,在 90 年代,该比例上升至 30/1 000。在美国,ASD 发病率的上升速度在 20 年时间里增长了近 10 倍[2]。随着 ASD 患病数量逐年递增,到目前为止,其核心病因与发病机制仍不明确,对 ASD 的评估与诊断高度依赖于行为观察以及诊断量表,具有一定主观性,因此寻找客观评估指标具有重要意义。
脑电图(eletroencephalography,EEG)主要测量与大脑皮层突触活动相关的神经生理变化,作为一种非侵入式的采集方法,具有较高的时间分辨率,已被证明是研究复杂神经精神障碍的有力工具[3]。EEG 分析研究表明 ASD 在快波频段(即 γ 和 β)同步性增加[4]。对于慢波频段,大多数报道表明 α 频段同步性降低[5-6]。一些报告描述了即使在相同频段,所选电极位点同步增加和减少[7]。综合来看,EEG 同步结果在某种程度上已经证明 ASD 的“异常神经连接”。脑电分析方法包括线性分析方法,例如功率谱和连接性分析,以及非线性分析方法,例如复杂度、预报误差、协方差复杂性。由于 EEG 信号是一种微弱的非平稳性、非线性的信号,因此线性分析方法可能不包含 EEG 信号的完整信息,而非线性特征能够发现 EEG 时间序列中存在的隐藏复杂性,EEG 信号的非线性复杂性被认为包含了有关大脑神经网络的结构信息[8]。先前研究显示,复杂性改变与异常神经连接有一定联系,并且异常模式与孤独症相关。脑电复杂度可作为神经信息处理和神经连通性的指标评估孤独症早期症状[8]。而信息熵作为一种衡量系统复杂度的物理量,由于基于非线性理论,适用于脑电这类高维混沌信号系统的研究,因此已经成为衡量生物信号复杂度的有力工具。此外,规则系统具有较低的熵值,而完全不规则系统具有较高熵值。过去近几十年来,基于熵的新颖的非线性方法已经广泛用于 ASD 复杂度的研究。第一次是在 2008 年由 Kulisek 等[9]提出。他们在研究非快速眼球运动(rapid eyes movement,REM)睡眠脑电中发现,应用一种非线性方法,即粗粒熵信息,在非 REM 3 期发现 ASD 儿童同步性显著低于正常儿童。另一组研究者还将 EEG 复杂性理论用于 ASD 频域评估。他们研究了 ASD 儿童(6~13 岁)和正常儿童(7~13 岁)的 Higuchi 分形维数和 Katz 分数维度的静息态 EEG,发现两组被试脑电信号存在差异性,并且在 Katz 分形维数(电极 Fp2 和 C3)和 γ(电极 T6)特征上差异具有统计学意义(P < 0.001),他们认为这可能是 ASD 大脑功能连通性不足导致大脑动力学变化引起的[10]。最近,两项研究评估了多尺度熵分析方法的有效性,以帮助阐明病理生理机制,并作为 ASD 风险干扰和早期检测的有用生物标志物。Bosl 等[8]调查了 33 位正常发育儿童和 46 位具有 ASD 病史(ASD 组高风险)家族儿童的静息态 EEG 复杂性。他们使用多类支持向量机(support vector machine,SVM)算法,将改进 MSE 作为特征向量来区分正常发育群体和高风险群体。结果表明,高风险 ASD 组在所有电极上、所有时间尺度及所有年龄段(特别是 9~12 个月时),其 EEG 复杂性始终较低。另一项研究由 Catarino 等[11]提出,提取 15 位 ASD 被试(平均年龄 29.38 岁)和 15 位正常被试(平均年龄 31.44 岁)的脑电特征,报告称随着时间尺度的增加,在颞叶和枕叶区域,ASD 被试的 EEG 复杂性显著降低。
一般来说,婴儿大脑信号复杂性在突触繁殖和修剪背景下增加,而在正常发育过程中,大脑发育缺损可能是 ASD 发病机制的基础[12-13]。本文通过采集 ASD 以及正常儿童 EEG 信号,检验复杂性在 ASD 儿童分类中的效用。从静息态脑电中提取四种熵特征,即近似熵(approximate entropy,ApEn)、样本熵(sample entropy,SaEn)、排序熵(permutation entropy,PeEn)和小波熵(wavelet entropy,WaEn),将这些特征通过 SVM 进行分类,经过特征选择筛选得到特征子集,构造有效分类模型,检验是否可以为今后 ASD 评估提供辅助诊断方法。
1 资料与方法
1.1 被试信息
本研究共招收了 75 名被试。其中 ASD 组为 37 名 ASD 儿童,8 名女孩,29 名男孩,年龄 3~7(4.7 ± 1.2)岁,从深圳爱佑慈善基金会招募。对照组为 38 名正常儿童,10 名女孩,28 名男孩,年龄 3~7(4.8 ± 0.9)岁,从燕郊当地幼儿园招募。入组 ASD 患者均由儿童精神科医生根据《精神病诊断与统计手册(第五版)》和《孤独症诊断访谈量表修订版》进行诊断确定。两组被试之间,年龄与性别均无显著差异(年龄:t(1,73)= –0.351,P = 0.727;性别:χ2 = 0.226,P = 0.634)。
本研究经过北京师范大学伦理委员会批准,在完整描述实验步骤之后,家长或者被试监护人签署书面知情同意书,所有儿童均自愿参加本次实验。
1.2 EEG 采集
本研究采用八通道采集系统来获取 EEG 信号,采集电极分别为 F3、F4、T3、C3、C4、T4、O1、O2,Cz 为参考电极,采样频率为 1 000 Hz,电极阻抗要求均控制在 50 kΩ 以下。实验在安静环境内进行,实验室的温度控制在(23 ± 2)℃,采集时要求受试者睁眼,坐在一把舒适的扶手椅上,保持放松状态 5 min 左右。
1.3 数据预处理
将所采集数据利用 Matlab 中的 EEGLAB 工具箱进行预处理。首先将 EEG 信号通过 0.5~40 Hz 的带通滤波器;其次,去除伪迹;然后将 EEG 信号截取成非重叠的 4 秒时间序列,每个数据截取 30 段;最后将数据降采样至 256 Hz。自适应伪迹检测方法被用于去除伪迹,包括工频、眼电、眨眼、心电、肌电、呼吸等,如果某段序列中含有超过阈值的部分,则将该段序列去除。
1.4 特征提取
1.4.1 ApEn
ApEn 是在 20 世纪 90 年代初由 Pincus[14-15]提出,用于分析动态系统中有限长度信号如 EEG 信号并描述其复杂性或不规则程度。它主要是基于相空间重构,将信号嵌入到相空间中,当相空间的嵌入维度从 m 维增加到 m + 1 维时,预测产生新模式的概率大小。产生新模式概率越大,序列复杂性越大,相应 ApEn 也就越大,在脑电方面也反映具有较高程度的脑活跃性[16]。对于时间序列 ,有限长度
,按照以下步骤得到 ApEn:
① 将序列 按顺序组成 m 维向量,即:
![]() |
② 定义 为任意向量
与
之间距离小于 r 的概率:
![]() |
其中 是 Heaviside 函数,
是向量
与
之间的距离,定义为:
![]() |
③ 先对 取对数,再求其所有 i 的平均值,记为
,即:
![]() |
④ 当维数增加到 m + 1 维时,重复上述处理,得到 ,即:
![]() |
⑤ 此序列的 ApEn 为:
![]() |
ApEn 数值受数据长度(N)、容限(r)和嵌入维数(m)的影响。根据 Pincus 和 Bruhn 等的实践,N 建议为 1 000,r 取值范围从 0.1SD 到 0.2SD,SD 是标准差。在本研究中,我们选取 m = 3,r = 0.20*SD。
1.4.2 SaEn
SaEn 是 Richman 和 Moorman 提出的一种基于 ApEn 的改进算法,用来描述时间序列复杂性,也被应用于分析精神障碍或神经生理状态[17-19]。SaEn 与 ApEn 的主要区别在于:①SaEn 消除了自身匹配;② 为避免因消除自身匹配引起的 ln0,SaEn 在对数运算之前计算模板匹配总数,并且在计算 m + 1 维统计量时,使用与其自身匹配的模板个数来计算[20]。SaEn 具体计算步骤如下:
① 前两步与 ApEn 类似,将原始序列组成 m 维向量,定义 为任意向量
与
之间距离小于 r 的概率;
② 对所有 叠加平均后,得到模板匹配总数
:
![]() |
③ 当嵌入维数为 m + 1 时,模板匹配总数为:
![]() |
④ 此序列的 SaEn 为:
![]() |
与 ApEn 的参数相同,我们选取参数 m = 3,r= 0.20*SD。
1.4.3 PeEn
PeEn 是由 Bandt 和 PomPe 提出的一种针对局部时间序列估计信号规律性的顺序分析方法,提出将连续时间序列映射到符号序列上,以便捕捉随肌电活动和正常行为之间的差异[21]。由于 PeEn 只依赖于原始时间序列的符号描述并且只与数据相对长度有关,因此它在计算速度与抗噪性能方面具有一定的优势[22-23]。计算步骤如下:
① 将时间序列 重构得到新的时间序列 Xi,即:
![]() |
其中 是时间延迟,m 是嵌入维数。
② 对于时间序列 Xi,m 维向量有 m!种排列方式,其中出现排列方式 的概率为:
![]() |
③ 此序列的 PeEn 为:
![]() |
参数 m 的选取一般是在 3~10 之间[22],以此来计算信号的复杂性。在本研究中,我们选取 m = 3,则排序熵的排列方式有 m! = 6 种。
1.4.4 WaEn
WaEn 是基于小波变换,将小波变换与熵结合,计算小波变换后频谱能量占总频带能量的比值[24]。例如在 EEG 时间序列中,如果其具有窄频带,如深度睡眠中的脑电信号,则在 δ 频带功率会较高,WaEn 将较低,如果 EEG 时间序列具有更多频带分量,那么 WaEn 将会较高。具体计算步骤如下:
① 将原始序列进行小波分解得到不同的信号成分,在每个节点 j 处的小波能量定义为 Ej,即:
![]() |
其中 k 和 Lj 分别为给定序列在每个节点 j 处的求和指数和系数数量。总能量为:
![]() |
② 然后将小波能量除以总能量,以得到每个比例 j 处的相对小波能量:
![]() |
③ 此时,WaEn 为:
![]() |
在本研究中,我们将原始信号分解成 5 层,分解信号的频带与 δ、θ、α 和 β 类似。
1.5 特征选择与分类
1.5.1 特征选择
在许多分类研究中,识别特征的方法就是测试所有特征集并将分类误差最小化。但是,当特征数量较大时,样本在特征空间中会变得稀疏,不利于有效地进行分类。因此需要进行特征选择,找出一个有效的特征子集,使得特征向量相关较高,同时使冗余信息较低。本文采用的方法是置换检验(permutation test)。
置换检验又称为随机检验,是统计学显著性检验的一种重要方法。其基于假设检验,假设两组样本没有差异,将两组样本合并,然后随机抽取再计算统计量,构造新的经验分布,最后基于此结论求得统计量,推断是否拒绝原假设[25]。
本文中将其作为特征选择方法,首先计算单一特征量的分类准确率,然后将样本序列随机打乱重复 100 次,计算统计量,得到新的经验分布,计算置换后样本统计量与原假设偏差,抽取样本中偏差范围在三个标准差以上的特征量,说明这些特征具有显著差异(P < 0.01),然后将其组合,得到有效特征子集。
1.5.2 分类方法
在本研究中,选用 SVM 方法进行分类。SVM 主要原理就是在特征空间中寻找类别间距离最大的一个最优超平面,超平面取决于最接近的数据点,这些点被称为支持向量[26]。但是传统的 SVM 仅限于线性可分离数据,为了克服这个问题,SVM 算法将数据点映射到更高维空间寻找最优超平面,这个映射函数被称为核函数[27]。针对不同数据选用的核函数不同,本研究中,主要选用径向基核函数,其中需要对松弛系数和惩罚系数两个参数进行选取,本研究是通过网格搜索确定最佳参数组合来进行参数选择[28-30]。
为了评估分类模型,需要对数据进行交叉验证,本文采用 Leave-one-out 方法进行交叉验证。假设原始数据有 n 个样本,Leave-one-out 交叉验证将每个样本单独作为测试集,其余 n-1 个样本用于训练,从而得到 n 个分类模型,n 次结果平均,得到最终分类精度。本研究中共有 75 个样本,将每个样本单独作为测试集,其余 74 个样本用于训练,并且重复 30 次,以此获得更为准确的分类精度。
2 结果
2.1 两组被试脑电复杂性差异以及区域分布特性
本研究提取了 ASD 儿童和正常儿童的 ApEn、SaEn、PeEn 和 WaEn 四种特征量,结果见图 1。

FR:额叶;LT:左颞叶;CEN:中央区;RT:右颞叶;OC:枕叶。*
FR: front region; LT: left temporal region; CEN: central region: RT: right region; OC: occipital region. *
如图 1 所示,本文比较了正常儿童与 ASD 儿童在不同脑区的四类熵值,通过独立样本 t 检验分析组间差异。我们发现两组被试在额叶区域,其 ApEn(P = 0.043)、SaEn(P = 0.019)以及 WaEn(P = 0.009)的组间差异具有统计学意义,ASD 组熵值明显低于对照组。此外,PeEn 在枕叶的组间差异具有统计学意义(P = 0.002);WaEn 除左颞叶及枕叶外,在额叶(P = 0.009)、中央区(P = 0.003)以及右颞叶(P = 0.032)的组间差异均有统计学意义,ASD 组熵值均低于对照组。
2.2 单一特征量分类结果
上述结果表明正常组与 ASD 组在不同脑区各类熵值之间存在差异,现用这四种特征对两组被试进行分类,不同特征量分类效果有所不同,得到的分类结果如表 1 所示。

由表 1 数据可知,不同特征量对 ASD 组和正常组分类效果有很大差异。就单一特征量在单一脑区而言,WaEn 中央区域分类效果最好,分类精度为 72.33%,说明该特征对正常组和 ASD 组差异的识别程度最高。就特征而言,WaEn 除个别脑区外分类效果最佳,全脑分类精度亦达 72.28%;ApEn 与 SaEn 分类准确率均值则相差很小,在额叶区域分类效果较为明显;而 PeEn 分类效果最差。就脑区而言,额叶区域分类性能最好,其中 PeEn 最低为 67.11%,WaEn 分类准确率最高为 71.00%,组合分类精度达到 72.70%;左颞叶分类效果最差,各特征量组合分类精度只有 62.71%;另外右颞叶、中央区和枕叶总体分类效果一般,其中中央区与右颞叶区域 WaEn 分类准确率最高,分别为 72.33% 和 68.11%,PeEn 在枕叶区域分类最明显为 69.03%。将所有特征量组合后,全脑分类精度达到 73.71%。
2.3 改进分类结果
从表 1 可以看出,不同特征对两组被试差异性的相关程度高低不同,并且单一特征量对 ASD 组与正常组分类效果不是很好,因此,我们需要对所提取特征进行选择,将相关程度高的特征量组合在一起,突出差异性特征,提高分类效果。
本研究中采用置换检验方法进行特征选择,将特征量随机排列 100 次,计算每次的分类准确率,当特征量偏差范围在三个标准差以上,此时存在显著差异(P < 0.01),说明该特征与两组被试差异的相关程度较高。我们按照这一标准共找到 6 个特征子集,分别为 F4-ApEn、F4-SaEn、C4-SaEn、O2-PeEn、F4-WaEn 和 C4-WaEn,将这些特征组合得到有效特征子集,然后对正常儿童与 ASD 儿童进行分类。将该特征子集输入 SVM 分类器,采用不同核函数(线性、多项式和径向基)进行分类,表 2 显示出采用该特征子集选用不同核函数得到的分类结果。基于该特征子集,虽然采用不同核函数,但分类准确率相对于单一特征量分类效果明显改善,其中径向基核函数分类效果最佳,分类精度达到 84.55%。

3 讨论与总结
本文首先采用四种熵算法提取 ASD 儿童以及正常儿童 EEG 信号特征,经过统计检验发现两组被试脑电特征存在差异,然后运用 SVM 分类器计算单一特征量的分类精度,最后经过特征选择得到特征子集,建立有效分类模型。
结果显示,与正常对照组相比,ASD 组通过四种熵算法得到的 EEG 复杂度较低;与其他三种方法相比,WaEn 差异性最明显,并且分类效果最佳,分类准确率最高能达到 72.33%;就区域而言,额叶区域分类性能最好,ApEn、SaEn 以及 WaEn 分类准确率均在 70% 以上;最后通过特征选择得到最佳特征子集,此时 ASD 与正常儿童脑电的分类精度最高达到 84.55%,比基于单一特征量例如 PeEn 进行分类识别的精度高出将近 20%。
EEG 信号复杂度反映了 EEG 所包含信息出现新模式的概率,复杂度越高,表明新模式出现的概率越高,动力学行为越复杂。本文结果显示 ASD 儿童相比正常儿童脑电信号复杂度较低,表明脑电信号复杂度降低与临床认知功能下降具有一致性,反映了 ASD 儿童参与任务以及适应新认知任务的能力较弱,而额叶区域最为明显也符合 ASD 儿童在语言以及智力方面较正常儿童发育迟缓的临床表现[8]。最后通过特征选择得到一个分类模型,将分类准确率提高到 84.55%,表明基于该方法得到的评估模型是有效的,希望将来能在采用客观指标诊断 ASD 儿童方面提供有效帮助。