P300Speller中基于AdaBoostSVM的导联筛选研究_綦宏志
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[3 ]
∑ D ( i) I( y
t
i
i
≠ ht ( xi ) )
( 2)
AdaBoost 要求每个基分类器至少是一个弱分类器, 因此若 ε t < 0 . 5 则接受该 h t ,否则拒绝 h t 。然后 AdaBoost 进行下一次迭代, 建立下一个基分类器, 此时首先 选择更新系数: αt = 1 1 - εt ln 2 εt D t ( i) exp ( - α t y i h t ( x i ) ) Zt ( 3)
986
仪Βιβλιοθήκη Baidu
器
仪
表
学
报
第33 卷
疾患者的实 际 应 用, 基 于 该 范 式 的 BCI 系 统 已 在 正 常 和肌 萎 缩 性 侧 索 硬 化 残 疾 患 者 运用。 人
[3 ] [4 ]
D1 ( i ) = 1 / n ; i = 1 , 2, …, n
( 1)
身上得到成功
然后进行事先设定的 T 个迭代过程, 其中每迭代一 次生成一个基分类器 h t : X → R, 在 P300 的识别中, 线性 更为理想的分类算法 核函数的支持向量机( SVM ) 已被证明是较其他分类器 [10 ] , 因此这里采用线性支持向量机 由于训练数据集较 建立基分类器。对于 P300 识别而言, 为庞大, 因此可采用依样本权值的重采样方法建立训练 样本子集, 在该子集上训练基 SVM 分类器。 若所训练的 基分类器的识别误差为: εt =
t =1 T T
≠ yi }
|≤
1 ∏ 槡
t =1
- 4 γ2 ≤ t ( 7)
2
2. 1
基于 AdaBoost SVM 的导联优化算法
AdaBoost 集成支持向量机的 P300 识别算法 Freund 和 Schapire 提出的 AdaBoost 算法, 其基本思
也即是随着基分类器数目 T 的增加, 集成分类错误 率呈指数级下降。 因此, 理论上只要每个基分类器都是 AdaBoost 就能提升其分类正确率, 弱分类器, 而且研究发 [11 ] 现当 T 非常大时 AdaBoost 很少发生过学习现象 。 2. 2 基于分类间隔变化的特征分类贡献度测量与回归 , 支持向量机在两类样本之间建立一个“间隔带 ” 间 SVM 训 隔带对于评价 SVM 模型效果是非常重要的指标, 练得到的模型不但要求训练误差最小, 还同时要求隔离 。 由此, I. Guyon 建议采用扰动特征 带宽度达到“最大 ” 排序方法
Abstract: P300 Speller is one of the few practical brain computer interface systems for functional regaining of clinic paralyzed patients. Its character recognition efficiency is related tightly with the positions of surface electroencephalogram( EEG) electrodes. Redundant electrodes increase the user's discomfort and the possibility of introducing noise interference,which will depress system robustness. In this paper we propose a channel selection method based on adaptive boosting support vector machine( AdaBoost SVM) to optimize the EEG electrode positioning. Through analyzing the EEG data from 6 subjects we prove that the required number of electrodes can be decreased by above 76% without any loss of character recognition accuracy using this electrode optimization method. Moreover, compared with traditional SVMRFE method,the new algorithm decreases the computational complexity significantly and is more suitable for EEG feature optimization in training massive data. Key words: brain computer interface ( BCI ) ; adaptive boosting ( AdaBoost ) ; support vector machine ( SVM ) ; character recognition
想是对于错分类的样本, 提升其在分类器训练中权重, 通 过一系列的迭代过程让分类器更“注意 ” 这些被错分的 。 给定训练样本集 从而提升分类器的泛化能力 样本, T X=[ x1 , x2 , …, x n] , 此处 x i 为 64 个导联上的脑电信号
T y1 , y2 , …, y n] , y i 为该样本是 时域特征, 类别标识 Y = [ n 为总的样本数。 AdaBoost 首先初始化 否为 P300 响应, [89 ]
Study of channel selection based on AdaBoost SVM in P300 Speller
2 Qi Hongzhi1, ,Xu Minpeng1 ,Ming Dong1 ,Wan Baikun1 ,Liu Zhipeng2 ,Yin Tao2
( 1 School of Precision Instruments and Optoelectronics Engineering,Tianjin University,Tianjin 300072 ,China; 2 Institute of Biomedical Engineering,Chinese Academy of Medical Sciences,Tianjin 300192 ,China)
P300 Speller 的一般形式是由 26 个英文字母和 0 9 十个数字构成, 将其在计算机屏幕上排列成 6 ˑ 6 的矩 阵, 计算机控制矩阵中的行和列进行随机闪烁, 不同字符 行列的闪烁于使用者构成了视觉刺激序列。 此时若使用 者将注意力保持在某个希望输出的字符上, 矩阵中有 1 个行和 1 个列包含有该字符, 这个包含目标字符的行、 列 的闪烁构成了靶视觉刺激, 而不包含目标字符的行、 列闪 烁则构成背景刺激。 由于各个字符行、 列的闪烁频率是 等概率分布的, 靶视觉刺激行、 列的出现概率只有其他行 列的 1 /5 , 因此该矩阵的行、 列闪烁刺激构成了一个视觉 刺激的 oddball 序列。 这样, 包含目标字符的靶刺激行、 列的闪烁可以在使用者的头皮脑电信号中诱发出 P300 成分, 通 过 特 征 提 取 和 模 式 识 别 的 算 法 处 理, 识别出 P300 成分的出现时间, 便可以确定诱发出该 P300 成分 的闪烁行、 列, 行与列的交点即确定出使用者注视的是哪 一个目标字符。 这个过程周而复始下去, 使用者便可以 逐个字符地输出希望表达的信息
涛
2
( 1 天津大学精密仪器与光电子工程学院 摘
天津 300072 ; 2 中国医学科学院生物医学工程研究所
天津 300192 )
P300 Speller 的字符识别效率与脑电信号采 要: P300 Speller 是目前少数可以用于临床残疾人功能补偿的脑 机接口系统,
集的头皮表面电极位置密切相关, 过多的电极不但增加了使用者的不适感, 且易引入噪声干扰进而影响系统的稳定性 。采用并 发展了一种基于 AdaBoost SVM( adaptive boosting support vector machine) 的特征筛选方法, 对脑电导联进行优化筛选, 通过对 6 位受试者的实验数据处理及分析, 结果表明该方法可以在不显著影响识别效率的基础上降低导联数量 76% 以上。 另外, 相较 RFE 特征筛选方法, 该方法极大降低了计算复杂度, 更适用于训练数据庞大的脑电特征优化问题 。 于经典的 SVM关键词: 脑机接口; 自适应增强; 支持向量机; 字符识别 中图分类号: TP18 文献标识码: A 国家标准学科分类代码: 310. 61
一定程度上恢复其信息交流能力, 的残疾患者提供帮助,
1
引
言
从而起到改善生活质量、 减轻家庭及社会负担的作用。 当前大多数研究所报道的脑机接口系统的信息传输速 度均较低, 在临床应用中受限较大。 P300 Speller 是目前 最为成功的脑机交互信息转化范式之一 输速率可达 10
[25 ]
脑机接口技术( BCI) 在人脑和计算机之间建立一种 [1 ] 不依赖于常规外周神经和肌肉系统的信息交流通路 , 它可以为具有严重肢体运动功能障碍但思维意识均正常
07 收稿日期: 2011Received Date: 201107
, 其信息传
20 b / min 以上, 因此较适合作为临床残
30970875 , 61172008 , 81171423 ) 、 * 基金项目: 国家自然科学基金 ( 90920015 , 国家科技支撑计划( 2012BAI34B03 ) 、 国家自然科学基金委 英 国爱丁堡皇家学会联合研究项目( 30910494 ) 、 教育部新世纪优秀人才计划资助项目
第 33 卷 第 5 期 2012 年 5 月
仪
器
仪
表
学
报
Chinese Journal of Scientific Instrument
Vol. 33 No. 5 May. 2012
P300 Speller 中基于 AdaBoost SVM 的导联筛选研究 *
1, 2 1 綦宏志 ,许敏鹏 ,明 1 1 2 东 ,万柏坤 ,刘志朋 ,殷
然后对整个样本集中的样本更新权重: D t +1 ( i ) = ( 4)
。
头皮脑电是一种多源混叠信号, 诱发的 P300 成分混 [6 ] 杂在大量自发脑电、 眼电、 肌电等背景噪声中 。 BCI 研 究中一般采用在不同位置上安置大量导联进行同时记 录, 在每个导联上提取时域特征并将所有特征同时输入 识别算法进行综合处理。然而过多的记录导联数目不但 增加了 BCI 系统的安装难度, 加重了使用者的不舒适感, 而且随着导联数目的增多, 其可能引入的串扰噪声也会 、 增加, 并且由电极滑动 脱落、 皮肤电极阻抗变化等导致 的信号畸变也会增加。 因此, 适用于临床应用的 P300 Speller 要求 使 用 尽 量 少 的 导 联 以 达 到 较 高 的 识 别 效 , 本文在基于 AdaBoost 集成 SVM 分类算法的基础上 采用回归特征筛选方法, 对 64 个脑电导联进行筛选和优 率 以建立可获得较高识别效率并方便于实际应用 化组合, 的导联组合方式, 为优化脑机接口性能提供研究基础。
[7 ]
式中: Z t 是 归 一 化 常 数, 用 以 保 证 总 的 权 值 和 为 1, 即
∑D
i
t +1
( i) = 1 。 然后进行下一次迭代, 得到下一个基于
新的样本权重分布情况下的基分类器 h t +1 。 迭代 T 次后, 最终得到的 AdaBoost 集成分类器的判别函数输出为:
T
J( x) =
∑ α J ( x)
t t
t =1 T
( 5)
对 x 的预测标识则为: H( x) = sign [ ∑ α t h t ( x)
t =1
]
( 6)
AdaBoost 算法中, 在 T 个基分类器的分类错误率都 满足 ε t < 0. 5 的情况下, 令 γt = 0 . 5 - εt , 则其分类错误 率上界理论上为: 1 | { i: H( x i ) n exp ( - 2 ∑ γ2 ) t
∑ D ( i) I( y
t
i
i
≠ ht ( xi ) )
( 2)
AdaBoost 要求每个基分类器至少是一个弱分类器, 因此若 ε t < 0 . 5 则接受该 h t ,否则拒绝 h t 。然后 AdaBoost 进行下一次迭代, 建立下一个基分类器, 此时首先 选择更新系数: αt = 1 1 - εt ln 2 εt D t ( i) exp ( - α t y i h t ( x i ) ) Zt ( 3)
986
仪Βιβλιοθήκη Baidu
器
仪
表
学
报
第33 卷
疾患者的实 际 应 用, 基 于 该 范 式 的 BCI 系 统 已 在 正 常 和肌 萎 缩 性 侧 索 硬 化 残 疾 患 者 运用。 人
[3 ] [4 ]
D1 ( i ) = 1 / n ; i = 1 , 2, …, n
( 1)
身上得到成功
然后进行事先设定的 T 个迭代过程, 其中每迭代一 次生成一个基分类器 h t : X → R, 在 P300 的识别中, 线性 更为理想的分类算法 核函数的支持向量机( SVM ) 已被证明是较其他分类器 [10 ] , 因此这里采用线性支持向量机 由于训练数据集较 建立基分类器。对于 P300 识别而言, 为庞大, 因此可采用依样本权值的重采样方法建立训练 样本子集, 在该子集上训练基 SVM 分类器。 若所训练的 基分类器的识别误差为: εt =
t =1 T T
≠ yi }
|≤
1 ∏ 槡
t =1
- 4 γ2 ≤ t ( 7)
2
2. 1
基于 AdaBoost SVM 的导联优化算法
AdaBoost 集成支持向量机的 P300 识别算法 Freund 和 Schapire 提出的 AdaBoost 算法, 其基本思
也即是随着基分类器数目 T 的增加, 集成分类错误 率呈指数级下降。 因此, 理论上只要每个基分类器都是 AdaBoost 就能提升其分类正确率, 弱分类器, 而且研究发 [11 ] 现当 T 非常大时 AdaBoost 很少发生过学习现象 。 2. 2 基于分类间隔变化的特征分类贡献度测量与回归 , 支持向量机在两类样本之间建立一个“间隔带 ” 间 SVM 训 隔带对于评价 SVM 模型效果是非常重要的指标, 练得到的模型不但要求训练误差最小, 还同时要求隔离 。 由此, I. Guyon 建议采用扰动特征 带宽度达到“最大 ” 排序方法
Abstract: P300 Speller is one of the few practical brain computer interface systems for functional regaining of clinic paralyzed patients. Its character recognition efficiency is related tightly with the positions of surface electroencephalogram( EEG) electrodes. Redundant electrodes increase the user's discomfort and the possibility of introducing noise interference,which will depress system robustness. In this paper we propose a channel selection method based on adaptive boosting support vector machine( AdaBoost SVM) to optimize the EEG electrode positioning. Through analyzing the EEG data from 6 subjects we prove that the required number of electrodes can be decreased by above 76% without any loss of character recognition accuracy using this electrode optimization method. Moreover, compared with traditional SVMRFE method,the new algorithm decreases the computational complexity significantly and is more suitable for EEG feature optimization in training massive data. Key words: brain computer interface ( BCI ) ; adaptive boosting ( AdaBoost ) ; support vector machine ( SVM ) ; character recognition
想是对于错分类的样本, 提升其在分类器训练中权重, 通 过一系列的迭代过程让分类器更“注意 ” 这些被错分的 。 给定训练样本集 从而提升分类器的泛化能力 样本, T X=[ x1 , x2 , …, x n] , 此处 x i 为 64 个导联上的脑电信号
T y1 , y2 , …, y n] , y i 为该样本是 时域特征, 类别标识 Y = [ n 为总的样本数。 AdaBoost 首先初始化 否为 P300 响应, [89 ]
Study of channel selection based on AdaBoost SVM in P300 Speller
2 Qi Hongzhi1, ,Xu Minpeng1 ,Ming Dong1 ,Wan Baikun1 ,Liu Zhipeng2 ,Yin Tao2
( 1 School of Precision Instruments and Optoelectronics Engineering,Tianjin University,Tianjin 300072 ,China; 2 Institute of Biomedical Engineering,Chinese Academy of Medical Sciences,Tianjin 300192 ,China)
P300 Speller 的一般形式是由 26 个英文字母和 0 9 十个数字构成, 将其在计算机屏幕上排列成 6 ˑ 6 的矩 阵, 计算机控制矩阵中的行和列进行随机闪烁, 不同字符 行列的闪烁于使用者构成了视觉刺激序列。 此时若使用 者将注意力保持在某个希望输出的字符上, 矩阵中有 1 个行和 1 个列包含有该字符, 这个包含目标字符的行、 列 的闪烁构成了靶视觉刺激, 而不包含目标字符的行、 列闪 烁则构成背景刺激。 由于各个字符行、 列的闪烁频率是 等概率分布的, 靶视觉刺激行、 列的出现概率只有其他行 列的 1 /5 , 因此该矩阵的行、 列闪烁刺激构成了一个视觉 刺激的 oddball 序列。 这样, 包含目标字符的靶刺激行、 列的闪烁可以在使用者的头皮脑电信号中诱发出 P300 成分, 通 过 特 征 提 取 和 模 式 识 别 的 算 法 处 理, 识别出 P300 成分的出现时间, 便可以确定诱发出该 P300 成分 的闪烁行、 列, 行与列的交点即确定出使用者注视的是哪 一个目标字符。 这个过程周而复始下去, 使用者便可以 逐个字符地输出希望表达的信息
涛
2
( 1 天津大学精密仪器与光电子工程学院 摘
天津 300072 ; 2 中国医学科学院生物医学工程研究所
天津 300192 )
P300 Speller 的字符识别效率与脑电信号采 要: P300 Speller 是目前少数可以用于临床残疾人功能补偿的脑 机接口系统,
集的头皮表面电极位置密切相关, 过多的电极不但增加了使用者的不适感, 且易引入噪声干扰进而影响系统的稳定性 。采用并 发展了一种基于 AdaBoost SVM( adaptive boosting support vector machine) 的特征筛选方法, 对脑电导联进行优化筛选, 通过对 6 位受试者的实验数据处理及分析, 结果表明该方法可以在不显著影响识别效率的基础上降低导联数量 76% 以上。 另外, 相较 RFE 特征筛选方法, 该方法极大降低了计算复杂度, 更适用于训练数据庞大的脑电特征优化问题 。 于经典的 SVM关键词: 脑机接口; 自适应增强; 支持向量机; 字符识别 中图分类号: TP18 文献标识码: A 国家标准学科分类代码: 310. 61
一定程度上恢复其信息交流能力, 的残疾患者提供帮助,
1
引
言
从而起到改善生活质量、 减轻家庭及社会负担的作用。 当前大多数研究所报道的脑机接口系统的信息传输速 度均较低, 在临床应用中受限较大。 P300 Speller 是目前 最为成功的脑机交互信息转化范式之一 输速率可达 10
[25 ]
脑机接口技术( BCI) 在人脑和计算机之间建立一种 [1 ] 不依赖于常规外周神经和肌肉系统的信息交流通路 , 它可以为具有严重肢体运动功能障碍但思维意识均正常
07 收稿日期: 2011Received Date: 201107
, 其信息传
20 b / min 以上, 因此较适合作为临床残
30970875 , 61172008 , 81171423 ) 、 * 基金项目: 国家自然科学基金 ( 90920015 , 国家科技支撑计划( 2012BAI34B03 ) 、 国家自然科学基金委 英 国爱丁堡皇家学会联合研究项目( 30910494 ) 、 教育部新世纪优秀人才计划资助项目
第 33 卷 第 5 期 2012 年 5 月
仪
器
仪
表
学
报
Chinese Journal of Scientific Instrument
Vol. 33 No. 5 May. 2012
P300 Speller 中基于 AdaBoost SVM 的导联筛选研究 *
1, 2 1 綦宏志 ,许敏鹏 ,明 1 1 2 东 ,万柏坤 ,刘志朋 ,殷
然后对整个样本集中的样本更新权重: D t +1 ( i ) = ( 4)
。
头皮脑电是一种多源混叠信号, 诱发的 P300 成分混 [6 ] 杂在大量自发脑电、 眼电、 肌电等背景噪声中 。 BCI 研 究中一般采用在不同位置上安置大量导联进行同时记 录, 在每个导联上提取时域特征并将所有特征同时输入 识别算法进行综合处理。然而过多的记录导联数目不但 增加了 BCI 系统的安装难度, 加重了使用者的不舒适感, 而且随着导联数目的增多, 其可能引入的串扰噪声也会 、 增加, 并且由电极滑动 脱落、 皮肤电极阻抗变化等导致 的信号畸变也会增加。 因此, 适用于临床应用的 P300 Speller 要求 使 用 尽 量 少 的 导 联 以 达 到 较 高 的 识 别 效 , 本文在基于 AdaBoost 集成 SVM 分类算法的基础上 采用回归特征筛选方法, 对 64 个脑电导联进行筛选和优 率 以建立可获得较高识别效率并方便于实际应用 化组合, 的导联组合方式, 为优化脑机接口性能提供研究基础。
[7 ]
式中: Z t 是 归 一 化 常 数, 用 以 保 证 总 的 权 值 和 为 1, 即
∑D
i
t +1
( i) = 1 。 然后进行下一次迭代, 得到下一个基于
新的样本权重分布情况下的基分类器 h t +1 。 迭代 T 次后, 最终得到的 AdaBoost 集成分类器的判别函数输出为:
T
J( x) =
∑ α J ( x)
t t
t =1 T
( 5)
对 x 的预测标识则为: H( x) = sign [ ∑ α t h t ( x)
t =1
]
( 6)
AdaBoost 算法中, 在 T 个基分类器的分类错误率都 满足 ε t < 0. 5 的情况下, 令 γt = 0 . 5 - εt , 则其分类错误 率上界理论上为: 1 | { i: H( x i ) n exp ( - 2 ∑ γ2 ) t