高维数据分类方法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

=
XX T
+σ 2I
进而可推导出映射参数 w 关于观测变量 y 的后验概率
分布。在该模型下的观测数据对数似然函数为:
log p(Y | X ) = − d log | K | − 1 tr (K −1YY T ) + c
(7)
2
2
将式(7)最大化可得:
1
X
=
U
' q
L
V
T
,
L
= (Λq
−σ 2I)2
(6)
其中Uq 是协方差矩阵 n−1Y TY 的前 q 个主特征向量,对应的 特征值矩阵为 Λq ,V 为任意 q × q 正交旋转矩阵。这样用最 大似然参数估计代替了通常的样本协方差矩阵特征值分解,
W 和 σ 2 可以用 EM 迭代算法高效的求解。GPLVM 与概率
主成分分析(PPCA[7])均可以看作是 PCA 的概率化版本,
设 q 维潜变量数据集记为 X = [x1,:,..., xn,:]T = [x :,1 ,..., x :,q ]∈ ℜn×q
概率 PCA[7]是一个简单的潜变量模型,给出了观测数据
y 和潜变量 x 之间的关系,它利用低维的潜变量来表示高维
观测数据,具体描述的是线性关系:
yi,: = Wxi,: + ηi,:
p( X | Y ,W ) = p(Y | X ,W ) p(X ) p(Y | W )
在该模型下的观测数据对数似然函数为:
log p(Y | W ) = − n log | C | − 1 tr(C−1Y TY ) + c
(5)
2
2
其中 c 为常数,则将式(5)最大化可得:
1
W = UqLV T , L = (Λq − σ 2I )2
引 言1
模式分类是模式识别中的一项重要内容 ,也是处理许 多其它问题的核心。用于模式分类的方法很多 ,传统的模式 分类方法主要基于统计分析理论, 如 Bayesian 方法、Fisher 判别、K 近邻分类等。近年来复杂非线性高维数据分析、处 理的需要则促进了神经网络、模糊推理及支持向量机等方法 的研究与应用[1]。其中支持向量机的理论基础是 Vapnik[2, 3] 等提出的统计学习理论,采用结构风险最小化准则 ,在最小 化样本点误差的同时,缩小模型泛化误差的上界,即最小化模 型的结构风险,从而提高了模型的泛化能力。支持向量机方 法的分类性能受特征空间的选择影响较大,在很多应用领域 中数据包含大量的特征,过高的特征维数使得训练及分类的 速度变慢,同时也会使分类的正确率下降。
(School of Electronic and Information Engineering, Dalian University of Technology, Dalian 116023, China)
Abstract: Effective dimensionality reduction is a key issue in high-dimensional data classification. A new ladder jumping dimensional reduction classification framework was proposed which combined the Gaussian process latent variable model (GPLVM) and the Support Vector Machine (SVM). The data dimensions were reduced remarkably, while at the same time improving the performance of SVM classifiers. For the purpose of nonlinear low dimensional embedding of sample datasets, GPLVM provides a smooth probabilistic mapping from latent to data space. According to the feedback results of SVM, the renewed ladder dimension was calculated and the input data was adjusted dynamically. The proposed approach was applied to four benchmark problems, and the simulation results show its validity. Key words: GPLVM; SVM; pattern classification; ladder jumping dimension reduction
2.2 分类步骤
方法一的思路比较清晰,主要分析的是 GPLVM 降维后 对高维数据分类结果的影响;方法二涉及到阶梯跳跃的降 维,对样本进行动态更新的过程,下面给出方法二的具体实 现步骤:
步骤 1:对原始数据集进行预处理,转换为实验程序需 要的数据格式,并进行归一化处理。
步骤 2:设定阶梯维数,采用对折交叉的方式将原始数 据样本的维数进行等分,如原始数据为 24 维,若采用 6 折 阶梯维数的具体降维顺序为 24->20->15->10->5->1。
第 21 卷第 10 期 2009 年 5 月
系 统 仿 真 学 报© Journal of System Simulation
Vol. 21 No. 10 May, 2009
高维数据分类方法研究
田 江, 顾 宏
(大连理工大学电子与信息工程学院,大连 116023)
摘 要:在对高维度数据进行模式分类时,能否有效进行降维是一个关键问题。提出了一种结合高
斯过程潜变量模型(GPLVM)和支持向量机(SVM)的阶梯跳跃降维分类框架方法,能有效的降低样 本数据维数,同时提高分类器性能。利用 GPLVM 实现数据的平滑映射,对输入样本进行非线性降 维后,根据 SVM 的分类校验结果进行下一步降维迭代操作;计算新的阶梯维数,根据反馈动态调 整降维输入数据。利用该方法对 UCI 上的数据集进行分类,仿真结果验证了方法的有效性。
出分类正确率。 步骤 6:判断是否阶梯跳跃降维操作是否完成,若需要
继续跳跃降维,则计算下一阶梯维数数值,并将当前降维后 的样本数据反馈,对下一轮的迭代降维进行输入数据更新。
步骤 7:降维操作完成,合并输出最终分类结果,包括 分类正确率和数据维数。
数据样本 预处理
GPLVM降 维
动态调整 样本数据
SVM 交叉检验
方法1 输出结果
GPLVM 阶梯跳跃降维
SVM 交叉检验
更新 阶梯维度
阶梯跳跃
N
是否完毕
Y
方法2 输出结果
图 1 模式分类框架
在设计的两种方法中,GPLVM 提供从潜变量到数据空 间的平滑概率映射,与大多数非线性降维方法专注于保持数 据空间原有局部距离不同,GPLVM 侧重于在潜变量空间内 分离原数据空间中距离较远的点。通过加以后向约束, GPLVM 同样实现了对原空间局部距离的保持[5-6]。在反向约 束 GPLVM 中,似然函数的优化需要加上对局部距离进行保 持的约束,这个约束通过对数据空间到潜变量空间的映射学 习实现。因此,在训练过程中同时会有两个模型并行工作, 一个用于相异保持,从潜变量空间到数据空间进行概率 GPLVM 映射;另外一个模型用于局部距离保持,从数据空 间到潜变量空间进行映射。
收稿日期:2008-01-02
修回日期:2008-07-23
作者简介:田江(1979-), 男, 河北唐山人, 博士生, 研究方向为数据挖掘
等;顾宏(1961-), 辽宁大连人, 教授, 博导, 研究方向为数据挖掘, 移动
商务等。
相关的仿真实验,实验结果表明了该方法可以获得最优的特 征子集,有效的提高了分类的正确率,证明了方法的有效性。
使用 GPLVM 作为数据样本的降维方法,然后使用支持 向量机(SVM)交叉验证对高维样本数据进行分类。本文设计 了两种分类方法,为方便描述,将其在一个模型框架下进行 表示,具体如图 1 所示。
如图所示,方法一的基本流程是对原始数据进行预处理 后,直接使用 GPLVM 进行降维,然后通过 SVM 交叉验证 进行分类,最好输出分类结果。而方法二在对原始数据进行 预处理后,设定动态调整数据样本作为 GPLVM 降维算法的 输入,通过 SVM 交叉验证分类后,对分类结果和当前维数 进行保存。这个时候判断阶梯跳跃降维操作是否完毕,如果 还要跳跃做进一步降维,则计算新的阶梯维数执行迭代分 类;如果已经结束,则输出合并后的结果。
(1)
其中W ∈ℜd×q 是映射矩阵,噪声向量ηi,: 服从于均值为 0, 方差为 σ 2I 的正态分布。将潜变量同观测数据联系起来,假
定各数据相互独立,令条件概率为:
n
p(Y
|
X ,W
)
=
Π N(
i =1
yi ,:
| Wxi,:,σ
2I
)
(2)
定义潜变量的高斯先验分布表示为:
n
p(
X
)
=
Πຫໍສະໝຸດ Baidu
i =1
关键词:高斯过程潜变量模型;支持向量机;模式分类;阶梯跳跃降维
中图分类号:TP18
文献标识码:A
文章编号:1004-731X (2009) 10-2933-03
Study on Classification Methods for High-dimensional Data
TIAN Jiang, GU Hong
N
( xi ,:
|
0,
I
)
(3)
n
p(Y
|W
)
=
Π
i =1
N
(
yi ,:
|
0, C )
(4)
• 2933 •
第 21 卷第 10 期 2009 年 5 月
系统仿真学报
Vol. 21 No. 10 May, 2009
式中 C = WW T + σ 2I 为协方差,进而可推导出潜变量 x 关于 观测变量 y 的后验概率分布
田江,等:高维数据分类方法研究
Vol. 21 No. 10 May, 2009
步骤 4:GPLVM 按照新的阶梯维数进行迭代降维,降 低数据样本的维数,其目的在于提高算法执行的速度和分类
程度上均提高了实验的分类正确率,同时有效的降低了数据 样本的维数。
精度。 步骤 5:使用 SVM 交叉验证对数据样本进行分类,输
二者的推导思路具有对偶性。GPLVM 将均值矩阵和协方差
矩阵转换为高斯过程中定义的均值函数和协方差函数。将式
(3)转换成对映射参数 W 的先验分布。定义映射参数 W 的高
n
斯先验分布为
p(W
)
=
Π
i =1
N (wi,:
|
0, I
)
,并且有
n
p(Y
|
X)
=
Π
i =1
N
(
yi
,:
|
0, K ) ,其中
K
步骤 3:动态调整数据样本,第一次输入的时候,数据 样本保持为原始状态。在后面的迭代过程中,首先执行降维 和 SVM 交叉验证分类,然后判断如果需要进一步降维,则 对此刻的样本进行动态调整,将上一次降维后的样本数据输 出作为下一次 GPLVM 降维操作的输入,这是一个反馈迭代 的过程。
·2934·
第 21 卷第 10 期 2009 年 5 月
1 高斯过程潜变量模型
高斯过程潜变量模型(GPLVM)[4-6]是一个完全概率非线
性的实现主成分分析的潜变量模型。对主成分分析进行概率
解释,写成一组具有线性协方差方程的高斯过程的积形式。
设 d 维观测数据集记为: Y = [ y1,:,..., yn,:]T = [ y :,1 ,..., y :,d ]∈ ℜn×d
(8)
其中
U
' q
是协方差的前
q
个主特征向量,对应的特征值为
Λq ,在推导过程中,可以用非线性核代替线性核 K,即引
入非线性协方差方程,如使用 RBF 核函数:
k (xi,:,
x j ,: )
=
exp(−
( xi ,:

x j,:)T ( xi,: 2σ 2

x j,:))
2 分类模型
2.1 模型框架
主成分分析(PCA)是目前广泛应用的一种降维方法,将 多个变量化为少数几个互不相关的主成分,从而描述数据集 的内部结构。高斯过程潜变量模型(GPLVM)[4-6]由 Lawrence 于 2004 年提出,是一种新的无监督非线性数据降维方法, 实现概率非线性的主成分分析。本文在 GPLVM 的基础上, 结合支持向量机提出了一种阶梯跳跃式降维的方法,对样本 进行动态调整,支持向量机做为分类器迭代计算模型的性能 评价标准和最后的分类结果。在 UCI 标杆数据集上进行了
相关文档
最新文档