基于测地距离的核主成分分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5 实验分析
5.1 仿真实验 仿真数据来源于两个不同类别,每个类别均有两个变量。第 一类数据来源于均值为 0,方差为 0.5 的高斯分布,第二类数据 来源于圆心为 0,半径为 3 的圆,外加方差为 0.1 的高斯白噪声。 分别选取每类数据 200 个样本, 利用传统的 KPCA 分析和基于 测地距离的 KPCA 分析,提取前两个成分,给出如图 1 所以的第 一、二成分的散点图,从图中可以看到基于测地距离的 KPCA 分 析可以更加有效地提取出两类样本的差异性, 只用第一主成分 即可以将两类样本分开, 而传统的 KPCA 分析必须选用两个主 成分才可以将两类样本清晰分类或聚类。
摘要: 特征 提 取 作 为 分 类 、聚 类 等 数 据 分 析 问 题 的 关 键 步 骤,对 结 果 产 生 重 要 的 影 响,常 用 的 主 成 分 分 析 方 法 作 为 线 性 方 法,
难以提取非线性特征,引入核函数后形成的核主成分分析方法,使用了欧式距离作为相似性度量,有时难以有效提取数据的
式距离
。
创
基于测地距离的核主成分分析即利用测地距离的高斯核
函数将原始数据映射到高维特征空间, 然后进行线性主成分
新 分析。
应釜、冷凝器、气液分离塔、气提塔和离心式压缩机等多个操作 单元组成,文献给出了其流程示意图和数据。TE 模型共有 52 个 变量,其中 11 个控制变量,41 个过程变量,冷凝器冷却水的入口 流量即为重要过程变量之一。实验分别测定了模型正常情况和 21 种故障形式情况下的过程数据。
若采用电流、速度双闭环控制方法,其仿真结果如图 3 所示:
图 3 电流、速度双闭环控制仿真图 Fig.3 The simulation diagram of current & velocity closed-loop
control system 图 3 中,上半部分为电机波动力矩引起幅值为 0.02°/s 的速 度波动, 下半部分为采用速度闭环控制方法后的速度波动量由 原来的 0.02°/s 减少至 0.00028°/s。 通过仿真结果,可以得出电流、速度闭环控制方法对电机的 力矩波动抑制效果非常明显使扰动减少到原来的 1.5%。
(a) 传统 KPCA 模型前 3 个主成分图
(a) 传统 KPCA 模型
(b) 基于测地距离 KPCA 模型
前 2 个主成分图
前 2 个主成分图
图 1 仿真数据中传统和基于测地距离 KPCA 模型中
前 2 个主成分对比图
5.2 TE 过程实验
1993 年美国 Eastman 化学公司建立了实际化工生产过程
(下转第 109 页)
- 124 - 360元 / 年 邮局订阅号:82-946
《现场总线技术应用 200 例》
您的论文得到两院院士关注
软件天地
电流内环才能起到快速调节电流的作用, 改善速度输出的平稳 性。电流、速度闭环控制系统的模型如图 2 所示。
图 2 电流、速度双闭环控制系统的控制模型 Fig.2 The model of current & velocity closed-loop control system
上述四种核函数中 R,d,σ, , 均为相应的核参数。上述
四种常用核函数中以高斯核函数最为常用。
4.2 测地距离高斯核函数
高斯核函数
中
表示相应的
技 两个向量的欧式距离,而在某些情况下,用欧式距离作为相似性
度量难以有效表示数据间的差异性, 本文利用测地距离代替欧
术 式距离作为相似性度量方式, 用第 3 节中的测地距离来代替欧
实际生产过程各工艺参数间存在着非线性关系, 主成分分 析 (Principal Component Analysis ,PCA) 和偏最小二乘法(Partial Least Squares, PLS)作为线性特征提取方法,难以有效提取非线 性关系。目前解决非线性数据关系的神经网络方法建立在经验 风险最小化的基础上,泛化能力较差,另外模型结构也较难确定, 需要解决复杂的非线性优化问题;而核函数方法,通过核函数将 原始空间的非线性问题转化为高维特征空间的线性问题, 而且 核函数方法建立在结构风险最小化基础上, 较好解决了模型泛 化能力问题,运算较简单。核主成分分析(Kernel Principal Com- ponent Analysis, KPCA)即是其中一种。
本 质 特 征 。 本 文 利 用 测 地 距 离 代 替 欧 式 距 离 , 形 成 了 基 于 测 地 距 离 的 核 主 成 分 分 析 方 法 , 利 用 仿 真 和 TE 生 产 过 程 数 据 进 行
验证表明具有更好的特征提取能力。
关键词: 测地距离; 核主成分分析; 特征提取; 数据分析
的田纳西-伊斯曼(Tennessee Eastman, TE)模型,由连续搅拌式反
(b) 基于测地距离 KPCA 前 3 个主成分图 图 2 TE 生产中传统和基于测地距离 KPCA 模型中
前 3 个主成分对比图 参考文献 [1]段建民译. 工业系统的故障检测与诊断[M]. 北京:机械工业出 版社,2003 [2]张杰,阳宪惠. 多变量统计过程控制[M]. 北京:化学工业出版 社,2000 [3]贺曼,陈莉.基于 PCA 及 SVM 对含能化合物结构性能预测[J]. 微计算机信息,2008,24(8-3):192-193 [4]曾庆鹏,吴水秀,王明文. 模式识别中的特征提取研究[J]. 微计 算机信息,2008,24(1-1):220-221 [5]F. Jia, E. B. Martin, A. J. Morris. Non -linear principal
向量,可认为是 F 空间中样本的线性组合,即:
(2)
式(1)两边左乘
得:
(3)
定义
的核矩阵
。将 K 代入
式(3),具体推导过程详见文献,可得:
(4)
其中,
。
则样本在 F 空间中第 k 个主成分 为:
(5)
3 测地距离
当两点非常近时,测地距离等于欧式距离,而对较远的点之 间的测地距离则根据近邻点之间测地距离的累加实现。
6 结论
本文将测地距离引入到核主成分分析中, 形成基于测地距 离的核主成分分析方法,作为分类和聚类数据的特征提取方法, 利用仿真数据和 TE 生产过程数据对方法的有效性进行了验 证,与传统的核主成分分析方法相比,基于测定距离的核主成分 分析方法可以更加有效地提取出生产过程数据的本质特征,更 加有利于进一步的分类和聚类分析, 从而为生产的正常进行和 保证产品质量提供技术支持。
中图分类号: TP391
文献标识码: A
Abstract: Feature extraction, which is a key step in data analysis such as classification, clustering and so on, has an important impact on the results. Principal component analysis is a simple linear transformation technique and can not build the non -linear relationship among data. The kernel principal component analysis is proposed based on kernel function. In some cases euclidean distance as the similarity measure can not extract the essential feature of the data. In the paper the geodesic distance is introduced as the similarity measure in kernel principal component analysis. Simulation data and Tennessee Eastman process data are used for model validation, as a result the proposed method has better performance on feature extraction, compared with the traditional kernel principal component analysis. Key words: Geodesic Distance; Kernel Principal Component Analysis; Feature Extraction; Data Analysis
在核主成分分析中使用常用的欧式距离作为相似性的度 量指标,有时难以有效提取数据的本质特征,本文利用测地距离 代替常用的欧式距离, 形成了基于测地距离的核主成分分析方 法,利用仿真和田纳西-伊斯曼(Tennessee Eastman, TE)化工生产 数据对方法的有效性进行了验证, 实验表明基于测地距离的核 主成分分析方法在某些情况下具有更好的非线性特征提取 能力。
本文利用正常情况下的 100 个数据和第 1、2 两种故障的 100 个数据分别建立了基于欧式距离的传统 KPCA 模型和基于 测地距离的 KPCA 模型,图 2(a)和(b)分别给出了两种模型提取 出的前三个成分的散点图, 从图中可以看到基于测地距离的高 斯核函数的 KPCA 可以更加有效地提取中不同类别数据间的 非线性关系,体现出基于测地距离核主成分析的优越性。
2) 计算各观察点与较远点间的测地距离,利用所用的 t,t=1,
…,N,迭代计算所有的
。
4 测地距离核主成分分析
4.1 常用核函数
(1) 多项式核函数:
,其中 R 和 d 均为参数;
(2) 高斯核函数:
, 其中, 为大于 0
的常数;
(3) 线性核函数:
;
(4) Sigmoid 核函数:
,其中
,
均为常数;
薛宁静: 讲师 硕士研究生
KPCA 的基本思想是将数据从输入空间映射到高维特征空
间,然后在特征空间利用线性主成分分析方法计算主成分。给定
Fra Baidu bibliotekN 个样本:
,由非线性函数 将输入数据从原
始 空 间 映 射 到 高 维 特 征 空 间 F。 的 协 方 差 矩 阵 为 :
,计算其特征值和特征向量:
(1)
其中,λ 为 F 空间中 的特征值,V 为 F 空间中 的特征
技 术 创
1 引言
新
2 核主成分分析
现代工业生产的自动化,随着传感技术的发展,产生了大量 的过程数据,其中蕴含着丰富的产品质量信息。如何对这些数据 进行有效分析, 进而提高工程技术人员和操作人员对生产过程 的认识成为一个重要的研究课题。常用的对生产过程数据的分 类、聚类分析,可以进而实现对生产过程的监控、诊断和控制。而 特征提取作为数据分析的关键步骤,对结果产生重要的影响。
由引入电流环后波动力矩引起的速度波动量如式 6 所示 (6)
2 仿真分析
为了验证电流环对力矩波动的抑制效果,电流、速度双闭环 仿真模型得出仿真结果。
将 系 统 输 入 信 号 设 定 为 0.1° /s, 力 矩 波 动 信 号 设 定 为 0.01sin(0.89t)的正弦信号,由式 4 可得电机波动力矩引起的速度 波动幅值为 0.02°/s。
具体计算: 1) 根据观察数据 x 和邻域大小 k 构造局部空间上点间的
《P LC 技术应用 200 例》
邮局订阅号:82-946 360 元 / 年 - 123 -
软件天地
《微计算机信息》(测控自动化 )2010 年第 26 卷第 11-1 期
测地距离,即认为局部空间测地距离等于欧式距离,每个数据与 其 k 近邻点的距离等于欧式距离,否则为无穷大;
3 试验分析
根据仿真结果,本文最后通过试验验证了电流、速度闭环控 制方法对电机的力矩波动抑制效果, 以验证仿真数据的真实性 和合理性。
您的论文得到两院院士关注 文 章 编 号 :1008-0570(2010)11-1-0123-02
软件天地
基于测地距离的核主成分分析方法
Kernel Principal Component Analysis based on Geodesic Distance
(延安大学) 薛 宁 静
XUE Ning-jing