模式识别中的特征提取研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4 实验及总结
实验数据采用 1999 年 KDD 入侵检测竞赛的标准数据集的 部分数据, 实验结果如表( 1) 所示:
表(1)主成分分析结果
第二主成分贡献率达到 16.671%, 事实上, 前 10 个主成分贡献
率达到 86.304%, 这就是说, 可以用 10 个主成分的数据信息来
描述出变换前的 20 维特征数据的变化状态。将 20 个特征变量
set all weights W[A]:=0.0; for i:=1 to m do begin randomly select an instance Ri; find k nearest hits Hj;
曾庆鹏: 讲师 硕士 基金项目:国家自然科学基金( 60663007)
for each class ≠ class(Ri) do from class C find k nearest misses Mj( C ); for A:=1 to a do

end; 其中 diff(A,I1,I2)函数计算属性 A 与实例 I1 和 I2 的区分度, 其初始值定义如式( 1) :
(1) 迭代计算如式( 2) :
(2)
2 主成分选择
设 X1,X2,…,Xp 为 p 个随机变量, 记 X=(X1,X2,…,Xp)T, 令 Σ为 X 的协方差矩阵, 进行式( 3) 的线性变换:
Proceedings of Electrotehnical and Computer Science Conference (ERK98).:137- 140.
[5]陈德钊, 多元数据处理[M], 化学工业出版社, 北京:1984.4 作者简介:曾庆鹏( 1974- ) , 男, 江西吉水人, 讲师, 硕士, 研究方 向:网络与信息安全; 吴水秀( 1975- ) , 女, 江西南丰人, 讲师, 硕 士, 研究方向:信息系统; 王明文( 1965- ) , 男, 江西南康人, 教授, 博士, 研究方向:信息检索, 文本分类。 Biogr aphy:Zeng Qing- peng(1974- ), male,han, Jiangxi Province, NanChang University, Master degree, Major in computer application, Research area: network and information security. Wu Shui- xiu(1975- ), female, han, Jiangxi Province, Jiangxi Normal
所有特征的一个线性组合。如果用变换后的所有主成分来代替 原始的特征信息, 一般没有信息的损失, 因此被广泛应用到模式 匹配的相关领域中。但很多情况下, 通常选择少数几个包含大 部分原始特征信息的主要成分来代替原始的特征信息, 这样做 虽然损失了部分特征信息, 但可以使用更少的特征变量来代替 原始的较多的特征变量, 这样可以大大减轻后续分类器的计算 量, 同时对提高分类器的性能也是有帮助的。本文提出了一种 基于改进 ReliefF 算法的主特征提取方法。
( 1.南昌大学; 2. 江西师范大学) 曾庆鹏 1 吴水秀 2 王明文 2
ZENG QINGP ENG WU S HUIXIU WANG MINGWEN
摘要:特征提取是模式识别中的关键技术之一, 本文提出了一种基于改进 ReliefF 算法的主成分特征提取方法, 通过该方法
进行主特征特征提取可以有效降维, 大大减轻了后续的分类器的工作量, 同时也有助于提高分类器的分类精度。
Machine Learning:Proceedings of International Conference (ICML92).:249- 256.
[2]Jennifer G.pY. and Carla E.Brodley. Feature Selection for unsupervised learning. Journal of Machine learning Research [J].
技 Key wor ds:Patter n Matching, Featur e Selection, Pr incipal Component Analysis
术 概述
主成分分析是特征提取中很常用的一种变换方法, 该方法
创 通过使用变换后的几个主要的成分来代替原始的特征信息,变 新 换后的主成分之间是相互独立的, 并且每个主成分都是变换前
指:在限制条件

下寻找 ai, 使

达到最大。
- 220 - 360元 / 年 邮局订阅号:82-946
《现场总线技术应用 200 例》
您的论文得到两院院士关注
模式识别
3 基于主成分分析的特征提取
基于前面介绍的原理, 下面给出基于主成分分析的特征提 取方法的具体过程。
第一步:去除无关特征变量。利用 ReliefF 算法去掉原始特 征中那些与分类不相关的特征。经过第一步处理后得到的数据 矩阵为式( 4) :
技 术 创 新
University, Master degree, Major in computer application, Research area: information system. Wang Ming- wen (1965- ),
male,han, Jiangxi Province, Jiangxi Normal University, Doctor degree, Major in computer application, Research area:information
降维成 10 个主成分, 大大减轻了后续的分类器的工作量, 同时
也有助于提高分类器的分类精度。
本文作者创新点在于利用改进的 ReliefF 算法进行主成分
特征提取并取得较好的实验效果, 该算法可用于模式识别领域。
参考文献
[1]Kira,k. and A.Rendell. A Practical approach to feature selection.
换后的数据矩阵 Y 即:
显然, Y 是 n 行 d 列的矩阵, yij 表示在变换后的特征空间中 第 j 个特征变量在第 i 个样本实例上的值。Yj 代表在变换后的 特征空间中第 j 个特征向量, 也就是变换后的第 j 主成分。Si 代 表在变换后的特征空间中第 i 个实例向量。还可以看出, 变换前 数据矩阵的大小为 n×p, 变换后的数据矩阵大小为 n×d, 又因为 d≤p, 所以在相同的样本实例的情况下, 变换后的数据矩阵的 特征维数小于等于变换前的数据矩阵的特征维数。
(3)
可以得到:
显然我们希望 Y1 是 X1, X2,…, Xp 的所有线性函数中方差
最大的, 此处限制 a1 为单位向量, 即有
, 这样可以使得
达到最大, 此时就称 Y1 为第一主成分。如果第
一主成分所包含的信息还不够多, 不足以代表原始的 p 个变量,
就要考虑使用 Y2 、Y3 、Y4 等, 一般来说, X 的第 i 主成分
( 4)
Βιβλιοθήκη Baidu
其中, Xn×p 表示一个 n 行 p 列的一个矩阵。代表 n 个样本实 例, 并且每个样本实例是 p 维的。xij 表示第 j 人特征变量在第 i 个样本实例上的观测值, Xj 代表第 j 个特征变量的观测向量, Ii 代表第 i 个样本实例的观测向量。
第二步:数据规一化处理。将矩阵 Xn×p 转换为矩阵 Zn×p, 变换 公式为式( 5) :
(5)
其中, xj 代表矩阵 Xn×p 中第 j 列 ( 第 j 个特征变量) 的均
值,
代表矩阵 Xn×p 中第 j 个特征的标准差。
第三步: 进行主成分变换。先计算矩阵 Zn×p 的协方差矩阵
∑, 然后计算协方差矩阵∑的特征值和特征向量, 特征值从大
到小依次为
。相应的特征向量为
。接
着选择出合适数量的特征向量并构成变换矩阵 U, 最终得到变
关键词:模式识别;特征提取;主成分分析
中图分类号:TP391
文献标识码:A
Abstr act:Feature Selection is one of key technologies in Pattern Matching, a method of principal feature selection based on reforma- tive algorithm ReliefF is presented in this paper, using this method to select the principal feature will reduce the dimensionality sig- nificantly, and the computing cost of the classify program can be decreased , at the same time, the precision of the classify program can be increased.
《现场总线技术应用 200 例》 110 元 / 本(免邮资)汇至
地址:北京海淀区皂君庙 14 号院鑫雅苑 6 号楼 601 室 微计算机信息杂志收 邮编:100081
电话:010-62132436 010-62192616(T/F )
《P LC 技术应用 200 例》
1 ReliefF 算法及其实现
ReliefF 算法的主要思想是: 根据属性值在区分相互靠近的 样本实例的能力上来对属性的质量进行评价, 首先随机地从训 练数据中选择一个样本实例 R, 然后在训练数据中找出和样本 实例 R 在同一类中的 k 个最近邻的样本实例, 把这 k 个样本实 例称作 Nhits, 然后在训练数据中分别找出和样本实例 R 不在 同一个类中的 k 个最近邻的样本实例, 把这些 k 个样本实例称 作 Nmisses, 每个属性 A 的权重的更新依赖于随机选择的样本 实例 R、和 R 在同一类吕的 k 个近邻 NHits 以及和 R 不在同一 类中的若干个 k 个近邻 Nmisses, 在属性权重的更新公式中所有 的 NHits 和 NMisses 的贡献是经过平均的。改进后的 ReliefF 算 法如下:
模式识别
文章编号:1008- 0570(2008)01- 1- 0220- 02
中文核心期刊 《微计算机信息》(测控自动化)2008 年第 24 卷第 1-1 期
模式识别中的特征提取研究
Re s e a rch o n Fe a tu re S e le ctio n in Pa tte rn Ma tch in g
Retrieval, text classify .
(330031 江西 南昌 南昌大学信息工程学院) 曾庆鹏
(330027 江西 南昌 江西师范大学计算机信息工程学院)
吴水秀 王明文
(School of Infor mation Engineer ing , NanChang Univer sity,
2004.05:845- 889. [3]徐正光 闫恒川 张利欣, 独立成分分析在表情识别中的应用
[J], 微计算机信息, 2006.VOL.22.NO.6- 2:287- 289 [4]Robnik Sikonjia. Speeding up Relief algorithm with k- d tree.
通讯地址: ( 330031 江西省南昌市红谷滩新区学府大道 999 号
南昌大学信息工程学院计算机系) 曾庆鹏
(收稿日期:2007.10.03)(修稿日期:2007.12.05)
由表可以看出, 变换后的第一主成分贡献率达到 28.625%,
书讯
《变频器与软启动器应用 200 例》 110 元 / 本(免邮资)汇至
NanChang 330031,China)Zeng Qingpeng (College of Computer Infor mation and Engineer ing , J iangxi
Nor mal Univer sity , NanChang 330027,China)Wu Shuixiu Wang Mingwen
相关文档
最新文档