基于判别式分析和神经网络的特征选择方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本文提出了一种新的特征选择方法 ,首先采用了基于判 别式 分 析 的 特 征 排 列 算 法 [5 ] ( D iscrim inant Aanalysis based
收稿日期 : 2005 - 08 - 09 基金项目 :国家自然科学基金资助项目 (60135010) 作者简介 :武妍 (1967 - ) ,女 ,山西晋中人 ,教授 ,博士 ,主要研究方向 :神经网络 、模式识别 ; 杨洋 ( 1980 - ) ,男 ,江西波阳人 ,主要研究方 向 :神经网络 、机器学习.
Key words: feature selection; neural network; discrim inant analysis; regularization; classification
0 引言
人工神经网络是由大量简单元件相互连接而成的复杂网 络 ,具有高度的非线性 ,能够进行复杂的逻辑操作和非线性关 系实现的系统 。
扩展互熵误差函数来训练网络 ,其中互熵误差函数 E0 ( the
Cross2Entropy Error Function)为标准误差项 ,具体取值可以由
式 (2)计算出来 ,另外二项均为正则化项 。
∑∑ E
= E0 nL
P nh
+α1
1 P nh
p =1
k =1
f
′( ahkp )
+
P nL
∑∑ α 2
Nj
∑ 1
m j = N j k =1 X jk 其中 , m j代表数据样本中属于第 j类的输入均向量 , N j为 数据样本中属于第 j类的样本个数 , Xjk 为样本数据中属于第 j 类的第 k个样本的输入向量 。然后计算出整个输入数据的均
向量 m。
nL
∑ m =
Pjm j
j=1
其中 , Pj 为样本中属于第 j类的先验概率 , 这一概率可以
xN ) 为网络的输入层 , N 为原始特征集合中元素个数 , 网络隐 含层的神经元个数为 nh。最后一层为网络的输出层 , 该层具 有 nL 个节点 ,这一参数主要是由实际问题中类别总数来确定 的 。网络输出层和隐含层的传输函数均为对数 —S 形函数 ,即
f ( x) = 1 / { 1 + exp ( - x) } 。 首先利用 BP算法进行网络学习 ,使用了如式 ( 1)所示的
xip
,
aLjp
=
w
h ij
ohip
i =0
i =0
其中 w0ik 为网络第 i个输入与输入层第 k个神经元之间的
量显著性的大小 。在文中采用了 DA算法将输入特征按照重 要程度排成一个队列 ,然后再通过一个正则化的 BP神经网 络从有序队列中选择出满足要求的特征 。在网络训练中 ,添 加了二项作为误差的正则化项 ,有效地限制了网络传输函数
的导函数 ,降低了输出敏感度 。 1. 1 DA 算法
DA 算法采用一个判别函数 J ( x) , 根据各个特征所对应 的 J ( x) 值大小来排列所有特征 , 形成一个有序的特征队列 。 首先计算出数据样本中每类样本的输入均向量 , 计算公式如 下:
的敏感度
,
所以在误差函

中使


α 1
,α2

2个正则化参
数 ,这 2个参数的取值可以通过实验来获得 。式 ( 1) 中 P为训
练样本的个数 , ahkp、aLjp分别为输入为第 p个数据时隐含层中第 k个神经元和输出层第 j个神经元的输入值 ,其计算公式分别
为:
N
nh
∑ ∑ ahkp =
w
0 ik
Fea ture selection approach ba sed on d iscr im inan t ana lysis and neura l networks
WU Yan, YANG Yang (D epa rtm en t of Com pu ter S cience and Technology, Tong ji U n iversity, S hangha i 200092, Ch ina)
人们提出了很多基于神经网络的特征选择方法 ,其中比 较典 型 的 方 法 有 神 经 网 络 特 征 选 择 器 [1 ] (Neural2Network Feature Selector, NNFS) 、基于信噪比的方法 [2 ] ( Signal2to2Noise Ratio based technique, SNR ) 、基于神经网络输出灵敏度的特 征 排 列 [3 ] ( Neural network output sensitivity based feature ranking,由于算法中采用了 the Feature Quality Index,因此简 称为 FQ I) 、基于模糊熵的特征排列 [4 ] ( Fuzzy entropy based feature ranking, 算 法 中 采 用 了 参 数 the Overall Feature Evaluation Index,因此简称 OFE I) 。
43 4
计算机应用
2006年
feature ranking,Hale Waihona Puke BaiduDA )将所有特征按照重要程度排列成一个特 征队列 ,然后利用正则化的 BP神经网络 [6 ]来选择显著特征 集合 。在下文中将这种新方法简称为 DA&NN。
1 DA &NN
基于神经网络的特征选择方法可以看作是一种结构修剪
法 ,在特征选择过程中通过剪掉一些不相关的输入特征 ,达到 减少特征个数的目的 。然而怎样度量特征的重要性程度 ,这 是一个比较关键的问题 。通常不同方法采用不同的指数来衡
根据实际数据样本集计算获得 , nL 为类别总个数 。下面分别
定义一个类别内的协方差矩阵 Sw 和一个类别间的协方差矩
阵 Sb。
∑ ∑ NL
1
Sw = j =1 Pj N j
( Xjk - m j ) ( Xjk - m j ) t
NL
∑ ∑ Sb =
Pj (m j - m ) (m j - m ) t
1 P nL p =1
j =1
f ′( aLjp )
(1)
从式 ( 1) 可以看出 ,所添加的二项有效地限制了传输函
数的导数 ,使得隐含层和输出层的神经元工作在饱和区域内 。
利用限制隐含层传输函数导数的正则化神经网络具有很好的
泛化能力 。在用网络来解决一个问题时 ,要想使网络获得最低
的泛化误差 ,必须要求隐含层和输出层中各个节点具有不同
(mail_yangyang@163. com ) 摘 要 :为了获得重要的特征集合 ,提出了一种基于判别式分析算法和神经网络的特征选择方 法 。通过最小化扩展互熵误差函数来训练神经网络 ,这一误差函数的使用减小了神经网络传输函数 的导数 ,降低了输出敏感度 。该方法首先利用判别式分析算法得到一个有序的特征队列 ,然后通过正 则化神经网络进行特征的选择 ,特征选择过程是基于单个特征的移除带来验证数据集上分类误差变 化这一原理 。与其他基于不同原理的四种方法进行了比较 ,实验结果表明 ,利用该算法训练的网络能 够获得较高分类准确率 。 关键词 :特征选择 ;神经网络 ;判别式分析 ;正则化 ;分类 中图分类号 : TP18 文献标识码 : A
-
trX / i ( Sb ) trX / i ( Sw )
可以从理论上证明 : J i ( X ) 的值越大 , 所对应的第 i个特
征的重要性程度就越大 。于是按照 J i ( X ) 值的大小 ,将 Q个特
征从小到大排列成一个有序的队列 。
1. 2 正则化 B P神经网络 本文使用的是一个三层前馈型的神经网络 。( x1 , x2 , …,
第 26卷第 2期 2006年 2月
计算机应用 Computer App lications
Vol. 26 No. 2 Feb. 2006
文章编号 : 1001 - 9081 (2006) 02 - 0433 - 03
基于判别式分析和神经网络的特征选择方法
武 妍 ,杨 洋 (同济大学 计算机科学与技术系 , 上海 200092)
其中 NNFS方法采用最小化扩展互熵误差函数来训练网 络 ,使得连接重要特征的权和无用特征的权在数值上存在很 大的差别 。该方法采用正则化神经网络 ,在训练中使用了互 熵误差函数 ,并添加了权值衰退项和网络中非零输入权值的 总数估计项作为正则化项 。权值衰退算法总是试图得到较小
的权值 ,通常会导致较小的神经元输入和较大的 sigmoid 导 数 ,这也加大了输出相对于输入的敏感度 。从表 1、2 和 3 中 NNFS所对应的数据 ,可以发现利用所有特征所得到的测试 集上的准确率和利用选择的特征所得到的准确率相差很大 , 这正是由于较高敏感度所带来的弊端 。基于权值的特征显著 性估量方法都是以这样一个理论为基础的 :连接重要特征的 权值会达到绝对大 ,而连接无用特征的权值比较小 ,在一些地 方可能会接近 0。 SNR方法是一种基于权值的特征显著性估 量方法 ,该方法首先取一个噪音特征作为参考 ,采用一个特征 显著性量度估计公式将所有特征排列成一个有序的特征队 列 ,然后通过神经网络来筛选特征 。 FQ I方法首先利用多层 感知机学习一个数据集 ,计算出每一个特征对应的特征品质 指数 ( the Feature Quality Index) ,根据所得到的数值大小将特 征按照顺序排列 ,再通过神经网络来选择重要特征 。OFE I方 法利 用 了 一 个 特 征 全 面 评 估 指 数 ( the Overall Feature Evaluation Index)来排列所有特征 ,最后利用神经网络选择符 合要求的显著特征集 。
j=1
利用矩阵 Sw 和 Sb 可定义一个用于特征排列的判别函数
J i ( X ) ,其中 X 表示判别函数对数据集的依赖 , trX / i (Sb ) 为矩
阵 Sb 的迹与对角线上第 i个元素的差 , trX / i ( Sw ) 为矩阵 Sw 的
迹与对角线上第 i个元素的差 。
Ji (X)
= tr(Sb ) tr( Sw )
Abstract: A new app roach for feature selection based on discrim inant analysis and regularization neural network was p roposed. The neural network was trained by m inim izing an augmented cross2entropy error function. The augmented error function forces the neural network to keep low derivatives of the transfer functions of neurons when learning a classification task. Such an app roach reduced output sensitivity to the input changes. Firstly a feature queue in order could be obtained by using discrim inant analysis based feature ranking. Feature selection was based on the reaction of the cross2validation data set classification error due to the removal of the individual features. The app roach p roposed was compared w ith four other feature selection methods, each of which banks on a different concep t. The algorithm p roposed outperform s the other methods by achieving higher classification accuracy on all the p roblem s tested.
相关文档
最新文档