指标筛选技术在神经网络数据挖掘中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
指标筛选技术在神经网络数据挖掘模型中的应用
摘要
在简要介绍神经网络基本原理的基础上,以分类神经网络中的RBF 网络为例,讨论了神经网络数据挖掘模型中指标筛选的重要性,并以信用卡欺诈检测神经网络数据挖掘模型为实证案例,演示了指标筛选方法能有效地提高神经网络模型的分类效率与收敛速度,同时,讨论如何针对数据挖掘主题与数据特点选择合适的指标筛选技术。常用的指标筛选技术有相关分析、回归分析、信息增益、模糊集与主成分法等,本文重点介绍了基于回归分析的指标筛选与基于信息增益的指标筛选,目的在于通过引入指标筛选技术,提高神经网络数据挖掘模型的准确率、响应速度与减少资源占用等。
关键词:数据挖掘、神经网络、指标筛选、信息增益
1. 引言
根据Universal Approximation Theore,即神经网络具有对任何复杂函数的模拟逼近功能,这为神经网大规模应用提供了强有力的理论依据。由于神经网络是基于生物神经网络的模拟,通过不断学习来认识事物潜在的规律。同时,由于神经网络没有对数据分布进行相应的假设,这使神经网络在各行业中的应用具有广泛的适用性。另一方面,由于没有对数据分布进行假定,使神经网络对噪声数据具有相当的柔性,这进一步使人们在面对高维空间与海量数据时,更偏向于采用基于生物模拟的神经网络,而非基于传统的统计分析与计量方法,如多元统计分析等。但是,神经网络的柔性与通用逼近性在实践中有时并未给研究分析带来理想的效果,其根本原因在于,直接导入高维空间数据致使神经网络的效率急剧下降,也使得神经网络很难满足实时响应的要求,如实时欺诈监控、实时风险评级、工业实时控制等。
因此,本文针对神经网络的应用,提出了高维空间的预处理,即指标筛选。文章安排具体如下,首先介绍了神经网络的基本原理;其次,介绍几种指标筛选方法,并进行比较,重点讨论信息增益方法在指标选择中的优势;
再次,根据一银行信用卡欺诈数据集,演示了指标筛选技术在神经网络中的作用,同时比较了不同指标筛选技术的效率;最后,总结了指标筛选技术在神经网络模型中应用要点。
2. 神经网络的基本原理
人工神经网络(Neural Networks)是对生物神经网络进行仿真研究的结果。它通过采集样本数据进行学习的方法来建立数据模型,系统通过样本不断学习,在此基础上建立计算模型,从而建立神经网络结构[2]。神经网络通过训练后可以执行复杂函数的功能,能对所有函数进行逼近,Universal Approximation Theorem。这就是说,如果一个网络通过训练后呈收敛状态,那么神经网络就具备了执行输入到输出这种线性或非线性的函数功能。当然,这种函数不是基于理论或经验的假设,而是基于对样本的有监督的训练,使神经网络具备了模拟复杂系统的功能。根据数据挖掘主题的类型,神经网
络可分为分类神经网络(含预测)与聚类神经网络。本文实证分析部分采用神经网络中的RBF 网络,RBF 网络属于分类神经网络,其拓扑图与学习原理可参阅相应文献[3]。RBF 神经网络除了具有神经网络的相应优点外,还有两大缺陷,一是网络的训练时间较长,或需要高性机能计算机设备,当然,除非工业级的实时监控上的应用,对一般的经济分析而言,这点不足为虑。另一个不足是研究者不能得到一个基于样本训练出来的分类函数,也即不能对输入输出进行结构分析,这也是所有神经网络模型的一大缺憾。
3. 指标筛选技术
数据挖掘需要处理的是海量的数据集,且变量(或指标)非常多(一般都在50 个以上,称为高维空间),由于不知道相应的规则或模式,收集更多的样品指标以防止遗漏重要解释变量,但是这不等于把所的指标都应用数据挖掘建模,这样会严重影响建模的效率与对挖掘结果的解释,少量的指标有利于模型的结构解释。因此,在建模之前必须对指标进行筛选,以挑选出对目标变量或模式有重要影响的变量。
指标筛选即指标归约,是指用部分指标来代替原有的指标体系,即进行适当降维。降维的方法主要有两类,一是选择指标的子集来代替原有的指标体系,如相关分析、回归分析、信息增益与模糊集等。二是对原有指标进行变换,转化成新的综合性指标,如主成分分析。本文所述的指标筛选是子集的选择。指标选取的方法有多种,常用的是相关分析,基于Pearson 相关定理。由于相关分析在数据处理中应用较为普遍,本文不再赘述。关于基于模糊集的指标筛选技术,由于在常用的统计软件中得不到支持,故不作介绍。故本节重点介绍基于回归分析与信息增益的指标筛选方法。与相关分析不同,基于回归分析筛选方法试图从线性因果关系来说明各个自变量对因变量的影响程度与方向。基于信息增益的指标筛选方法与上述两种方法完全不同。信息增益方法源于熵理论,即热力学第二定律,目前在社会学科、管理科学以及空间科学上取得了相当多的成功应用,其基本思想是以指标的信息含量来评价指标的重性,进而筛选指标。
3.1 基于回归分析的指标筛选原理
回归分析有线性与非线性之分。线性回归分析适用于取值范围不大的指标,以防止个别指标值对回归线产生较大的拉近作用,使回归线过分拟合异常值(或端点值)。回归分析指标筛选方法有:前进法(Forward)、后退法(Backward)以及步进法(Stepwise)。其基本原理如下:Forward 是在回归模型中逐步加入指标,直到没有满足一定显著性要求的指标为止。对已入选择的指标在有新的指标加入后,其显著性是否符合要求不再进行检测,即“只进不出”。显著性检测一般采用偏j F 检验。Backward 是先把所有的指标纳入到回归模型中,然后根据显著性水平,剔除显著性水平最低的指标(即T值绝对值最小的,且不显著性),再由剩下的指标重新拟合回归模型,并剔除T 值最小的指标,如此循环,直到所有指标都达到一定的显著性要求为止。Backward 最大的特点,也即缺点是对已剔除的指标不再有机会入选回归模型,即“只出不进”。
Stepwise 是Forward 与Backward 的结合,也是最为常的回归筛选指标的方法。其基本过程与Forward 类似,不同之处在于对已剔除的指标还有机会重新选入模型,即“有进有出”。最为关键的是分别对剔除与选入设定了