基于特征相关的偏最小二乘特征选择方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
是为了解决 wrapper在处理不同数据集时分类模型需要重构 代价高等问题[6]。它 将 特 征 选 择 与 分 类 模 型 的 学 习 过 程 结 合,有着高效的时空性能及较好的分类精度。
偏最小二乘法 (partialleastsquare,PLS)在 自 变 量 间 存 在 较高相关性时,提出了一种多因变量对多因变量的回归建模方 法,可以有效地 解 决 多 重 共 线 性 问 题 [7],基 于 这 种 优 势,李 建 更等人[8]提出了基于逐步提取偏最小二乘主成分的特征选择 方法,通过重复利用偏最小二乘提取主成分来选择权重较大的 基因;李胜等人 [9]提 出 了 改 进 的 量 子 遗 传 偏 最 小 二 乘 特 征 选 择方法,该算法通过赋予种群初始值设计了一种新的适应度函 数,结合偏最小 二 乘 法 进 行 特 征 选 择;Nguyen等 人[10]以 偏 最 小二乘算 法 作 为 特 征 降 维 方 法,采 用 线 性 判 别 分 析 (logistic discrimination,LD)和 二 次 线 性 判 别 分 析 (quadraticdiscriminaΒιβλιοθήκη Baidu tionanalysis,QDA)算法构建分类器,用于对数据进行分类。
摘 要:针对传统的偏最小二乘法只考虑单特征的重要性以及特征之间存在冗余和多重共线性等问题,将特征 之间的统计相关性引入到传统的偏最小二乘分析中,构造了一种基于特征相关的偏最小二乘模型。首先利用特 征相关度对特征进行评估预选出特征组;然后将其放入偏最小二乘模型中进行训练,评估该特征组是否可取。结 合前向贪心搜索策略依次评价候选特征,并选中使目标函数最小的候选特征加入到已选特征。分别采用麻杏石甘 汤君药止咳、平喘和 UCI数据集进行分析处理。实验结果表明,该特征选择方法能较好地寻找较优的特征组。 关键词:中医药信息;偏最小二乘法;特征相关;特征选择 中图分类号:TP391 文献标志码:A 文章编号:10013695(2019)04017103603 doi:10.19734/j.issn.10013695.2017.10.0970
特征选择是指在原始特征空间中选择能让给定任务的评 价准则达到最优的特征子集的过程,是模式识别、机器学习等 领域中数据预处理的关键步骤之一 。 [1,2] 其主要目的是在不 显著降低分类精度的情况下选择一个最优的特征子集,并且移 除不相关或冗余的特征,使留下的特征具有更强的分辨率[3]。 其中评价准则是特征选择算法中的关键步骤,包括距离度量、 信息度量、依赖性度量以及一致性度量。在数据挖掘中,基于 评价准 则 特 征 选 择 可 分 为 filter(筛 选 法)[4]、wrapper(封 装 法)[5]以及 embedded(嵌入式)三类。Filter需要评价特征相关 性的评分函数和阈值判别法来选择出得分最高的特征子集。 其训练 速 度 快,但 评 估 与 后 续 学 习 算 法 的 性 能 偏 差 较 大。 Wrapper利用后续学习算法的训练准确率来评估特 征 子 集。 其偏差小、计算量大,不适合大数据集。Embedded的出现主要
第 36卷第 4期 2019年 4月
计算机应用研究 ApplicationResearchofComputers
Vol36No4 Apr.2019
基于特征相关的偏最小二乘特征选择方法
曾青霞a,杜建强a,朱志鹏a,聂 斌a,余日跃b,喻 芳a
(江西中医药大学 a.计算机学院;b.药学院,南昌 330004)
0 引言
随着科学的发 展,数 据 挖 掘 领 域 需 处 理 的 对 象 越 来 越 复 杂,其数据维 度 也 在 急 剧 增 加。较 高 的 维 数 容 易 引 发 维 数 灾 难,随着维数的增加,计算复杂度显著提高而分类器的性能急 剧下降。因此,必须对数据进行特征降维。特征降维有特征选 择和特征提取两种方式。
Abstract:Thetraditionalpartialleastsquaresmethodonlyconsiderstheimportanceofsinglefeaturesanditexistestheredun dancyandmulticollinearityamongthefeatures.Thispaperinvolvedthestatisticalcorrelationbetweenfeaturesintothe traditionalpartialleastsquaresanalysis,andconstructedthemodelofPLSfeatureselectionbasedonfeaturecorrelation.First ly,thispaperpreselectedthefeaturegroupbyusingofthefeaturerelevance,andthenputintothepartialleastsquaresmodel fortrainingtoassesswhetherthefeaturegroupwasdesirable.Combiningwiththegreedysearchstrategy,itevaluatedthecandi datefeaturesonebyone,andaddedthecandidatefeatureswiththesmallestobjectivefunctiontotheselectedfeatures.Respec tively,usingthedataofthemaxingshigandecoctionofthemonarchdrugtotreattheasthmaorcoughandUCIdatasetstoana lyze.Theexperimentalresultsshowthatthefeatureselectionmethodcanfindanoptimalfeaturegroup. Keywords:TCM information;partialleastsquares(PLS);featurecorrelation;featureselection
PLSfeatureselectionmethodbasedonfeaturecorrelation
ZengQingxiaa,DuJianqianga,ZhuZhipenga,NieBina,YuRiyueb,YuFanga
(a.CollegeofComputerScience,b.SchoolofPharmacy,JiangxiUniversityofTraditionalChineseMedicine,Nanchang330004,China)