【高级】第5章 数据处理(5.2 特征工程)V1.0
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
L1范数正则化和 L范2 数正则化都有助于降低过拟合风险,而且前者比后者更容易获得“稀 疏解”,即前者求得的 会有w更少的非零分量。
第21页
特征选择——稀疏表示与字典学习
稀疏表示
• “稀疏性”可以理解为在数据集中存在很多的0元素,这些0元素并不是以整行 或整列的形式存在。
• 当数据集具有这样的稀疏表达形式时,对学习任务会有很多好处,如线性支持
第7页
特征选择——过滤式选择
过滤式选择先对数据集进行特征选择,然后对学习器进行训练,特征的选择与后 续学习器无关。
Relief是一种著名的过滤式特征选择方法,该方法设计了一个“相关统计量”来度 量特征的重要性,该统计量是一个向量,其每个分量分别对应一个初始特征,其 重要性取决于相关统计量分量之和。
第15页
特征选择——包裹式选择
LVW算法过程
否
特征集A
误差相等
提取子集 误差更大
误差是否更小
特征数是否更少
误差更小 是
保留子集
第16页
子集A1
交叉验证
特征选择——包裹式选择
RFE算法
RFE算法即递归特征消除法,该方法首先要设定一个特征保留个数,然后选择一个基模型对 特征集合进行多轮训练,每轮训练后移除若干权值系数的特征,再基于新的特征子集合进 行训练,直至特征个数达到预设值,
第23页
特征选择——稀疏表示与字典学习
以文档分类任务为例
每一个文档看作一个样本,每个字或词作为一个特征,字或词在文档中出现的频率作为特 征取值,如果文档中文字全部是汉字,那么通过《康熙字典》和《现代汉语常用字表》得 到的数据集是不同的。
给定文档以后,有很多的字或词是不会出现在该文档中的,于是数据集中每一行都会出现 大量的0元素,而且对于不同的文档,0元素出现的列往往差异很大。
δ j
diff
xij
,
xj i,nh
2
diff
xij
,
xj i,nm
2
i
(17)
在式(17)中,xaj表示样本 x在a 属性 上j 的取值, diff xaj取, x决bj 于属性 的类j型,如果属性
为离散型j ,则
时 xaj = xbj为0d,iff否则xaj 为, xb1j ;如果 为连续型,则 j
向量机之所以能在文本数据上有很好的性能,恰恰是因为文本数据在使用字频
表示后具有高度的稀疏性,使大多数的问题变得线性可分,同时稀疏样本不会
第22页
造成存储上的巨大负担。
特征选择——稀疏表示与字典学习
特征选择所考虑的问题是特征是否具有“稀疏性”,即数据中的许多列与当前的学习任 务无关。
通过特征选择去除这些列,此时学习器在训练的过程中仅需要在较小的数据集上进行, 学习任务的难度可能会有所降低,涉及的计算和存储开销会减少,学得模型的可解释性 也会提高。
第25页
特征选择——稀疏表示与字典学习
字典学习
• 在一般的学习任务中,并没有《现代汉语常用字表》可以利用,需要学习得到 一个类似作用的“字典”。为普通稠密表达的样本找到合适的“字典”,将样 本转化为合适的稀疏表达形式,从而使学习任务得以简化,模型复杂度得以降 低,通常将这一过程称之为“字典学习”,也可以称为“稀疏编码”。
diff xaj , xbj xaj,需x要bj 注意的是 和 已xaj规范x化bj 到区间[0,1]内。
第9页
特征选择——过滤式选择
除了Relief方法以外,其他较为常用的过滤式选择法
方差选择法 相关系数法 卡方检验 互信息法 ……
方差选择法和相关系数法主要用于数值型连续型特征的选择,常用于有监督学习 中的回归问题。
x 。考虑d ,简y 单 线性回归模型,以平
方误差为损失函数,优化目标函数如式(18)所示。
m
min ( yi wT xi )2 w i 1
(18)
当原始特征数量过多,而样本数目相对较少时,式(18)容易陷入过拟合,在式(18) 中引入正则化项可以缓解这一问题,如 L1范数正则化、L范2 数正则化。
第8页
特征选择——过滤式选择
Relief方法的关键是如何确定衡量特征重要性的统计量,给定训练集
{( x1 , y1), ( x2 , y2 ), , (,xm对, 于ym每)}一个样本 ,Relief方xi 法先在 同类样本x中i 寻找其最近
邻 ,称为x“i,nh猜中近邻”,再从 的异类样本xi 中寻找其最近邻 ,称为“x猜i,nm错近邻”, 相关统计量对应于属性 的分量如式(17j)所示。
• 该方法主要涉及如何生成候选子集和如何评价候选子集的好坏两个关键环节。
第4页
特征选择——子集搜索与评价
生成候选子集可以使用贪心算法,主要有3种策略
前向搜索; 前后搜索; 双向搜索。
第5页
特征选择——子集搜索与评价
前向搜索
初始将每个特征作为一个候选子集,然后从当前所有候选子集中选择出最佳的特征子集; 接着在上一轮中选出的特征子集中添加一个新的特征,同样选出最佳特征子集,直至选不
在进行样本数据分析时,有时涉及的变量或数据组属性较多,这增加了数据分析 的复杂性。降维处理是一种行之有效的降低数据分析的复杂性手段。
降维处理的核心思想是,通过原来变量组或数据组属性的线性或非线性重构达到 简化数据分析的目的。
第28页
特征降维——线性映射
线性映射根据样本集构造出线性函数完成高维空间向低维空间的映射。 常见的线性映射降维的方法有PCA和LDA。
卡方检验和互信息法主要用于分类变量的筛选,常用于分类问题。
第10页
特征选择——过滤式选择
方差选择法
• 该方法利用方差这一统计指标进行特征选择,特征对应的方差越小,意味着该特征的识 别能力越差,极端情况下,特征对应的方差值为0,此时意味着该特征在所有样本上面都 是一个值。
相关系数法
• 该方法利用相关系数这一统计指标进行特征选择,计算各特征与目标特征的相关系数和 相关系数的P值,然后选择出K个最好的特征。
a pp x p
a
T p
x
,,y p主)T成分向量 与原y始向量 的关系x 为
,y其 T中T x
(22)
T
(t1, t2 , 。, t p )
第31页
特征降维——线性映射
p
p
第 i 主成分 y在i 总方差 中i 的比例 i / 称为i 主成分 的贡y献i 率。
第20页
特征选择——嵌入式选择
如果使用 范数正则化,优化目标函数可以转化如式(20)所示。
minm
( yi
wT xi )2
λ
2
w 2
w i =1
(20)
2
在式(20)中,λ w 为2
范L2 数正则化项,表示权值向量
中w各个元素的平方。正则化参
数 λ > ,0 需要用户指定,此时优化目标函数称为“岭回归”。
第12页
特征选择——包裹式选择
包裹式选择在选择特征的同时,将后续的学习器作为特征选择的评价准则。 包裹式选择根据目标函数,每次选择若干特征,或者排除若干特征。这一方法的
核心思想是基于某一种模型,并给定模型评价方法,针对特征空间中的不同特征 子集,计算子集的预测效果,预测效果最好的就是最优特征子集。 包裹式选择可以看作是为某种学习器量身定做的特征选择方法,由于在每一轮迭 代中都需要训练学习器,因此在获得较好性能的同时也产生了较大的开销。
第5章 数据处理
第0页
目录
1. 数据预处理 2. 特征工程
第1页
特征工程
为了使构建的模型尽可能的逼近最优,需要在建模前对特征进行处理。特征工程是使用 专业背景知识和技巧处理数据,使得特征能在算法上发挥更好的作用的过程。
特征工程的步骤包含特征选择、特征降维和特征构造等。
第2页
特征选择
特征选择也称特征子集选择,是从原始特征中选择出一些最有效特征以降低数据 集维度的过程,是提高算法性能的一个重要手段。
设 x (x1, x2 , ,为x p一)T个 维随p机向量,并假定二阶矩阵存在,记均值向量为
,μ 协E方 x
差矩阵为 Σ, V进行x式(22)所示的线性变换。
记 y ( y1, y2 ,
y1
a11x1
a21x2
y2
a12 x1
a22 x2
y
p
a1p x1
a2 p x2
a p1x p a1T x a p2 x p a2T x
第29页
特征降维——线性映射
PCA
• 主成分分析(Principal Component Analysis,PCA)是一种通过降维技术把多个变量化为几个 新的综合变量的统计分析方法。
• 新的综合变量是原始变量的线性组合,能够反映原始变量的绝大部分信息,且新变量之间互 不相关。
第30页
特征降维——线性映射
特征选择能够剔除不相关或者冗余的特征,从而达到减少特征个数、提高模型精 确度、减少运行时间的目的。
第3页
特征选择——子集搜索与评价
子集搜索法
• 子集搜索法在原始特征中选择出最优的特征子集,避免了特征过多时遇到指数 爆炸问题,该方法在选择特征时采取从候选特征子集中不断迭代生成更优候选 子集的方法,使得时间复杂度大大减小。
第24页
特征选择——稀疏表示与字典学习
文档分类的稀疏矩阵
文档
机器学习是人工智能的一个重要分 支,
阿 啊 … 机器 学习 是 人工 智 能 的 一个 重要 分支 … 0 0…1 1 1 1 1 1 1 1 1 1 …
阿 啊 … 机器 学习 是 人工 智能 的 一个 重要 分支 … 0 0…1 1 1 1 1 1 1 1 1 …
第17页
特征选择——包裹式选择
RFE算法过程
原始特征集合
基模型训练
否
特征个数是否达到预设值
第18页
是Biblioteka Baidu
输出子集合
新特征子集合
特征选择——嵌入式选择
与包裹式选择使用学习器作为特征选择的评价准则不同,嵌入式选择将特征选择的过程与学习器 的训练过程融为一体
给定数据集 D {( x1 , y1), ( x2 , y2 ), ,,( x其m ,中ym )}
的稀xi疏表示d。
min m
2
m
xi Bαi 2 λ αi 1
B ,αi i 1
i 1
(21)
d为k 字典矩阵, 为k字典的词汇量,通常由用户指定, αi 是样k本
m
是m希in望
x能i 够Bα很i 22好的重构αi ,
B ,αi i 1
m
则是希望x尽i 量λ稀α疏i 1。 i 1
αi
第27页
特征降维
第19页
特征选择——嵌入式选择
L1范数正则化和 L范2 数正则化可以看作是损失函数的惩罚项,用于对损失函数中的某些参 数做一些限制。
如果使用 L1范数正则化,优化目标函数可以转化如式(19)所示。
m
min (yi
wT xi )2
λ
w 1
w i 1
(19)
在式(19)中,λ w为 范L1 数正则化项,表示权值向量 中w各个元素的绝对值之和。正则化 1 参数 λ ,> 需0 要用户指定,此时优化目标函数称为LASSO。
第13页
特征选择——包裹式选择
较为经典的包裹式选择方法
LVW算法; RFE算法。
第14页
特征选择——包裹式选择
LVW算法
该方法基于拉斯维加斯方法的框架,假设数据集为D,特征集为A,则LVW每次从特征集A中 随机产生一个特征子集A1,然后使用交叉验证的方法估计学习器在特征子集A1上的误差。
若该误差小于之前获得的最小误差,或者与之前的误差相等但特征子集A1中包含的特征数 更少,则将A1保留。
• “字典学习”侧重于学得“字典”的过程,“稀疏编码”更侧重于对样本进行
稀疏表达的过程,由于两者通常是在同一优化求解过程中完成,因此可以将两
第26页
者笼统的称为“字典学习”。
特征选择——稀疏表示与字典学习
给定数据集 {x1, x2 , ,,xm“} 字典学习”的最简单形式如式(21)所示。
在式(21)中,B
第11页
特征选择——过滤式选择
卡方检验
• 该方法使用统计量卡方检验值作为特征评分标准,卡方检验值越大,相关性越强。 •卡方检验值是评价定性自变量对定性因变量相关性的统计量。
互信息法
• 该方法使用互信息作为特征评分标准,互信息指两个事件集合之间的相关性,互信息作 为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。
出比上一轮更好的特征子集。
后向搜索
初始将所有特征作为一个候选特征子集; 接着尝试去除上一轮特征子集中一个特征并选出当前最优特征子集,直至选不出比上一轮
更好的特征子集。
第6页
特征选择——子集搜索与评价
双向搜索
将前向搜索和后向搜索结合起来,即在每一轮中都有添加操作和剔除操作。
在选择候选子集时,可以利用信息增益对特征子集的好坏进行评价,值得注意的是信息 增益越大越有助于分类。