探究变量选择的常见方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019 年 3 月
探究变量选择的常见方法
鄂 琳(南京市天印高级中学,江苏省 南京市 211100)
论述 205
【摘 要】变量选择是统计建模的重要环节,选择合适的变量可以对数据进行更有效的分析,从而建立更准确的模型。本文主要介绍几种变量
选择的常见方法包括主成分回归、偏最小二乘方法、AIC 准则以及 BIC 准则,同时分类比较不同方法的统计共性和优缺点,明确不同方法适合
BIC 准则又称贝叶斯信息准则袁 由 Schwarz 于 1978 年提
出遥 BIC 与 AIC 相似袁增加模型复杂度袁会增大似然函数袁但是
也会导致出现过拟合的问题遥 不同的是袁虽然都引入了与模型
参数个数相关的惩罚项袁 但 BIC 准则的惩罚项要比 AIC 准则
大袁这里不仅考虑了模型的参数个数袁同时还考虑了样本的数
主成分分析与主成分回归有相似之处袁 同时也有差异之 处遥 主成分分析重在提取自变量的信息袁而主成分回归以回归 为目的袁重在于选取主成分数目建立回归模型遥
2.2 偏最小二乘
偏最小二乘回归是一种多对多线性回归建模的方法遥 偏 最小二乘法在建模过程中能够体现主成分回归的部分特点遥 这种方法先构建与因变量相关性很高的主成分袁 然后建立二 者之间的回归模型袁再根据模型转换变量关系表达式袁得出与 原自变量相关的回归方程式遥
的惩罚项就会变得很小袁从而使整体数值变小袁给出一个不是
206 论述
直升机数据链组网技术综述
开始缓慢增加袁这变化最终会使得 AIC 增大遥 故当模型参数
个数过多时袁模型过于复杂便容易造成过度拟合的现象遥 因此袁
通常将使得 AIC 表达式的值达到最小的模型视为最佳模型袁
这种情况下袁不仅使模型拟合度提高袁精度提高袁而且引入惩
罚项袁控制模型参数的个数不会过多袁降低过拟合的可能性遥
3.2 BIC 准则
第二章主要介绍基于变量降维的模型选择方法袁2.1 节介 绍主成分回归袁2.2 介绍偏最小二乘法袁 并与主成分回归法进 行比较遥 第三章主要介绍子集选择法袁3.1 节介绍 AIC 准则袁 3.2 介绍 BIC 并与 AIC 进行比较遥最后第四章进行总结及对未 来研究的展望遥
2 基于变量降维的模型选择方法
也增加了模型的复杂度遥 因此袁模型选择就需要在模型的精度
和复杂度之间寻求一个最佳平衡点遥 针对此类问题袁很多信息
准则相继被提出袁思想是在提高精度的同时袁通过增加惩罚项
来避免模型过度拟合遥 下面介绍两种常用的模型选择方法[3]院
3.1 AIC 准则
AIC 准则又称赤池信息准则袁1974 年由日本统计学家赤
的条件。最终本文归纳研究内容,并研究的最新发展方向和所面临的挑战。
【关键词】变量选择;主成分回归;偏最小二乘;AIC 准则;BIC 准则
【中图分类号】O212.1
【文献标识码】A
【文章编号】1006-4222(2019)03-0205-02
1 引言
变量选择在建立统计模型中起着至关重要的作用遥 模型 选择的维度有很多遥 要达到变量降维的目的袁当模型中自变量 存在多重线性关系时袁便引入了主成分回归袁主成分回归可以 有效避免信息的冗杂性袁最大限度地降低共线性袁增加信息的 可信度遥 若要将因变量和自变量的关系体现在模型中时袁便需 要使用偏最小二乘法袁 在挑选主成分的同时考虑因变量对潜 变量的影响遥 从子集选择的角度出发袁进行模型选择通常按照 似然函数的标准进行遥 这其中提出 AIC袁BIC 准则来衡量和约 束模型选择袁在模型复杂度和模型精度间得到平衡遥 本文是基 于这两方面对变量选择的几种常见方法进行介绍袁 并比较了 其中的共性和差异性遥
池弘次提出遥 这种信息准则用来衡量统计模型的复杂度和拟
合精度的优良性遥 AIC 准则的通常定义如下院
AIC=2k-2ln渊L冤
其中 k 为模型的参数个数袁可代表模型复杂度曰L 则是似
然函数遥 当模型参数个数 k 增大时袁模型复杂度变高袁似然函
数 L 也会随之增大袁 从而导致 AIC 变小遥 但是当 k 过大时袁L
量遥 样本数量过少时袁BIC 准则可有效防止因模型精度过高而造
成的模型复杂度过高的可能遥 通常 BIC 准则的表达式定义为:
BIC=kln渊n冤-2ln渊L冤
渊1冤
其中 k 同样是模型参数个数袁代表模型复杂度遥 n 代表样
本数量袁L 是似然函数遥 从式渊1冤中可以看出袁当自变量维数过
大时袁 模型的参数个数也会很大袁 若此时样本数据很少袁BIC
关性袁而观测数据的数量又较少时袁用偏最小二乘建立回归模
型较好遥 此外袁当降维的目的在于提高模型的精确度数时袁偏
最小二乘法也更合适遥 但偏最小二乘的权重不同是响应变量
和自变量的线性关系袁计算难度较大[2]遥
3 子集选择法
很多参数估计在选取目标函数的时候袁 通常都会考虑似
然函数遥 当数据足够多时袁可以不断提高模型的精度袁但同时
2.1 主成分回归
主成分分析是一种变量降维技术袁 将多个具有较强相关 性的实测变量综合成少量综合变量袁 即在数据丢失最少的情 况下袁 利用正交旋转变化将多个相关的数据转化为几个互不 相关的综合指标遥 对数据中的信息起到了浓缩作用袁简化了模 型选择问题袁提高了分析效率[1]遥
主成分回归是将主成分分析和回归分析相结合袁 根据需 要选择前几个主成分进行建模的方法遥 当自变量间存在明显 共线性时袁回归方程的结果可能出现无法解释的问题遥 主成分 回归的优势就在于主成分之间没有相关性袁 避免了出现共线 性的问题袁 也避免了在研究复杂问题时信息重叠所带来的虚 假性遥 主成分回归是指用原变量的主成分代替原自变量做回 归分析袁将具有相关性的原变量进行线性组合遥 因此当自变量 存在共线性时袁可以选取主成分回归来建立模型遥 此外袁选择 少量的主成分拟合模型袁具有更高的预测精度遥
偏最小二乘方法与主成分回归法有共同的地方遥 二者都
是采用选取主成分来替代原有的自变量袁 从而达到变量降维
的目的遥
与此同时袁偏最小二乘和主成分回归之间有各有差异遥 偏
最小二乘选取主成分要参考其与响应变量之间的相关性袁而
主成分分析则不需要响应变量的信息袁 只需要找到累计贡献
率最大的线性组合遥 当两种变量的个数较多袁且都存在多重相
探究变量选择的常见方法
鄂 琳(南京市天印高级中学,江苏省 南京市 211100)
论述 205
【摘 要】变量选择是统计建模的重要环节,选择合适的变量可以对数据进行更有效的分析,从而建立更准确的模型。本文主要介绍几种变量
选择的常见方法包括主成分回归、偏最小二乘方法、AIC 准则以及 BIC 准则,同时分类比较不同方法的统计共性和优缺点,明确不同方法适合
BIC 准则又称贝叶斯信息准则袁 由 Schwarz 于 1978 年提
出遥 BIC 与 AIC 相似袁增加模型复杂度袁会增大似然函数袁但是
也会导致出现过拟合的问题遥 不同的是袁虽然都引入了与模型
参数个数相关的惩罚项袁 但 BIC 准则的惩罚项要比 AIC 准则
大袁这里不仅考虑了模型的参数个数袁同时还考虑了样本的数
主成分分析与主成分回归有相似之处袁 同时也有差异之 处遥 主成分分析重在提取自变量的信息袁而主成分回归以回归 为目的袁重在于选取主成分数目建立回归模型遥
2.2 偏最小二乘
偏最小二乘回归是一种多对多线性回归建模的方法遥 偏 最小二乘法在建模过程中能够体现主成分回归的部分特点遥 这种方法先构建与因变量相关性很高的主成分袁 然后建立二 者之间的回归模型袁再根据模型转换变量关系表达式袁得出与 原自变量相关的回归方程式遥
的惩罚项就会变得很小袁从而使整体数值变小袁给出一个不是
206 论述
直升机数据链组网技术综述
开始缓慢增加袁这变化最终会使得 AIC 增大遥 故当模型参数
个数过多时袁模型过于复杂便容易造成过度拟合的现象遥 因此袁
通常将使得 AIC 表达式的值达到最小的模型视为最佳模型袁
这种情况下袁不仅使模型拟合度提高袁精度提高袁而且引入惩
罚项袁控制模型参数的个数不会过多袁降低过拟合的可能性遥
3.2 BIC 准则
第二章主要介绍基于变量降维的模型选择方法袁2.1 节介 绍主成分回归袁2.2 介绍偏最小二乘法袁 并与主成分回归法进 行比较遥 第三章主要介绍子集选择法袁3.1 节介绍 AIC 准则袁 3.2 介绍 BIC 并与 AIC 进行比较遥最后第四章进行总结及对未 来研究的展望遥
2 基于变量降维的模型选择方法
也增加了模型的复杂度遥 因此袁模型选择就需要在模型的精度
和复杂度之间寻求一个最佳平衡点遥 针对此类问题袁很多信息
准则相继被提出袁思想是在提高精度的同时袁通过增加惩罚项
来避免模型过度拟合遥 下面介绍两种常用的模型选择方法[3]院
3.1 AIC 准则
AIC 准则又称赤池信息准则袁1974 年由日本统计学家赤
的条件。最终本文归纳研究内容,并研究的最新发展方向和所面临的挑战。
【关键词】变量选择;主成分回归;偏最小二乘;AIC 准则;BIC 准则
【中图分类号】O212.1
【文献标识码】A
【文章编号】1006-4222(2019)03-0205-02
1 引言
变量选择在建立统计模型中起着至关重要的作用遥 模型 选择的维度有很多遥 要达到变量降维的目的袁当模型中自变量 存在多重线性关系时袁便引入了主成分回归袁主成分回归可以 有效避免信息的冗杂性袁最大限度地降低共线性袁增加信息的 可信度遥 若要将因变量和自变量的关系体现在模型中时袁便需 要使用偏最小二乘法袁 在挑选主成分的同时考虑因变量对潜 变量的影响遥 从子集选择的角度出发袁进行模型选择通常按照 似然函数的标准进行遥 这其中提出 AIC袁BIC 准则来衡量和约 束模型选择袁在模型复杂度和模型精度间得到平衡遥 本文是基 于这两方面对变量选择的几种常见方法进行介绍袁 并比较了 其中的共性和差异性遥
池弘次提出遥 这种信息准则用来衡量统计模型的复杂度和拟
合精度的优良性遥 AIC 准则的通常定义如下院
AIC=2k-2ln渊L冤
其中 k 为模型的参数个数袁可代表模型复杂度曰L 则是似
然函数遥 当模型参数个数 k 增大时袁模型复杂度变高袁似然函
数 L 也会随之增大袁 从而导致 AIC 变小遥 但是当 k 过大时袁L
量遥 样本数量过少时袁BIC 准则可有效防止因模型精度过高而造
成的模型复杂度过高的可能遥 通常 BIC 准则的表达式定义为:
BIC=kln渊n冤-2ln渊L冤
渊1冤
其中 k 同样是模型参数个数袁代表模型复杂度遥 n 代表样
本数量袁L 是似然函数遥 从式渊1冤中可以看出袁当自变量维数过
大时袁 模型的参数个数也会很大袁 若此时样本数据很少袁BIC
关性袁而观测数据的数量又较少时袁用偏最小二乘建立回归模
型较好遥 此外袁当降维的目的在于提高模型的精确度数时袁偏
最小二乘法也更合适遥 但偏最小二乘的权重不同是响应变量
和自变量的线性关系袁计算难度较大[2]遥
3 子集选择法
很多参数估计在选取目标函数的时候袁 通常都会考虑似
然函数遥 当数据足够多时袁可以不断提高模型的精度袁但同时
2.1 主成分回归
主成分分析是一种变量降维技术袁 将多个具有较强相关 性的实测变量综合成少量综合变量袁 即在数据丢失最少的情 况下袁 利用正交旋转变化将多个相关的数据转化为几个互不 相关的综合指标遥 对数据中的信息起到了浓缩作用袁简化了模 型选择问题袁提高了分析效率[1]遥
主成分回归是将主成分分析和回归分析相结合袁 根据需 要选择前几个主成分进行建模的方法遥 当自变量间存在明显 共线性时袁回归方程的结果可能出现无法解释的问题遥 主成分 回归的优势就在于主成分之间没有相关性袁 避免了出现共线 性的问题袁 也避免了在研究复杂问题时信息重叠所带来的虚 假性遥 主成分回归是指用原变量的主成分代替原自变量做回 归分析袁将具有相关性的原变量进行线性组合遥 因此当自变量 存在共线性时袁可以选取主成分回归来建立模型遥 此外袁选择 少量的主成分拟合模型袁具有更高的预测精度遥
偏最小二乘方法与主成分回归法有共同的地方遥 二者都
是采用选取主成分来替代原有的自变量袁 从而达到变量降维
的目的遥
与此同时袁偏最小二乘和主成分回归之间有各有差异遥 偏
最小二乘选取主成分要参考其与响应变量之间的相关性袁而
主成分分析则不需要响应变量的信息袁 只需要找到累计贡献
率最大的线性组合遥 当两种变量的个数较多袁且都存在多重相