变量选择与lasso-logistic课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
11
X2,X4,X1已经在方程中,是否增加X3?
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
12
后退法基本思想
1.选定一个标准(P=0.2)
2.开始所有变量均在方程中 3.按自变量对y的贡献大小由小到大依次剔除变量 4.每剔除一个变量,则重新计算方程内各变量对y的贡献 5.直到方程内变量均达到入选标准,没有自变量可被剔除为止
对低于剔除标准的变量要逐一剔除,然后再考虑选变量。 (pe=0.15,pr=0.151,forward)
16
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
13
Hale Waihona Puke Baidu
全因素已经在方程中,是否删除X3?
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
17
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t

x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161

主成分回归 偏最小二乘回归
当变量数过多时,逐步 法要优于最优子集法
岭回归使模型变得稳定 LASSO使某些系数为0
产生新变量进行回归
4
逐步回归
5
逐步回归中建模的策略
• 建模过程应该从详细的各变量的单因素分析开始 • 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适
宜尺度,及自变量间的必要的一些变量变换 • 在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选 • 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项
14
X1,X2,X4在方程中,删除哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
15
逐步向前法
逐步向前法区别于前进法: 每选入一个变量,都要对已在模型中的变量进行检验,
6
逐步筛选
前进法 后退法 逐步回归
自动去除高度相关 变量
只考虑自变量进入 模型时是否有意义 考虑到自变量的组 合作用,选中的数 量一般比前进法多 自变量过多或者某 些高度相关,会导 致错误的结果
逐步向前
逐步向后
向后法不适用 与n<p的情况
7
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量(常数项除外)
10
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
x1
0.4742083
0.0263443 18.00

x2
2.2628200
0.2109613
10.73
x4
0.0816762
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
x1
0.4742083
0.0263443
18.00

x2
2.2628200
0.2109613
10.73
x4
0.0816762
0.0493813
x1
0.0724291 0.0503187 1.44
P
0.000 0.161

x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584

x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584

x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
18
X2,X4已经在方程中,增加哪个变量好?
3.按照自变量对y的贡献大小由大到小依次挑选进入方程(假设检验的P值越小
贡献越大) 4.每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。 5.直到方程外变量均达不到入选标准,没有自变量可被引入方程为止
8
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
变量筛选
逐步回归与LASSO
凤鸣岐山 2019年4月10日
1
背景及方法
2
为什么进行变量选择?
1.排除不重要和无关变量,提取有用特征 2.当模型中的变量过多时,可能会出现过拟合 3.防止多重共线性削弱模型的解释能力 4.增强模型的稳定性和准确性
3
方法
变量选择
子集选择法 系数压缩法
降维法
最优子集法 逐步筛选 岭回归 LASSO
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
9
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t

x2
2.4005610 0.1683429 14.26
相关文档
最新文档