变量选择与lasso-logistic课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
11
X2,X4,X1已经在方程中,是否增加X3?
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
12
后退法基本思想
1.选定一个标准(P=0.2)
2.开始所有变量均在方程中 3.按自变量对y的贡献大小由小到大依次剔除变量 4.每剔除一个变量,则重新计算方程内各变量对y的贡献 5.直到方程内变量均达到入选标准,没有自变量可被剔除为止
对低于剔除标准的变量要逐一剔除,然后再考虑选变量。 (pe=0.15,pr=0.151,forward)
16
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
13
Hale Waihona Puke Baidu
全因素已经在方程中,是否删除X3?
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
17
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t
⑤
x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161
⑥
主成分回归 偏最小二乘回归
当变量数过多时,逐步 法要优于最优子集法
岭回归使模型变得稳定 LASSO使某些系数为0
产生新变量进行回归
4
逐步回归
5
逐步回归中建模的策略
• 建模过程应该从详细的各变量的单因素分析开始 • 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适
宜尺度,及自变量间的必要的一些变量变换 • 在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选 • 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项
14
X1,X2,X4在方程中,删除哪个变量好?
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
15
逐步向前法
逐步向前法区别于前进法: 每选入一个变量,都要对已在模型中的变量进行检验,
6
逐步筛选
前进法 后退法 逐步回归
自动去除高度相关 变量
只考虑自变量进入 模型时是否有意义 考虑到自变量的组 合作用,选中的数 量一般比前进法多 自变量过多或者某 些高度相关,会导 致错误的结果
逐步向前
逐步向后
向后法不适用 与n<p的情况
7
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量(常数项除外)
10
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
x1
0.4742083
0.0263443 18.00
⑨
x2
2.2628200
0.2109613
10.73
x4
0.0816762
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
x1
0.4742083
0.0263443
18.00
⑨
x2
2.2628200
0.2109613
10.73
x4
0.0816762
0.0493813
x1
0.0724291 0.0503187 1.44
P
0.000 0.161
⑥
x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
⑦
x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
⑦
x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
18
X2,X4已经在方程中,增加哪个变量好?
3.按照自变量对y的贡献大小由大到小依次挑选进入方程(假设检验的P值越小
贡献越大) 4.每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。 5.直到方程外变量均达不到入选标准,没有自变量可被引入方程为止
8
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
变量筛选
逐步回归与LASSO
凤鸣岐山 2019年4月10日
1
背景及方法
2
为什么进行变量选择?
1.排除不重要和无关变量,提取有用特征 2.当模型中的变量过多时,可能会出现过拟合 3.防止多重共线性削弱模型的解释能力 4.增强模型的稳定性和准确性
3
方法
变量选择
子集选择法 系数压缩法
降维法
最优子集法 逐步筛选 岭回归 LASSO
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
9
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t
⑤
x2
2.4005610 0.1683429 14.26