变量选择与lasso-logistic
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⑦
x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
Leabharlann Baidu
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t
⑤
x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161
⑥
x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
宜尺度,及自变量间的必要的一些变量变换 • 在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选 • 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项
逐步筛选
前进法 后退法 逐步回归
自动去除高度相关 变量
只考虑自变量进入 模型时是否有意义 考虑到自变量的组 合作用,选中的数 量一般比前进法多 自变量过多或者某 些高度相关,会导 致错误的结果
2.开始所有变量均在方程中 3.按自变量对y的贡献大小由小到大依次剔除变量 4.每剔除一个变量,则重新计算方程内各变量对y的贡献 5.直到方程内变量均达到入选标准,没有自变量可被剔除为止
全因素已经在方程中,是否删除X3?
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
18.00
P
0.179 0.000 0.000
对剔除的X2,X3做回归分析
方程
变量
回归系数
标准误SE
t
(12)
x2
...
x3
...
...
...
...
...
P
>0.150 >0.150
注意:
1.没有最好的方程:可以多选几个标准,比较在不同标准下所得到的 结果 2.有重要临床意义的自变量可以固定于方程中,对剩下的变量进行逐 步回归 3.逐步回归必须与专业知识相结合
逐步向前
逐步向后
向后法不适用 与n<p的情况
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量(常数项除外)
3.按照自变量对y的贡献大小由大到小依次挑选进入方程(假设检验的P值越小
贡献越大) 4.每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。 5.直到方程外变量均达不到入选标准,没有自变量可被引入方程为止
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t
⑤
x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161
⑥
x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
回归系数反常的原因
数据中有离群值或者异常值
自变量的观察范围太窄,或 者方差太小
自变量直接存在复共线性 一样般本的含多量重不线够性,回或归者或自者变L量ogistic 回归中,样本规模至少是自变量个 数数的量1过0倍多以上
LASSO
LASSO(套索)
Least absolute shrinkage and selection operator 1996年,Tibshirani提出 可以将变量的系数进行压缩并使某些回归系数为0,实现变量选择
数据和研究方法
研究人群及变量
曾经切除手术的结直 肠癌病人 原始队列:326人 测试队列:200人 变量:年龄、性别、 术前组织分级、CEA、 CT成像、血液检查、 淋巴结转移情况等
lambda.min
利用LASSO方法进行 特征选择
软件:R 利用LASSO从数据集 中选择预测变量 150个中选取了24个
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
后退法基本思想
1.选定一个标准(P=0.2)
LASSO是如何对系数进行压缩的
对目标函数加入一个惩罚项,使得模型由多解变为更倾向于其 中一个解;Lasso的做法是在RSS最小化的计算中加入一个L1 范数作为惩罚项。
λ是调节参数,其不同的大小可以决定纳入到模型中变量数量的变化。
一个LASSO分析应用于临床研究的实例
2016 journal of clinical oncology IF:13.86
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
变量筛选
逐步回归与LASSO
凤鸣岐山 2019年4月10日
背景及方法
为什么进行变量选择?
1.排除不重要和无关变量,提取有用特征 2.当模型中的变量过多时,可能会出现过拟合 3.防止多重共线性削弱模型的解释能力 4.增强模型的稳定性和准确性
方法
变量选 择
子集选 择法 系数压 缩法
降维法
最优子
逐集步法筛
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
逐步向前法
逐步向前法区别于前进法: 每选入一个变量,都要对已在模型中的变量进行检验,
对低于剔除标准的变量要逐一剔除,然后再考虑选变量。 (pe=0.15,pr=0.151,forward)
选 岭回归 LASS 主成O 分 偏回最归小 二乘回
归
当变量数过多时,逐步 法要优于最优子集法
岭回归使模型变得稳定 LASSO使某些系数为0
产生新变量进行回归
逐步回归
逐步回归中建模的策略
• 建模过程应该从详细的各变量的单因素分析开始 • 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
x1
0.4742083
0.0263443 18.00
⑨
x2
2.2628200
0.2109613
10.73
x4
0.0816762
0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
X2,X4,X1已经在方程中,是否增加X3?
x4
0.5010896
0.0095479
52.48
x1
0.5066342
0.0119867
42.27
0.000 0.000
逐步向后法
逐步后退法区别于后退法:
每剔除一个变量,都要对在模型外的变量进行检 验,对符合入组标准的变量要逐一选入,然后再考虑 剔变量。(pe=0.15,pr=0.151)
全因素已经在方程中,是否删除X3?
x1
0.4742083
0.0263443
18.00
⑨
x2
2.2628200
0.2109613
10.73
x4
0.0816762
0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
X2,X4,X1已经在方程中,是否删除变量?
方程
变量
回归系数
标准误SE
t
(8)
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
X4,X1已经在方程中,是否继续增加/删除?
方程
变量
回归系数
标准误SE
t
P
(11)
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
对剔除的X3做单因素回归
结果对比
结果不同的原因: 逐步法是将单因素分析有意义的变量纳入再进行分析;而lasso-logistic是纳入lasso所
选择的变量。
lambda.lse
将选取的变量纳 入logistic模型
发现结直肠癌淋 巴结转移的危险 因素,构建模型 并在测试队列中 进行验证
LASSO的实现过程
软件:R软件 “glmnet”包
变量选择结果
最终从34个变量中选入16 个变量
利用选择出的17个变量构建Logsitic模型
16个变量进入Logistic模型,表现出 统计学意义的有:慢性下呼吸道疾 病、胃肠减压、深镇静比例分组、 液体负荷平衡、康复锻炼、床头抬 高90°、每日均有压力控制通气、肠 外营养、前免疫抑制剂、雾化吸入、 前纤支镜
方程
③
变量
x3
回归系数
0.1381413
标准误SE
t
P
0.1077999
1.28
0.210
方程中还剩X2,X4,X1,是否删除X2?
方程
变量
回归系数
标准误SE
t
(8)
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
X1,X2,X4在方程中,删除哪个变量好?
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
⑦
x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17