变量选择与lasso-logistic

合集下载

变量选择的稳健贝叶斯LASSO方法

变量选择的稳健贝叶斯LASSO方法

第48卷第8期西南师范大学学报(自然科学版)2023年8月V o l.48N o.8 J o u r n a l o f S o u t h w e s t C h i n aN o r m a lU n i v e r s i t y(N a t u r a l S c i e n c eE d i t i o n)A u g.2023D O I:10.13718/j.c n k i.x s x b.2023.08.005变量选择的稳健贝叶斯L A S S O方法①梁韵婷,张辉国,胡锡健新疆大学数学与系统科学学院,乌鲁木齐830046摘要:针对数据中广泛存在的异常值会扭曲贝叶斯L A S S O方法的参数估计和变量选择结果的问题,通过引入异方差扰动的先验设定,借此提升贝叶斯L A S S O方法的稳健性,并推导出各参数的后验分布,利用G i b b s抽样得到其估计值与置信区间.该方法在数值模拟中表现出较低的拟合误差与较高的变量识别准确率,对糖尿病数据集和血浆β-胡萝卜素水平数据集的分析表明该方法能达到简化模型与减少预测误差的平衡,实现稳健的变量选择与系数估计,并对数据中可能包含的异常值与异方差扰动有良好的抑制作用.关键词:变量选择;贝叶斯L A S S O;稳健性;异常值;异方差中图分类号:O212.8文献标志码:A文章编号:10005471(2023)08003308R o b u s t B a y e s i a nL A S S Of o rV a r i a b l e S e l e c t i o nL I A N G Y u n t i n g,Z HA N G H u i g u o, HU X i j i a nC o l l e g eo fM a t h e m a t i c sa n dS y s t e mS c i e n c e,X i n j i a n g U n i v e r s i t y,U r u m q i830046,C h i n aA b s t r a c t:G i v e n t h a t t h eu b i q u i t o u so u t l i e r s i n t h ed a t a c a nd i s t o r t t h e p a r a m e t e r e s t i m a t i o na n dv a r i a b l e s e l e c t i o nr e s u l t s o fB a y e s i a nL A S S O,t h e p r i o r i n f o r m a t i o n o f h e t e r o s c e d a s t i c d i s t u r b a n c e s i s i n t r o d u c e d t o i m p r o v e t h e r o b u s t n e s s o fB a y e s i a nL A S S O.T h e p o s t e r i o rd i s t r i b u t i o no f e a c h p a r a m e t e r i sd e r i v e d,a n d t h e e s t i m a t i o na n d c o n f i d e n c e i n t e r v a l o f e a c h p a r a m e t e r a r e o b t a i n e db y G i b b s s a m p l i n g.T h em e t h o de x-h i b i t s l o wf i t t i n g e r r o r a n dh i g hv a r i a b l e i d e n t i f i c a t i o na c c u r a c y i nn u m e r i c a l s i m u l a t i o n,a n d t h e a n a l y s e s o f d i a b e t e s d a t a s e t a n dP l a s m aB e t a-C a r o t e n eL e v e lD a t a s e t s h o wt h a t t h e p r o p o s e d m e t h o da c h i e v e s t h e b a l a n c eb e t w e e n s i m p l i f y i n g m o d e l a n d r e d u c i n gp r e d i c t i o ne r r o r.T h e p r o p o s e dm e t h o dc a n r e a l i z e r o b u s t v a r i a b l e s e l e c t i o na n d c o e f f i c i e n t e s t i m a t i o na n dh a s a g o o d i n h i b i t o r y e f f e c t t oo u t l i e r s a n dh e t e r o s c e d a s t i c d i s t u r b a n c e s t h a tm a y b e i n c l u d e d i n t h e d a t a.K e y w o r d s:v a r i a b l e s e l e c t i o n;B a y e s i a nL A S S O;r o b u s t n e s s;o u t l i e r;h e t e r o s c e d a s t i c i t y随着信息化时代的到来,大数据的应用越来越广泛,同时也不可避免地出现了异质性问题,表现出异方差特性.而当数据中存在异方差误差或异常点时,变量选择的结果将不再稳定.目前变量选择方法主要分为非贝叶斯方法和贝叶斯方法.基于惩罚函数的变量选择是非贝叶斯方法的主流[1-9],最常见的包括L A S-S O(L e a s tA b s o l u t eS h r i n k a g e a n dS e l e c t i o nO p e r a t o r)及其改进方法,如:E N(E l a s t i cN e t)㊁自适应L A S-①收稿日期:20221023基金项目:国家自然科学基金项目(11961065);教育部人文社会科学研究规划基金项目(19Y J A910007);新疆自然科学基金项目(2019D01C045).作者简介:梁韵婷,硕士研究生,主要从事贝叶斯空间计量模型的研究.Copyright©博看网. All Rights Reserved.S O (A L A S S O )㊁组L A S S O ㊁S C A D (S m o o t h l y C l i p pe dA b s o l u t eD e v i a t i o n )㊁M C P (M i n i m a xC o n v e xP e n a l -t y)㊁最小绝对偏差L A S S O [7]等.尽管非贝叶斯方法已经取得了不错的成果,但这类方法都不能提供令人满意的标准差估计.文献[1]表明当回归参数具有独立且相同的拉普拉斯先验时,L A S S O 估计可以解释为后验众数估计.因此,基于该联系和贝叶斯思想,文献[10]提出了贝叶斯L A S S O (B L A S S O )并构造了全贝叶斯分层模型和相应的采样器.文献[11]证明在预测均方误差方面,贝叶斯L A S S O 的表现与频率派L A S S O 相似甚至在某些情况下更好.基于文献[10-13]的研究,本文将贝叶斯L A S S O 与异方差误差先验相结合,以实现稳健的变量选择与系数估计,同时该法能自动产生各参数的置信区间.1 分层模型1.1 G i b b s 采样器考虑以下线性回归模型Y =X β+ε,ε~N (0,σ2V )(1)其中:Y 为n ˑ1维的因变量,X 为n ˑp 维的解释变量,误差ε服从异方差的多元正态分布,V =d i a g(V 1, ,V n ),则该模型的似然函数如式(2)所示L (Y |β,σ2,V )=(2πσ2)-n 2|V |-12e x p -12σ2(Y -X β)T V -1(Y -X β)éëêêùûúú(2)结合文献[10,12]的工作,则全模型的分层表示为Y =X β+ε,ε~N (0,σ2V )p (β|τ21,τ22, ,τ2p )~N (0,σ2D τ)D τ=d i a g (τ21,τ22, ,τ2p )p (τ21,τ22, ,τ2p )~ᵑpj =1λ22e -λ2τ2j 2p(σ2)~γαΓ(α)(σ2)-α-1e -γσ2(α>0,γ>0)p r V i æèçöø÷~i.i .d .χ2(r ),i =1, ,n 将该模型的似然函数与各参数的先验分布相乘,可得联合后验分布为p (β,σ2,V ,τ21, ,τ2p |Y ,X )ɖ|V |-12(2πσ2)-n 2e x p -12σ2(Y -X β)T V -1(Y -X β)éëêêùûúúγαΓ(α)(σ2)-α-1e -γσ2ˑᵑpj =11(2πσ2τ2j)12e -β2j2σ2τ2jλ22e -λ2τ2j 2ˑr 2æèçöø÷n r 2Γr 2æèçöø÷éëêêùûúú-n ᵑni =1V -r +22i e -r 2V i (3)基于式(3),可得β的全条件后验分布服从均值为B -1X T V -1Y ,方差为σ2B -1的多元正态分布,其中:B =X TV -1X +D -1τ;σ2的全条件后验分布服从形状参数为n 2+p 2+α,尺度参数为(Y -X β)T V -1(Y -X β)2+βT D -1τβ2+γ的逆伽马分布;1τ2j 的全条件后验分布服从形状参数为λ'=λ2,均值参数为μ'=λ2σ2β2j 的逆高斯分布;文献[12]得出V 的全条件后验分布服从以下形式的卡方分布p e 2i σ-2+r V i β,σ2,V -i ,τ21, ,τ2p æèçöø÷ɖχ2(r +1)式中e i 项为向量e =Y -X β的第i 个元素,V -i =(V 1, ,V i -1,V i +1, ,V n ),i =1, ,n .根据各参数后43西南师范大学学报(自然科学版) h t t p ://x b b jb .s w u .e d u .c n 第48卷Copyright ©博看网. All Rights Reserved.验分布可构造出稳健贝叶斯L A S S O 的G i b b s 采样算法:算法1:稳健贝叶斯L A S S O 的G i b b s 采样器输入:Y ,X ,迭代次数T d r a w ,预热次数T o m i t ,初值β(0),σ2(0),τ2(0),V (0)输出:βɡ,σɡ2,τɡ2,V ɡ1:k ѳ12:当k ɤT d r a w3: 从后验分布p (β|Y ,X ,σ2(k -1),V (k -1),τ2(k -1))中抽样并记为β(k )4: 从后验分布p (τ2|Y ,X ,β(k ),σ2(k -1),V (k -1))中抽样并记为τ2(k )5: 从后验分布p (σ2|Y ,X ,β(k ),V (k -1),τ2(k ))中抽样并记为σ2(k )6: 从后验分布p (V |Y ,X ,β(k ),σ2(k ),τ2(k ))中抽样并记为V (k )7: k ѳk +18:结束9:删去前T o m i t 轮样本,取后T d r a w -T o m i t 轮样本计算各参数的后验平均值作为估计值1.2 超参数选取关于超参数λ2的选取,借鉴文献[10]提出的基于边际最大似然的经验贝叶斯法,具体算法如下:1)令k =0并设初值为λ(0)=pσɡ2W L Sðpj =1βɡ2W L S,其中σɡ2W L S 和βɡ2W L S为以普通线性最小二乘估计残差值的绝对值的倒数为权重的加权最小二乘估计值;2)令λ=λ(k )并利用上述G i b b s 采样器从β,σ2,τ2,V 的后验分布中生成第k 轮样本;3)利用第k 轮样本近似计算更新λ(k +1)=2p ðpj =1Eλ(k )τ2j Y []并令k =k +1;4)重复步骤2)-3)直至所需的收敛水平.由于经验贝叶斯法需要多次G i b b s 采样,因此该法计算量极大.文献[14]提出了一种基于随机近似的单步方法作为替代,该方法可以仅使用单次G i b b s 采样器来获得超参数的极大似然估计,从而极大减少计算量.该法首先作变换λ(k )=e s (k ),具体算法如下:1)令k =0并设初值为s (0)=0,θ(0)=(β(0),σ2(0),τ2(0),V (0));2)从K s (k)(θ(k ),㊃)中生成θ(k +1),其中K s 为联合后验分布p (㊃Y ,s )的G i b b s 采样器的马尔科夫核;3)令s (k +1)=s (k )+a k (2p -e 2s (k )ðpj =1τ2j ,(k +1))令k =k +1;4)重复步骤2)-3)直至所需的迭代次数.其中a k ,k ȡ0{}为一个非降的正数序列,并满足以下性质l i m k ңɕa k =0,ða k =¥,ða 2k <ɕ2 数值模拟本节将评估异方差误差先验下稳健贝叶斯L A S S O 的实验特性与优点.根据式(1)生成数据,令X =[ιn ,X '],ιn 为n 维的单位向量,X '=X 1,X 2, ,X p -1[]为多元正态分布N (0,Σ)生成,其中Σi j =0.5|i -j|.为了考虑系数向量不同的稀释度,所有模拟均设置n =100和p =50并令非零系数的个数q ɪ10,20{}.此外,为了测试收缩的适应性,一半的非零系数从正态分布N (0,1)中生成,另一半非零系数从正态分布N (0,5)中抽样,从而使得一半的非零系数接近于0,另一半的非零系数则表现出更大的变化,剩余系数则设置为0.每次模拟均使用5000次迭代并取后2500次抽样计算各参数的后验均值作为估计值,为了避免偶然性,模拟均重复100次.为了考察所提方法对异常值的稳健性,本文考虑了4种不同的ε.例1(异方差误差):为了生成异方差误差,对于样本量n 按照文献[15]生成随机组,其中组的个数由均53第8期 梁韵婷,等:变量选择的稳健贝叶斯L A S S O 方法Copyright ©博看网. All Rights Reserved.匀分布U (3,20)抽样得出.如果组个数大于10,则将该组所有样本的方差设置为等于组个数,否则将方差设置为组个数倒数的平方,并令ε的第i 个元素为εi =σiξi 其中:σi为第i 个观测样本的标准差,ξi 来自独立同分布的标准正态分布N (0,1).例2(污染分布):ε服从污染分布,其中前90%来自标准正态分布,后10%服从标准柯西分布.例3(柯西分布):ε服从标准柯西分布.例4(拉普拉斯分布):ε服从标准拉普拉斯分布.为了衡量系数估计与变量选择的性能,本文采用均方误差(M S E )与平衡准确率(B A R )作为指标.平衡准确率能综合衡量变量选择方法正确选择㊁错选㊁漏选变量的个数,其计算公式如下B A R =12T P T P +F N +T N T N +F P æèçöø÷其中T P ,T N ,F P ,F N 分别表示真阳性㊁真阴性㊁假阳性和假阴性的数量.将本文提出的稳健贝叶斯L A S S O 方法简记为R B L A S S O.表1列出了不施加异方差误差先验下几种常见方法与R B L A S S O 的实验结果,其中每项指标为基于100次模拟的平均值.值得注意的是,贝叶斯方法的变量选择结果基于参数的95%置信区间.若95%置信区间含0,则可认为该参数被识别为0.从模拟结果可得,本文方法在大多数情况下都具有较好的综合表现,其中当误差分布为异方差时R B L A S S O 的各项性能指标均为最优.根据对比可得,当非零系数的个数q 增大时,即系数向量越密集时,每种方法的估计值往往会稍差,这是因为需要用相同数量的观测值估计更多的非零参数.当误差分布服从标准柯西分布,即例子3时,不施加异方差误差先验下的贝叶斯L A S S O 的M S E (βɡ)相比其他误差分布大得多,而R B L A S S O 依然能保持较好的系数估计与变量选择能力,甚至在q 增大时M S E (βɡ)反而减小,这表明了施加异方差误差先验对抵抗异常值具有重大作用.表1 不同模型在4种扰动下基于100次模拟试验的变量选择结果方法q =10M S E (βɡ)B A Rq =20M S E (βɡ)B A RE x a m pl e 1B L A S S O 0.07880.72690.10520.7294L A S S O 0.05680.72010.08780.6884A L A S S O0.05100.73410.10380.7057R B L A S S O0.01480.83700.04840.7933E x a m p l e 2B L A S S O 0.41440.74270.34320.7846L A S S O0.09980.71510.26480.6533A L A S S O0.10080.76470.24060.7695R B L A S S O0.11240.76830.27240.8082E x a m p l e 3B L A S S O 19.85660.582960.05740.5235L A S S O0.53840.62000.46660.5561A L A S S O0.70620.60790.78720.5521R B L A S S O0.65940.63690.35420.5879E x a m p l e 4B L A S S O 0.03040.93530.04740.8276L A S S O0.01940.78540.04500.6699A L A S S O0.01780.85240.03520.8134R B L A S S O0.03020.92440.05520.81323 案例研究3.1 糖尿病数据集将本文提出的稳健贝叶斯L A S S O 方法应用到糖尿病数据集中,该数据集由文献[16]提供,共有44263西南师范大学学报(自然科学版) h t t p ://x b b jb .s w u .e d u .c n 第48卷Copyright ©博看网. All Rights Reserved.个样本和11个变量,其中10个解释变量分别为年龄(a g e )㊁性别(s e x )㊁体重指数(b m i )㊁平均血压(m a p )及6种血清测量(t c ,l d l ,h d l ,t c h ,l t g ,gl u ),因变量为基线点一年后疾病进展的定量测量.本文所使用的数据集来自R 包c a r e,所有变量均已标准化使得均值为0㊁方差为1.为了研究所提方法的稳健性,随机选取20%的样本在因变量上加上噪音c ,其中c 取为3倍的因变量标准差,并随机划分70%的数据集作为训练集,剩余30%作为测试集.评估指标采用预测均方误差(M S E )与中值绝对预测误差(MA P E ).图1为该数据集各变量的箱线图,初步可得解释变量和因变量均存在异常值;图2为学生化残差与帽子统计量关系图,其中圆圈面积与观测点的C o o k 距离成正比,垂直两条虚线分别为两倍和三倍平均帽子值的参考线,水平两条虚线分别是学生化残差为0及2的参考线,进一步分析可得该数据集中样本295和305为离群点,样本323和354为高杠杆值点,若以4n -k -1为C o o k 距离的阈值则有35个强影响点.图1 糖尿病数据集各变量的箱线图图2 学生化残差与帽子统计量的气泡图,其中圆圈的面积表示与C o o k 距离成正比的观测值各模型估计结果如表2所示,其中标粗体的系数估计值代表其置信区间含0.B L A S S O 和R B L A S S O均排除了7个相同的非重要变量,而L A S S O 和A L A S S O 仅排除了4个非重要变量,且这4个非重要变量73第8期 梁韵婷,等:变量选择的稳健贝叶斯L A S S O 方法Copyright ©博看网. All Rights Reserved.均为4个模型所排除的共同变量,分别为s e x,l d l,t c h,g l u.根据M S E和MA P E,本文所提方法的预测误差最低.此外,由图3可得相比B L A S S O,施加了异方差先验的R B L A S S O具有更短的置信区间.因此,所提方法的结果应具备更高的可靠性.表2不同方法下糖尿病数据集的估计结果L e a s t S q u a r e s W e i g h t e dL e a s tS q u a r e sB a y e s i a nL A S S OR o b u s tB a y e s i a nL A S S O L A S S OA d a p t i v eL A S S Oa g e-0.0026-0.0949-0.0661-0.0491-0.0831-0.1119s e x0.0120-0.02820.0041-0.048900b m i0.44090.41750.41590.34170.43150.4428m a p0.28500.25130.23680.16430.25250.2735 t c-1.0098-0.8514-0.0514-0.0735-0.0987-0.1337l d l0.75080.5823-0.0227-0.048500h d l0.29280.2336-0.0582-0.0591-0.0374-0.0359t c h0.00670.02430.00470.028800l t g0.77540.68810.35580.38820.39030.4236g l u-0.0155-0.00260.00770.018600M S E278.7343273.4827272.9438266.5315274.3907276.0192 MA P E0.66140.55060.60660.54810.61220.6211图3不同方法下糖尿病数据集各变量的系数估计值与对应的95%置信区间3.2血浆β-胡萝卜素水平数据集文献[17]数据集包含了315名患者,均在3年内进行过活检或切除肺㊁结肠㊁乳腺㊁皮肤㊁卵巢或子宫的非癌病变,选取其中的273名女性患者作为研究对象.该数据集共有11个变量,10个解释变量分别为年龄(a g e)㊁吸烟状态(s m o k s t a t)㊁Q u e t e l e t指数(q u e t e l e t)㊁维生素使用(v i t u s e)㊁每天摄入的卡路里数(c a l o-r i e s)㊁每天摄入的脂肪克数(f a t)㊁每天摄入的纤维克数(f i b e r)㊁每周摄入的酒精饮料数量(a l c o h o l)㊁胆固醇摄入量(m g/天,c h o l)㊁膳食β-胡萝卜素消耗量(m c g/d,b e t a d i e t),因变量为血浆β-胡萝卜素(n g/m l).所有变量均已标准化使得均值为0㊁方差为1,随机划分70%的数据集作为训练集拟合模型,将剩余30%作为测试集并通过计算预测均方误差(M S E)与中值绝对预测误差(MA P E)来评估模型的预测能力.图4和图5分别为血浆β-胡萝卜素和胆固醇的直方图,由图可得这两个变量均含有异常值.将各模型应用于该数据,估计结果如表3所示,其中B L A S S O和R B L A S S O均认为q u e t e l e t,v i t u s e和b e t a d i e t为重要变量,而L A S S O和A L A S S O仅排除了c a l o r i e s变量.尽管R B L A S S O的MA P E不是最低,但与MA P E 最低的B L A S S O差距甚小,且R B L A S S O的M S E远低于其他方法,综合来说R B L A S S O模型的预测能力83西南师范大学学报(自然科学版)h t t p://x b b j b.s w u.e d u.c n第48卷Copyright©博看网. All Rights Reserved.最优.此外,从图6可得R B L A S S O 明显比B L A S S O 具有更短的置信区间,估计精度更高.图4 血浆胡萝卜素的直方图图5 胆固醇的直方图表3 不同方法下血浆胡萝卜素水平数据集的估计结果L e a s tS qu a r e s W e i gh t e dL e a s t S q u a r e s B a ye s i a n L A S S O R o b u s tB a y e s i a nL A S S O L A S S O A d a pt i v e L A S S O a ge 0.06230.05070.04860.07480.05470.0641s m o k s t a t -0.0460-0.0346-0.0337-0.0201-0.0328-0.0424q u e t e l e t -0.2052-0.1818-0.1836-0.1380-0.1946-0.2023v i t u s e-0.2655-0.2400-0.2286-0.1367-0.2472-0.2564c a l o r i e s-0.0804-0.2062-0.0117-0.025700f a t-0.05140.0709-0.0593-0.0062-0.0911-0.1021f i b e r 0.23410.21970.16910.04950.18380.1992a l c o h o l 0.16000.10440.10370.03040.12890.1453c h o l-0.0468-0.0430-0.0384-0.0161-0.0402-0.0473b e t a d i e t 0.23600.22230.21500.15260.22730.2353M S E 34.914128.592229.465320.370332.385334.2673MA P E0.34660.34370.32390.32690.35360.3641图6 不同方法下血浆胡萝卜素水平数据集各变量的系数估计值与对应的95%置信区间93第8期 梁韵婷,等:变量选择的稳健贝叶斯L A S S O 方法Copyright ©博看网. All Rights Reserved.04西南师范大学学报(自然科学版)h t t p://x b b j b.s w u.e d u.c n第48卷4结论本文通过将异方差误差先验引入贝叶斯L A S S O,提出了贝叶斯L A S S O的稳健模型并建立了相应的贝叶斯分层模型与G i b b s采样器,从而提高了对异常值及异方差误差的稳健性.数值模拟和实证分析表明当存在异常值或异方差误差时,该方法能实现较简洁的模型与较低的误差,从而实现稳健的变量选择.此外,该模型立足于贝叶斯思想,能方便地得到估计值的置信区间,从而弥补了L A S S O类方法不能给出较好可信度评估的劣势.参考文献:[1]T I B S H I R A N IR.R e g r e s s i o nS h r i n k a g e a n dS e l e c t i o nv i a t h eL a s s o[J].J o u r n a l o f t h eR o y a l S t a t i s t i c a l S o c i e t y S e r i e sB:S t a t i s t i c a lM e t h o d o l o g y,1996,58(1):267-288.[2] Z O U H,HA S T I ET.R e g u l a r i z a t i o n a n dV a r i a b l e S e l e c t i o n v i a t h eE l a s t i cN e t[J].J o u r n a l o f t h eR o y a l S t a t i s t i c a l S o c i e-t y S e r i e sB:S t a t i s t i c a lM e t h o d o l o g y,2005,67(2):301-320.[3] Z O U H.T h e A d a p t i v eL a s s oa n dI t s O r a c l eP r o p e r t i e s[J].J o u r n a lo ft h e A m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,2006,101(476):1418-1429.[4] Y U A N M,L I N Y.M o d e l S e l e c t i o n a n dE s t i m a t i o n i nR e g r e s s i o nw i t hG r o u p e dV a r i a b l e s[J].J o u r n a l o f t h eR o y a l S t a-t i s t i c a l S o c i e t y S e r i e sB:S t a t i s t i c a lM e t h o d o l o g y,2006,68(1):49-67.[5] F A NJQ,L IRZ.V a r i a b l eS e l e c t i o nv i aN o n c o n c a v eP e n a l i z e dL i k e l i h o o da n d I t sO r a c l eP r o p e r t i e s[J].J o u r n a l o f t h eA m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,2001,96(456):1348-1360.[6] Z HA N GC H.N e a r l y U n b i a s e dV a r i a b l eS e l e c t i o nu n d e rM i n i m a xC o n c a v eP e n a l t y[J].T h eA n n a l s o f S t a t i s t i c s,2010,38(2):894-942.[7] WA N G H S,L IG D,J I A N G G H.R o b u s tR e g r e s s i o nS h r i n k a g ea n dC o n s i s t e n tV a r i a b l eS e l e c t i o nt h r o u g ht h eL A D-L a s s o[J].J o u r n a l o fB u s i n e s s&E c o n o m i cS t a t i s t i c s,2007,25(3):347-355.[8] WU Y,L I U Y.V a r i a b l eS e l e c t i o n i nQ u a n t i l eR e g r e s s i o n[J].S t a t i s t i c aS i n i c a,2009,19(2):801-817.[9] WA N G X Q,J I A N G YL,HU A N G M,e t a l.R o b u s tV a r i a b l eS e l e c t i o nw i t hE x p o n e n t i a l S q u a r e dL o s s[J].J o u r n a l o ft h eA m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,2013,108(502):632-643.[10]P A R K T,C A S E L L A G.T h eB a y e s i a nL a s s o[J].J o u r n a l o f t h eA m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,2008,103(482):681-686.[11]K Y U N G M,G I L LJ,G HO S H M,e t a l.P e n a l i z e dR e g r e s s i o n,S t a n d a r dE r r o r s,a n dB a y e s i a nL a s s o s[J].B a y e s i a nA-n a l y s i s,2010,5(2):369-412.[12]G E W E K EJ.B a y e s i a nT r e a t m e n t o f t h e I n d e p e n d e n t S t u d e n t-t L i n e a rM o d e l[J].J o u r n a l o fA p p l i e dE c o n o m e t r i c s,1993,8(S1):S19-S40.[13]L A N G EKL,L I T T L ERJA,T A Y L O RJM G.R o b u s t S t a t i s t i c a lM o d e l i n g U s i n g t h e t D i s t r i b u t i o n[J].J o u r n a l o f t h eA m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,1989,84(408):881-896.[14]A T C HA DÉY F.A C o m p u t a t i o n a lF r a m e w o r kf o rE m p i r i c a lB a y e s I n f e r e n c e[J].S t a t i s t i c sa n dC o m p u t i n g,2011,21(4):463-473.[15]L I N X,L E ELF.GMM E s t i m a t i o no f S p a t i a lA u t o r e g r e s s i v eM o d e l sw i t hU n k n o w nH e t e r o s k e d a s t i c i t y[J].J o u r n a l o fE c o n o m e t r i c s,2010,157(1):34-52.[16]E F R O NB,HA S T I ET,J OHN S T O N EI,e t a l.L e a s tA n g l eR e g r e s s i o n[J].T h eA n n a l so fS t a t i s t i c s,2004,32(2):407-499.[17]N I E R E N B E R GD W,S T U K E LT A,B A R O NJA,e t a l.D e t e r m i n a n t s o f P l a s m aL e v e l s o f b e t a-C a r o t e n e a n dR e t i n o l[J].A m e r i c a n J o u r n a l o fE p i d e m i o l o g y,1989,130(3):511-521.责任编辑张栒Copyright©博看网. All Rights Reserved.。

统计学中的变量选择与模型诊断

统计学中的变量选择与模型诊断

统计学中的变量选择与模型诊断在统计学中,变量选择与模型诊断是非常重要的步骤,它们能够帮助我们从大量的变量中筛选出最相关的变量,并且判断模型的质量和有效性。

本文将介绍变量选择的方法以及模型诊断的技巧。

一、变量选择的方法1. 前向选择法前向选择法是一种逐步增加变量的方法。

首先,我们从单变量开始,选择与响应变量最相关的变量。

然后,在这个基础上再添加下一个与响应变量最相关的变量,直到达到预设的阈值或拟合效果达到最佳。

2. 后向选择法后向选择法与前向选择法相反,它是一种逐步减少变量的方法。

首先,我们考虑包含全部变量的模型,然后逐步剔除与响应变量最不相关的变量,直到达到预设的阈值或拟合效果最佳。

3. 嵌入式选择法嵌入式选择法将变量选择和模型选择结合在一起。

在训练模型的同时,利用某些评估指标对变量进行选择,这种方法可以在模型训练的同时进行变量筛选。

4. LASSO回归LASSO回归是一种使用L1正则化的线性回归模型。

通过增加正则化项,LASSO回归可以使得某些系数变为0,从而实现变量选择的效果。

该方法适用于高维数据集合变量筛选问题。

二、模型诊断的技巧模型诊断是评估模型拟合效果和检查模型假设的过程,以下介绍几种常用的模型诊断技巧。

1. 残差分析残差是模型预测值与真实观测值之间的差异。

通过绘制残差图、QQ图和散点图等方法,我们可以检查残差是否满足独立性、正态性和同方差性的假设。

2. 杠杆点和影响点分析杠杆点是指对模型参数估计有较大影响的观测点,影响点是指对模型整体拟合效果有较大影响的观测点。

通过绘制杠杆点图和影响点图,我们可以确定是否存在杠杆点和影响点,并进行相应的处理。

3. 多重共线性检验多重共线性是指自变量之间存在较高的相关性,可能会导致模型参数估计不准确。

通过计算变量的方差膨胀因子(VIF)和条件数等指标,可以判断是否存在多重共线性。

4. 模型拟合度检验模型拟合度检验用于评估模型拟合数据的程度。

常用的方法包括判断系数(R^2),调整判断系数(Adjusted R^2)和残差平方和等指标。

(完整版)spss的logistic分析教程

(完整版)spss的logistic分析教程

Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。

还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。

二值logistic回归:选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。

有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。

把你的自变量选到协变量的框框里边。

细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。

我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。

那么我们为了模型的准确,就把这个交互效应也选到模型里去。

我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。

然后在下边有一个方法的下拉菜单。

默认的是进入,就是强迫所有选择的变量都进入到模型里边。

除去进入法以外,还有三种向前法,三种向后法。

一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。

再下边的选择变量则是用来选择你的个案的。

一般也不用管它。

选好主面板以后,单击分类(右上角),打开分类对话框。

在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。

你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。

变量选择与lasso-logistic

变量选择与lasso-logistic


x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
回归系数反常的原因
数据中有离群值或者异常值
自变量的观察范围太窄,或 者方差太小
自变量直接存在复共线性 一样般本的含多量重不线够性,回或归者或自者变L量ogistic 回归中,样本规模至少是自变量个 数数的量1过0倍多以上
LASSO
LASSO(套索)
Least absolute shrinkage and selection operator 1996年,Tibshirani提出 可以将变量的系数进行压缩并使某些回归系数为0,实现变量选择
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P

Lasso 与其他变量选择方法的模拟比较

Lasso 与其他变量选择方法的模拟比较

摘要:[目的]提出一种基于收缩估计的新的变量选择方法—Lasso,并比较其与其他变量选择方法的异同。

[方法]首先给出了几种常见的变量选择方法如逐步回归、AIC、BIC 准则,再通过随机模拟给出了几种方法进行变量选择的结果及相关准确性分析。

[结果]随机模拟结果表明,当模拟次数n=200 时,Lasso 方法的平均错误率已经为0,具有较为明显的优势,随着模拟次数的增加Lasso 方法的平均正确率(0.951)达到了相对较高的水平。

[结论]Lasso 估计具有较好的可解释性,在变量选择中有较广阔的应用前景。

关键词:变量选择;Lasso 估计;AIC 准则;逐步回归0 引言多元分析是应用最广泛的统计学分支之一,而变量选择问题又是其中一个尤为重要的问题。

对于其不同的用途,对变量选择也有着不同的要求:在描述解释现象时,希望回归方程中所包含的自变量尽可能少一些;在预测时,希望预测的均方误差较小;在控制时,希望各回归系数具有较小的方差和均方误差[1]。

在实际问题中可以提出许多对因变量y有影响的自变量,变量选择太少或不恰当,会使建立的模型与实际有较大的偏离;而变量选得太多,使用不便,并且有时也会削弱估计和预测的稳定性,所以变量选择问题是一个值得我们讨论的问题。

在回归方程中,预测精度和可解释性是评估回归模型的两个重要指标。

传统的变量选择方法当自变量过多而不可避免的出现共线性的问题时.通过传统方法删除变量,有时候会使重要的变量不能进入模型,使得模型的解释力度大为降低。

Robert[2]提出的Lasso回归是一种收缩估计方法,基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。

本文首先对Lasso的建模思路进行了分析,并通过随机模拟比较了逐步回归、AIC准则和LASSO的特征和性能.最后对上述模型的适用性进行了总结归纳,并对研究者在实践中中国科技论文在线针对不同的问题选择如何选择合适的模型提出了建议。

多元logistic回归模型的选择程序

多元logistic回归模型的选择程序

多元logistic回归模型的选择程序
本文介绍了多元logistic回归模型的选择程序,包括数据预处理、模型选择、变量筛选、模型评价等步骤。

具体内容包括:
1. 数据预处理:包括数据清洗、缺失值处理、异常值处理、标准化等。

2. 模型选择:选择合适的多元logistic回归模型,可以采用逐步回归、前向选择、后向淘汰等方法。

3. 变量筛选:通过相关系数、方差膨胀因子等指标筛选出对因变量有重要影响的自变量。

4. 模型评价:通过混淆矩阵、ROC曲线、AUC值等指标对模型进行评价,选择合适的模型。

最后,本文提醒读者在进行多元logistic回归模型选择时需要注意过拟合和欠拟合问题,选择合适的正则化方法进行优化。

- 1 -。

Lasso方法简要介绍及其在回归分析中的应用

Lasso方法简要介绍及其在回归分析中的应用

Lasso方法简要介绍及其在回归分析中的应用回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

最早形式的回归分析可以追溯到两百多年前由德国数学家高斯提出的最小二乘法。

而回归分析也是研究时间最长和应用最广泛的的方法。

自从产生以来回归分析一直都是统计学家研究的一个重点领域,直到近二十多年来还有很多对回归分析提出的各种新的改进。

回归模型一般假设响应变量(response variable)也叫自变量和独立变量(independent variables)也叫因变量,有具体的参数化(parametric)形式的关系,而这些参数有很多成熟的方法可以去估计(比如最小二乘法),误差分析方法也有详细的研究。

总的来说,回归分析方法具有数据适应性强,模型估计稳定,误差容易分析等优良特点,即使在机器学习方法发展如此多种多样的今天,依然是各个领域中最常用的分析方法之一。

回归分析中最常见的线性回归假设响应和独立变量间存在明显的线性关系。

如图一所示,响应变量(黑点)的数值大致在一条直线周围,除了每个点都有的随机误差。

线性回归模型看似极大的简化了响应变量和独立变量之间的关系,其实在实际分析中往往是最稳定的模型。

因为线性模型受到极端或者坏数据的影响最小。

例如预测病人的住院成本,很可能出现其中一两个病人会有很大的花费,这个可能是跟病理无关的,这种病人的数据就很可能影响整个模型对于一般病人住院成本的预测。

所以一个统计模型的稳定性是实际应用中的关键:对于相似的数据应该得出相似的分析结果。

这种稳定性一般统计里用模型的方差来表示,稳定性越好,模型的方差越小。

图1. 线性回归示意图在统计学习中存在一个重要理论:方差权衡。

一般常理认为模型建立得越复杂,分析和预测效果应该越好。

而方差权衡恰恰指出了其中的弊端。

复杂的模型一般对已知数据(training sample)的拟合(fitting)大过于简单模型,但是复杂模型很容易对数据出现过度拟合(over-fitting)。

LASSO回归在经济统计学中的应用

LASSO回归在经济统计学中的应用

LASSO回归在经济统计学中的应用经济统计学是一门研究经济现象和经济活动的科学,它通过统计方法对经济数据进行收集、整理、分析和解释。

在经济统计学研究中,LASSO回归是一种常用的方法,它在变量选择和模型建立方面具有重要的应用价值。

LASSO回归是Least Absolute Shrinkage and Selection Operator的缩写,它是一种基于正则化的线性回归方法。

在传统的线性回归中,我们通常通过最小二乘法来估计模型参数,但这种方法存在着过拟合的问题,即模型过于复杂,对训练样本的拟合效果好,但对未知样本的预测效果较差。

而LASSO回归通过在目标函数中加入一个L1正则化项,可以有效地解决过拟合问题。

在经济统计学中,LASSO回归常用于变量选择。

在实际的经济数据分析中,我们往往面临大量的自变量,而其中只有一部分对因变量的解释具有显著性。

传统的变量选择方法往往基于显著性检验或信息准则来确定变量的重要性,但这种方法存在着一些问题。

例如,显著性检验容易受到样本容量和数据分布的影响,而信息准则则往往会选择过多的变量。

而LASSO回归通过加入L1正则化项,可以将某些不重要的变量的系数收缩为零,从而实现变量选择的目的。

LASSO回归在经济统计学中的应用不仅仅局限于变量选择,它还可以用于模型建立。

在实际的经济数据分析中,我们往往面临着多个自变量之间存在多重共线性的问题。

多重共线性会导致模型参数估计不准确,甚至无法估计。

而LASSO回归通过加入L1正则化项,可以有效地处理多重共线性问题。

当存在多重共线性时,LASSO回归可以将某些高度相关的自变量的系数收缩为零,从而减少模型的复杂度,提高模型的稳定性和解释能力。

除了变量选择和模型建立,LASSO回归还可以用于预测和因果推断。

在经济数据分析中,我们往往需要对未知样本进行预测,而LASSO回归可以通过对已有样本的学习,建立一个具有较好泛化能力的模型,从而实现对未知样本的预测。

Logistic回归模型的稳健组变量选择

Logistic回归模型的稳健组变量选择

统计与决策2021年第2期·总第566期0引言在统计建模过程中,变量选择起着非常重要的作用,有效的变量选择不仅能通过去除多余的变量得到简洁的模型,而且能有效地提高模型的预测精度。

普通的线性回归模型仅适用于因变量为连续型(尤其是服从正态分布)随机变量的情况。

Nelder 和Wedderburn (1972)[1]对普通线性回归模型进行推广,提出了广义线性模型。

该模型把因变量的数学期望E (Y )与自变量的线性函数联系起来,并且把因变量的分布推广至指数族分布。

在广义线性模型中,logistic 回归是最具有代表性的模型之一。

在许多的统计建模问题中,解释变量呈现出自然的分组结构,比如通常可以用一组虚拟变量来描述多分类变量,单个变量选择的方法忽略了在自然的分组结构中所隐藏的信息,因此单个变量选择方法有可能会降低变量选择性能。

通过对模型的回归系数进行约束是惩罚函数法的基本思想。

常见的惩罚方法包括Frank 和Friedman (1993)[2]提出的Bridge 方法、Tibshirani (1996)[3]提出的LASSO 方法、Fan 和Li (2001)[4]提出的SCAD 方法、Zhang (2010)[5]提出的MCP 方法等。

针对组变量的选择问题,学者们也提出了很多的方法,如Yuan 和Lin (2006)[6]提出的group LASSO 方法、Huang 等(2012)[7]提出的group MCP 方法、Wang 等(2007)[8]提出的group SCAD 方法。

Park 和Konishi (2016)[9]研究了自变量中存在异常值时logistic 回归模型中单变量的稳健惩罚似然函数估计,提出了基于稳健马氏距离的加权惩罚似然方法,给出选择调整参数的信息准则,并通过数值模拟和实例分析验证了方法的表现。

然而,他们没有考虑组变量结构存在时logis-tics 回归模型的组变量选择问题。

基于Logistic回归模型的高维数据变量选择方法比较研究

基于Logistic回归模型的高维数据变量选择方法比较研究
文章引用: 廖丹. 基于 Logistic 回归模型的高维数据变量选择方法比较研究[J]. 统计学与应用, 2019, 8(3): 553-559. DOI: 10.12677/sa.2019.83062
廖丹
摘要
高维数据已成为现代大数据分析中的热点研究领域。变量选择是一种被广泛用于高维数据分析问题的方 法。文献中已出现大量高维变量选择方法,为研究其中有影响的几种方法的适用范围和利弊,本文考虑 了lasso、自适应lasso等变量选择方法来研究logistic回归模型中的变量选择问题。首先,通过随机模拟 实验研究,分别在低维和高维的情况下比较不同变量选择方法的预测和变量选择效果。然后,在实际数 据集中做进一步地实证比较研究。研究结果表明:在同等条件下,自适应lasso在模型预测和可解释性方 面均比lasso更具优势。
Received: Jun. 6th, 2019; accepted: Jun. 21st, 2019; published: Jun. 28th, 2019
Abstract
High-dimenห้องสมุดไป่ตู้ional data has become a hot research field in modern large data analysis. Variable selection is a widely-used method for high-dimensional data analysis. A large number of high-dimensional variable selection methods have appeared in the literatures. In order to compare the scope of application, advantages and disadvantages of several influential methods, in this paper, we consider the variable selection methods such as lasso and adaptive lasso to study the variable selection problem in logistic regression model. Firstly, by random simulation experiments, we compare the prediction and selection effects of different variable selection methods in low and high dimensions respectively. Then, we do further empirical analysis in the real data. The results show that under the same conditions, adaptive lasso has more advantages than lasso in model prediction and interpretability.

lasso的回归模型以及对重要变量的选择

lasso的回归模型以及对重要变量的选择

一、概述随着数据科学和机器学习的发展,回归分析成为了数据分析中不可或缺的一环。

lasso回归模型作为一种常用的回归分析方法,因其对重要变量的选择具有特殊优势而备受青睐。

本文将对lasso回归模型进行详细介绍,并探讨其对重要变量的选择原理。

二、lasso回归模型简介1.1 lasso回归的原理lasso回归是一种利用正则化方法来减少模型复杂度的回归分析方法。

在普通最小二乘法的基础上,lasso回归通过引入L1正则化项,促使模型的系数向零收缩,从而实现特征的稀疏性,即使得部分特征的系数变为零,从而实现对重要变量的筛选。

1.2 lasso回归模型的数学表达假设我们有p个特征,n个样本。

对于单变量的lasso回归模型,其优化问题可以表示为:$\hat{\beta}_{lasso} = \underset{\beta}{argmin}\sum_{i=1}^{n}(y_i - \sum_{j=1}^{p}x_{ij}\beta_j)^{2} +\lambda\sum_{j=1}^{p}|\beta_j|$其中,$\lambda$是正则化参数,用于控制模型复杂度。

1.3 lasso回归模型的求解lasso回归模型的求解一般采用坐标下降法或者最小角回归算法,这两种方法都能有效地求解lasso回归的优化问题,并得到系数的估计值。

三、lasso回归模型对重要变量的选择2.1 lasso回归的特征选择性由于lasso的正则化机制,它能够有效地实现对重要变量的筛选。

当正则化参数$\lambda$足够大时,部分特征的系数会被压缩至零,从而实现对这些特征的筛除。

这种特征选择性使得lasso回归在变量选择方面具有很好的性能。

2.2 重要变量的选择原理lasso回归对重要变量的选择原理可以通过其优化问题来解释。

当正则化参数$\lambda$趋于无穷大时,lasso回归的优化问题可以表示成如下形式:$\hat{\beta}_{lasso} = \underset{\beta}{argmin}\sum_{i=1}^{n}(y_i - \sum_{j=1}^{p}x_{ij}\beta_j)^{2} \quad s.t.\sum_{j=1}^{p}|\beta_j| \leq t$其中,t是一个常数。

变量选择与lasso-logistic参考幻灯片

变量选择与lasso-logistic参考幻灯片

t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
17
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t

x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161

方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18263443
18.00

x2
2.2628200
0.2109613
10.73
x4
0.0816762
6
逐步筛选
前进法 后退法 逐步回归
自动去除高度相关 变量
只考虑自变量进入 模型时是否有意义 考虑到自变量的组 合作用,选中的数 量一般比前进法多 自变量过多或者某 些高度相关,会导 致错误的结果
逐步向前
逐步向后
向后法不适用 与n<p的情况
7
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量(常数项除外)
对低于剔除标准的变量要逐一剔除,然后再考虑选变量。 (pe=0.15,pr=0.151,forward)
16
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE

lasso回归 加协变量

lasso回归 加协变量

lasso回归加协变量
lasso回归是一种常用的变量选择和正则化方法,它可以用于
处理具有大量预测变量的情况。

在回归分析中,当存在大量的预测
变量时,lasso回归可以帮助我们识别对目标变量具有显著影响的
变量,并将其他不相关的变量的系数缩减为零,从而实现变量选择
的功能。

这有助于减少模型的复杂性,提高模型的泛化能力。

加入协变量(covariates)可以帮助我们更好地控制潜在的混
杂因素,提高模型的准确性和可解释性。

通过将协变量纳入模型中,我们可以更好地控制其他可能影响因变量的因素,从而更准确地评
估感兴趣的自变量(预测变量)对因变量的影响。

在使用lasso回归时,加入协变量可以帮助我们更准确地估计
模型参数,降低估计的偏差,提高模型的预测能力。

此外,加入协
变量还可以帮助我们更好地理解模型的结果,找出隐藏的关联关系,从而更好地解释因变量的变化。

总之,结合lasso回归和加入协变量可以帮助我们更好地处理
大量预测变量的情况,提高模型的准确性和可解释性,从而更好地
理解和预测数据。

这种方法在实际应用中被广泛使用,并且在处理复杂数据时表现出色。

lasso变量选择的均方误差

lasso变量选择的均方误差

lasso变量选择的均方误差
LASSO(Least Absolute Shrinkage and Selection Operator)是一种常用的变量选择方法,它通过添加一个L1正则化项来实现变量选择和回归。

对于LASSO的变量选择结果,可以使用均方误差(Mean Squared Error,简称MSE)来评估其预测性能。

均方误差是衡量模型预测结果与真实值之间的平均差异程度的指标。

在LASSO变量选择中,我们可以先在训练集上通过交叉验证选择最佳的正则化参数(通常使用10折交叉验证),然后使用该参数拟合模型,并在测试集上计算均方误差。

具体计算步骤如下:
1. 将数据集划分为训练集和测试集。

2. 在训练集上进行LASSO变量选择,并选择最佳的正则化参数。

3. 使用选定的正则化参数在训练集上拟合模型。

4. 在测试集上进行预测,并计算预测结果与真实值之间的均方误差。

需要注意的是,均方误差越小,说明模型的预测性能越好。

因此,通过比较不同正则化参数对应的均方误差,可以选择最佳的正则化参数,并得到相应的LASSO变量选择结果。

变量的选择——LassoRidgeElasticNet

变量的选择——LassoRidgeElasticNet

变量的选择——LassoRidgeElasticNet对模型参数进⾏限制或者规范化能将⼀些参数朝着0收缩(shrink)。

使⽤收缩的⽅法的效果提升是相当好的,岭回归(ridge regression,后续以ridge代称),lasso和弹性⽹络(elastic net)是常⽤的变量选择的⼀般化版本。

弹性⽹络实际上是结合了岭回归和lasso的特点。

Lasso和Ridge⽐较Lasso的⽬标函数:Ridge的⽬标函数:ridge的正则化因⼦使⽤⼆阶范数,虽然ridge可以将参数估计值向0收缩,但对于任何调优后的参数值,它都⽆法将某些参数值变为严格的0,尽管某些参数估计值变得⾮常⼩以⾄于可以忽略,但实际上它并没有进⾏变量选择。

所以L1范数和L2范数正则化都有助于降低过拟合风险,但L1范数还带来⼀个额外的好处,它⽐L2范数更易于获得“稀疏(sparse)”解,即它所求的w会有更少的⾮零分量。

为何ridge到lasso,从L2范数变成L1范数,lasso就能够把参数估计收缩为0⽽ridge就不⾏呢?对于Lasso⽽⾔,优化下⾯两个⽅程是等价的:也就是说,对每个超参λ,都存在相应的s值,使得上⾯两个⽅程优化后得到的参数估计相同。

类似的,对于Ridge,下⾯两个⽅程等价:当参数维度p=2时,lasso的参数估计是在|β1|+|β2|<=s条件下,β1和β2最⼩化RSS的。

ridge的参数估计是在β12+β22<=s的参数取值中最⼩化RSS的。

当s很⼤时,限制条件⼏乎是⽆效的,lasso和ridge退化为最⼩⼆乘法,相反,如果s很⼩时,那么可能的参数取值范围就⾮常有限。

红线是平⽅误差项RSS的等值线,左侧青绿⾊的正⽅形是L1范数约束下的(β1,β2)的取值空间,右侧青绿⾊的圆形是L2范数约束下的(β1,β2)的取值空间。

上⾯两个⽅程组的解要在平⽅误差项RSS和正则化项之间折中,及出现在图中平⽅误差项等值线与正则化项等值线相交处。

变量筛选:逐步回归最优子集

变量筛选:逐步回归最优子集

变量筛选:逐步回归最优子集影响因素比较多的时候,变量间常常存在着各种各样的关系,单因素的分析结果往往不可靠,我们常常采用的解决方案是多因素的回归分析。

而在进行多因素的回归分析时,如何处理无统计学意义的变量是避不开的问题:保留还是舍弃?这就涉及到变量筛选的问题。

这需要回到研究的开始:研究的目的是什么?是为了校正主要研究因素的混杂因素,还是为了寻找结局的影响因素?是为了建一个预测模型还是为了因果推断?如果你只是想校正其他因素的影响,显然这个时候不需要进行变量的筛选。

我们在进行多因素的方差分析时,即使某个因素没有统计学意义,我们也不会因此把这个没有统计学意义的变量去掉。

但如果是为了寻找研究结局的影响因素,变量筛选就很重要的一个过程。

如果你是为了建立一个预测模型,最终入选模型的变量也未必都具有统计学意义,能达到当前条件下的最佳的预测效果就可以了。

如果是用来推断因果则可能寻求纳入有统计学意义的变量。

另外,我觉得样本量也是一个重要的考量。

考虑到样本量,在进行多因素筛选前,常常先进行单因素分析,将单因素分析中具有统计学意义或接近有统计学意义的变量纳入模型,这就是我们常说的先单后多。

这也是变量筛选的一种方法,可以算是初步筛选。

我们今天说的变量筛选是进行多变量分析时如何舍弃或者保留变量的问题。

变量筛选不是简单地将多因素回归中无统计学意义的变量删除,而是遵循需要一些特殊的方法。

变量筛选专业判断第一,统计方法有逐步回归(先前选择法、向后剔除法、双向选择法)、最优子集筛选、lasso回归等。

Lasso回归题目比较大,后面单独笔记。

全子集回归我们在<<R 笔记:全子集回归| 最优子集筛选>>已做过演示。

今天调用R程序包StepReg来演示逐步回归,该程序包可以实现线性回归、logistic回归、COX风险比例回归的逐步回归,选择变量的方法有向前选择、向后剔除、双向选择以及最优子集选择。

Stepwise Linear Model Regression:stepwise(formula,data,include = NULL,selection = c("forward", "backward", "bidirection", "score"), select = c("AIC", "AICc", "BIC", "CP", "HQ", "HQc", "Rsq", "adjRsq", "SL", "SBC"),sle = 0.15,sls = 0.15,multivarStat = c("Pillai", "Wilks", "Hotelling-Lawley", "Roy"), weights = NULL,best = NULL)Stepwise Logistic RegressionstepwiseLogit(formula,data,include = NULL,selection = c("forward", "backward", "bidirection", "score"), select = c("SL", "AIC", "AICc", "SBC", "HQ", "HQc", "IC(3/2)", "IC(1)"),sle = 0.15,sls = 0.15,sigMethod = c("Rao", "LRT"),weights = NULL,best = NULL)Stepwise Cox Proportional Hazards RegressionstepwiseCox(formula,data,include= NULL,selection = c("forward", "backward", "bidirection", "score"), select = c("SL", "AIC", "AICc", "SBC", "HQ", "HQc", "IC(3/2)", "IC(1)"),sle = 0.15,sls = 0.15,method = c("efron", "breslow", "exact"),weights = NULL,best = NULL)formula指定进行筛选的模型,data指定包含模型变量的数据集,include可以设定强制纳入模型的变量。

lasso 对因变量的要求

lasso 对因变量的要求

lasso 对因变量的要求Lasso回归是一种常用的统计方法,用于处理具有大量自变量的线性回归问题。

与传统的回归方法相比,Lasso回归具有更好的变量选择性能,可以通过对因变量的要求来进行标题分类。

在本文中,我们将探讨Lasso回归对因变量的要求,并说明其在实际应用中的重要性。

我们需要明确Lasso回归的目标是通过最小化残差平方和来拟合数据,并且在此过程中,Lasso回归还会对模型中的自变量进行稀疏化处理,即选择最重要的自变量。

因此,Lasso回归对因变量的要求主要包括以下几个方面。

因变量应该是连续型变量。

Lasso回归是一种用于解决连续型因变量的线性回归问题的方法,因此,对于分类型或有序型因变量,Lasso回归并不适用。

如果我们的因变量是分类型或有序型变量,我们可以考虑使用逻辑回归或有序Logistic回归等其他方法。

因变量应该是线性相关的。

Lasso回归是基于线性回归模型的一种方法,因此,如果因变量与自变量之间存在非线性关系,则Lasso 回归的效果可能不佳。

在实际应用中,我们可以使用数据可视化工具来检查因变量与自变量之间的线性关系,并根据需要进行变量转换或引入非线性项。

因变量应该是没有缺失值的。

Lasso回归需要所有样本的因变量都是完整的,否则无法进行模型拟合。

如果因变量存在缺失值,我们可以考虑使用插补方法或删除缺失值的样本。

因变量应该是没有重复值的。

Lasso回归要求每个样本的因变量是唯一的,如果存在重复值,会导致模型无法进行拟合。

在实际应用中,我们可以通过检查因变量的唯一性来排除重复值。

Lasso回归对因变量的要求包括连续型、线性相关、没有缺失值和没有重复值。

满足这些要求可以确保Lasso回归模型的有效性和准确性。

在实际应用中,我们应该对因变量的数据进行预处理,以满足这些要求,并根据实际情况选择合适的回归方法。

通过合理使用Lasso回归,我们可以更好地理解自变量对因变量的影响,并提高预测模型的准确性和解释性。

关于ADMM的研究(二)

关于ADMM的研究(二)

关于ADMM的研究(⼆)4. Consensus and Sharing本节讲述的两个优化问题,是⾮常常见的优化问题,也⾮常重要,我认为是ADMM算法通往并⾏和分布式计算的⼀个途径:consensus和sharing,即⼀致性优化问题与共享优化问题。

Consensus4.1 全局变量⼀致性优化(Global variable consensus optimization)(切割数据,参数(变量)维数相同)所谓全局变量⼀致性优化问题,即⽬标函数根据数据分解成N⼦⽬标函数(⼦系统),每个⼦系统和⼦数据都可以获得⼀个参数解xi,但是全局解只有⼀个z,于是就可以写成如下优化命题:mins.t.∑i=1Nfi(xi),xi∈Rnxi−z=0注意,此时fi:Rn→R⋃+∞仍是凸函数,⽽xi并不是对参数空间进⾏划分,这⾥是对数据⽽⾔,所以xi维度⼀样xi,z∈Rn,与之前的问题并不太⼀样。

这种问题其实就是所谓的并⾏化处理,或分布式处理,希望从多个分块的数据集中获取相同的全局参数解。

在ADMM算法框架下(先返回最初从扩增lagrangian导出的ADMM),这种问题解法相当明确:Lρ(x1,…,xN,z,y)=∑i=1N(fi(xi)+yTi(xi−z)+(ρ/2)∥xi−z∥22)s.t.C={(x1,…,xN)|x1=…=xN}⟹xk+1izk+1yk+1i=argminx(fi(xi)+(yki)T(xi−zk)+(ρ/2)∥xi−z∥22))=1N∑i=1N(xk+1i+(1ρyki))=yki+ρ(xk+1i−zk+1)对y-update和z-update的yk+1i和zk+1i分别求个平均,易得y¯k+1=0,于是可以知道z-update步其实可以简化为zk+1=x¯k+1,于是上述ADMM其实可以进⼀步化简为如下形式:xk+1iyk+1i=argminx(fi(xi)+(yki)T(xi−x¯k)+(ρ/2)∥xi−x¯k∥22))=yki+ρ(xk+1i−x¯k+1)这种迭代算法写出来了,并⾏化那么就是轻⽽易举了,各个⼦数据分别并⾏求最⼩化,然后将各个⼦数据的解汇集起来求均值,整体更新对偶变量yk,然后再继续回带求最⼩值⾄收敛。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
逐步向前
逐步向后
向后法不适用 与n<p的情况
7
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量(常数项除外)
3.按照自变量对y的贡献大小由大到小依次挑选进入方程(假设检验的P值越小
贡献越大) 4.每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。 5.直到方程外变量均达不到入选标准,没有自变量可被引入方程为止
变量筛选
逐步回归与LASSO
凤鸣岐山 2019年4月10日
1
背景及方法
2
为什么进行变量选择?
1.排除不重要和无关变量,提取有用特征 2.当模型中的变量过多时,可能会出现过拟合 3.防止多重共线性削弱模型的解释能力 4.增强模型的稳定性和准确性
3
方法
变量选 择
子集选 择法 系数压 缩法
降维法
最优子
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
14
X1,X2,X4在方程中,删除哪个变量好?
方程
变量
回归系数
标准误SE
t


x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
18
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17

x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
10
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
x1
0.4742083
0.0263443
18.00

x2
2.2628200
0.2109613
10.73
x4
0.0816762
逐集步法筛
选 岭回归 LASS 主成O 分 偏回最归小 二乘回

当变量数过多时,逐步 法要优于最优子集法
岭回归使模型变得稳定 LASSO使某些系数为0
产生新变量进行回归
4
逐步回归
5
逐步回归中建模的策略
• 建模过程应该从详细的各变量的单因素分析开始 • 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适
9
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t

x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161

x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
x1
0.4742083
0.0263443 18.00

x2
2.2628200
0.210961310.73x40.0816762
0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
11
X2,X4,X1已经在方程中,是否增加X3?
17
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t

x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161

x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
1.选定一个标准(P=0.2)
2.开始所有变量均在方程中 3.按自变量对y的贡献大小由小到大依次剔除变量 4.每剔除一个变量,则重新计算方程内各变量对y的贡献 5.直到方程内变量均达到入选标准,没有自变量可被剔除为止
13
全因素已经在方程中,是否删除X3?
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
8
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
15
逐步向前法
逐步向前法区别于前进法: 每选入一个变量,都要对已在模型中的变量进行检验,
对低于剔除标准的变量要逐一剔除,然后再考虑选变量。 (pe=0.15,pr=0.151,forward)
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
12
后退法基本思想
16
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
宜尺度,及自变量间的必要的一些变量变换 • 在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选 • 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项
6
逐步筛选
前进法 后退法 逐步回归
自动去除高度相关 变量
只考虑自变量进入 模型时是否有意义 考虑到自变量的组 合作用,选中的数 量一般比前进法多 自变量过多或者某 些高度相关,会导 致错误的结果
相关文档
最新文档