线性回归计算方法及公式
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
若H0成立,可把Xj从回归方程中剔除,余下变 量重新构建新的方程。
标准化偏回归系数和确定系数
• 标准化偏回归系数:
在比较各自变量对应变量相对贡献大小时,由 于各自变量的单位不同,不能直接用偏回归系 数的大小作比较,须用标准化偏回归系数。
bj ´ = bj (sj / sy)
确定系数:
简记为R2,即回归平方和SS回归与总离均 差平方和SS总的比例。
y =B0+B1x1+B2x2+…+Bp xp+ (模型)
B0、B1、B2和Bp为待估参数, 为残差。 • 由一组样本数据,可求出等估参数的估计值b0、b1、b2
和bp,,得到如下回归方程:
ŷi =b0+b1x1+b2x2+…+bp xp
• 由此可见,建立回归方程的过程就是对回归模型中的 参数(常数项和偏回归系数)进行估计的过程。
• Cp值最小
Cp=(n-p-1)(MS误差.p/MS误差.全部-1)+(p+1)
选择变量的方法
• 最优子集回归分析法:
p个变量有2p-1个方程 • 逐步回归分析
向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入-剔除法(stepwise selection)
• 逐步引入-剔除法(stepwise selection)
先规定两个阀值F引入和F剔除,当候选变 量中最大F值>=F引入时,引入相应变量; 已进入方程的变量最小F<=F剔除时,剔 除相应变量。如此交替进行直到无引入 和无剔除为止。(计算复杂)
多元线性回归方程的作用
• 因素分析 • 调整混杂因素的作用 • 统计预测
R2 = SS回归/ SS总 可用来定量评价在Y的总变异中,由P个 X变量建立的线性回归方程所能解释的比 例。
回归分析中的若干问题
• 资料要求:总体服从多元正态分布。但实际工 作中分类变量也做分析。
• n足够大,至少应是自变量个数的5倍 • 分类变量在回归分析中的处理方法 有序分类: 治疗效果:x=0(无效 ) x=1(有效) x=2(控制) 无序分类:
H0:K个自变 量为好 H1:K+1个自变量为好
• 向前引入法(forward selection)
自变量由少到多一个一个引入回归方程。 将 corr(y , xj)最大而又能拒绝H0者,最 先引入方程,余此类推。至不能再拒绝 H0为止。
• 向后剔除法(backward selection)
自变量先全部选入方程,每次剔除一个使 上述检验最不能拒绝H0者,直到不能剔 除为止。
例:测量16名四岁男孩心脏纵径X1(CM)、心脏横径 X2(CM)和心象面积Y(CM2)三项指标,得如下数 据。试作象面积Y对心脏纵径X1、心脏横径X2多元线 性回归分析。
例:某科研协作组调查山西某煤矿2期高血压病患者40例, 资料如下表,试进行影响煤矿工人2期高血压病病人收 缩压的多元线性回归分析。
回归方程和偏回归系数的假设检验
回归方程的假设检验: 建立回归方程后,须分析应变量Y与这p个自 变量之间是否确有线性回归关系,可用F分析。 H0: B1=B2=….=Bp=0 H1: H0不正确 =0.05 F = MS回归 / MS误差
MS回归 =SS回归/p SS回归 = bjLjy ( j =1,2….,P) MS误差 =SS误差/(n-p-1) SS误差为残差平方和
回归方程中自变量的选择
• 多元线性回归方程中并非自变量越多越 好,原因是自变量越多剩余标准差可能 变大;同时也增加收集资料的难度。故 需寻求“最佳”回归方程,逐步回归分 析是寻求“较佳”回归方程的一种方法。
选择变量的统计学标准
• R2最大
R2 = SS回归/ SS总
• adjR2最大: adjR2=1-MS误差/ MS总
• • • • • •
多回多标回多
元归元准归元
线 性 回
分 析 中
回 归 分
化 偏 回
方 程 和
线 性 回
内 容
安 归 自 析 归 偏 归
分变中系回模Βιβλιοθήκη 排 析 量 的 数 归 型
的的若和系与
作选干确数参
用择问定的数
题系假估
数设计
检
验
多元线性回归模型与参数估计
• 设有自变量x1,x2,…,xp和因变量Y以及一份由n个个体构 成的随机样本(x1i,x2i,…,xpi,,,Yi),且有如下关系:
有k类,则用k-1变量(伪变量)
• 如职业,分四类可用三个伪变量:
y1 y2 y3
工人 1 0 0
农民
010
干部
001
学生
0 00
• 多元线性回归方程的评价
评价回归方程的优劣、好坏可用确定系 数R2和剩余标准差Sy,x1,2..p 。 Sy,x1,2. p =SQRT(SS误差/n-p-1)
如用于预测,重要的是组外回代结果。
偏回归系数的假设检验
回归方程的假设检验若拒绝H0,则可分别对每 一个偏回归系数bj作统计检验,实质是考察在固 定其它变量后,该变量对应变量 Y 的影响有无 显著性。
H0: Bj=0 H1: Bj不为零 =0.05 F = (Xj 的偏回归平方和/1) / MS误差
Xj 的偏回归平方和:去Xj后回归平方和的减少量
Logistic回归
多元回归分析可用来分析多个自变量与一
个因变量的关系,模型中因变量Y是边连 续性随机变量,并要求呈正态分布。但在
医学研究中,常碰到因变量的取值仅有两
参数的最小二乘估计
• 与简单回归类似,我们寻求参数B0、B1、B2和 Bp的适宜估计数值b0、b1、b2和bp,,使实际观 察值和回归方程估计值之间残差平方和最小,
即 Q= (yi -ŷi) 2
= (yi - b0-b1x1i-b2x2i-…-bp xp i) 2
对b0、b1…、bp分别求偏导数,今偏导数为零 可获得P+1个正规方程,求解正规方程可得待 估参数值。
多元线性回归
• 多元线性回归是简单线性回归的直接推广,其包含一 个因变量和二个或二个以上的自变量。
• 简单线性回归是研究一个因变量(Y)和一个自变量 (X)之间数量上相互依存的线性关系。而多元线性回 归是研究一个因变量(Y)和多个自变量(Xi)之间数 量上相互依存的线性关系。
• 简单线性回归的大部分内容可用于多元回归,因其基 本概念是一样的。
标准化偏回归系数和确定系数
• 标准化偏回归系数:
在比较各自变量对应变量相对贡献大小时,由 于各自变量的单位不同,不能直接用偏回归系 数的大小作比较,须用标准化偏回归系数。
bj ´ = bj (sj / sy)
确定系数:
简记为R2,即回归平方和SS回归与总离均 差平方和SS总的比例。
y =B0+B1x1+B2x2+…+Bp xp+ (模型)
B0、B1、B2和Bp为待估参数, 为残差。 • 由一组样本数据,可求出等估参数的估计值b0、b1、b2
和bp,,得到如下回归方程:
ŷi =b0+b1x1+b2x2+…+bp xp
• 由此可见,建立回归方程的过程就是对回归模型中的 参数(常数项和偏回归系数)进行估计的过程。
• Cp值最小
Cp=(n-p-1)(MS误差.p/MS误差.全部-1)+(p+1)
选择变量的方法
• 最优子集回归分析法:
p个变量有2p-1个方程 • 逐步回归分析
向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入-剔除法(stepwise selection)
• 逐步引入-剔除法(stepwise selection)
先规定两个阀值F引入和F剔除,当候选变 量中最大F值>=F引入时,引入相应变量; 已进入方程的变量最小F<=F剔除时,剔 除相应变量。如此交替进行直到无引入 和无剔除为止。(计算复杂)
多元线性回归方程的作用
• 因素分析 • 调整混杂因素的作用 • 统计预测
R2 = SS回归/ SS总 可用来定量评价在Y的总变异中,由P个 X变量建立的线性回归方程所能解释的比 例。
回归分析中的若干问题
• 资料要求:总体服从多元正态分布。但实际工 作中分类变量也做分析。
• n足够大,至少应是自变量个数的5倍 • 分类变量在回归分析中的处理方法 有序分类: 治疗效果:x=0(无效 ) x=1(有效) x=2(控制) 无序分类:
H0:K个自变 量为好 H1:K+1个自变量为好
• 向前引入法(forward selection)
自变量由少到多一个一个引入回归方程。 将 corr(y , xj)最大而又能拒绝H0者,最 先引入方程,余此类推。至不能再拒绝 H0为止。
• 向后剔除法(backward selection)
自变量先全部选入方程,每次剔除一个使 上述检验最不能拒绝H0者,直到不能剔 除为止。
例:测量16名四岁男孩心脏纵径X1(CM)、心脏横径 X2(CM)和心象面积Y(CM2)三项指标,得如下数 据。试作象面积Y对心脏纵径X1、心脏横径X2多元线 性回归分析。
例:某科研协作组调查山西某煤矿2期高血压病患者40例, 资料如下表,试进行影响煤矿工人2期高血压病病人收 缩压的多元线性回归分析。
回归方程和偏回归系数的假设检验
回归方程的假设检验: 建立回归方程后,须分析应变量Y与这p个自 变量之间是否确有线性回归关系,可用F分析。 H0: B1=B2=….=Bp=0 H1: H0不正确 =0.05 F = MS回归 / MS误差
MS回归 =SS回归/p SS回归 = bjLjy ( j =1,2….,P) MS误差 =SS误差/(n-p-1) SS误差为残差平方和
回归方程中自变量的选择
• 多元线性回归方程中并非自变量越多越 好,原因是自变量越多剩余标准差可能 变大;同时也增加收集资料的难度。故 需寻求“最佳”回归方程,逐步回归分 析是寻求“较佳”回归方程的一种方法。
选择变量的统计学标准
• R2最大
R2 = SS回归/ SS总
• adjR2最大: adjR2=1-MS误差/ MS总
• • • • • •
多回多标回多
元归元准归元
线 性 回
分 析 中
回 归 分
化 偏 回
方 程 和
线 性 回
内 容
安 归 自 析 归 偏 归
分变中系回模Βιβλιοθήκη 排 析 量 的 数 归 型
的的若和系与
作选干确数参
用择问定的数
题系假估
数设计
检
验
多元线性回归模型与参数估计
• 设有自变量x1,x2,…,xp和因变量Y以及一份由n个个体构 成的随机样本(x1i,x2i,…,xpi,,,Yi),且有如下关系:
有k类,则用k-1变量(伪变量)
• 如职业,分四类可用三个伪变量:
y1 y2 y3
工人 1 0 0
农民
010
干部
001
学生
0 00
• 多元线性回归方程的评价
评价回归方程的优劣、好坏可用确定系 数R2和剩余标准差Sy,x1,2..p 。 Sy,x1,2. p =SQRT(SS误差/n-p-1)
如用于预测,重要的是组外回代结果。
偏回归系数的假设检验
回归方程的假设检验若拒绝H0,则可分别对每 一个偏回归系数bj作统计检验,实质是考察在固 定其它变量后,该变量对应变量 Y 的影响有无 显著性。
H0: Bj=0 H1: Bj不为零 =0.05 F = (Xj 的偏回归平方和/1) / MS误差
Xj 的偏回归平方和:去Xj后回归平方和的减少量
Logistic回归
多元回归分析可用来分析多个自变量与一
个因变量的关系,模型中因变量Y是边连 续性随机变量,并要求呈正态分布。但在
医学研究中,常碰到因变量的取值仅有两
参数的最小二乘估计
• 与简单回归类似,我们寻求参数B0、B1、B2和 Bp的适宜估计数值b0、b1、b2和bp,,使实际观 察值和回归方程估计值之间残差平方和最小,
即 Q= (yi -ŷi) 2
= (yi - b0-b1x1i-b2x2i-…-bp xp i) 2
对b0、b1…、bp分别求偏导数,今偏导数为零 可获得P+1个正规方程,求解正规方程可得待 估参数值。
多元线性回归
• 多元线性回归是简单线性回归的直接推广,其包含一 个因变量和二个或二个以上的自变量。
• 简单线性回归是研究一个因变量(Y)和一个自变量 (X)之间数量上相互依存的线性关系。而多元线性回 归是研究一个因变量(Y)和多个自变量(Xi)之间数 量上相互依存的线性关系。
• 简单线性回归的大部分内容可用于多元回归,因其基 本概念是一样的。