5多元线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ t>t2,拒绝H0; t<t2,不能拒绝H0
1 -8
质量管理 学实验
回归系数的推断
(置信区间)
• 回归系数在(1-)%置信水平下的置信区 间为
ˆi t 2 (n p 1)sˆi
•
回归系数的
抽样标准差
•
•
1 -9
质量管理
多重共线性
学实验 (multicollinearity)
1. 回归模型中两个或两个以上的自变量彼此 相关
然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能 剔除时为止,此法的计算量大,有时不能实现。
2.向前法(forward selection) 方程由一个自变量开始,每次引 入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到 无具有统计意义的因素可以引入为止。用此法建立的方程有时不够精炼。
每一步只引入或剔除一个自变量。自变量是否被引入或剔除则取
决于其偏回归平方和的F检验或校正决定系数。
如方程中已引入了(m-1)个自变量,在此基础上考虑再引入变量
Xj 。记引入Xj 后方程(即含m个自变量)的回归平方和为SS回归,残 差为SS残差;之前含(m-1)个自变量(不包含Xj )方程的回归平方和 为SS回归(-j) ,则Xj 的偏回归平方和为 U = SS回归-SS回归(-j),检验
质量管理 学实验
实验五 多元线性回归
1 估计的多元线性回归模型 2 线性回归模型的选择
1 -1
质量管理
多元回归方程
学实验 (multiple regression equation)
1. 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,…,xp的方程
2. 多元线性回归方程的形式为
差平方和(SSE)加以比较,应用 F 检验来分 析二者之间的差别是否显著
如果是显著的,因变量与自变量之间存在线性 关系
如果不显著,因变量与自变量之间不存在线性 关系
1 -5
质量管理 学实验
线性关系检验
1. 提出假设
H0:12p=0 线性关系不显著 H1:1,2,,p至少有一个不等于0
2. 计算检验统计量F
3. 确定显著性水平和分子自由度p、分母自由度np-1找出临界值F
4. 作出决策:若F>F ,拒绝H0
1 -6
质量管理 学实验
回归系数的检验
1. 线性关系检验通过后,对各个回归系数有选 择地进行一次或多次检验
2. 究竟要对哪几个回归系数进行检验,通常需 要在建立模型之前作出决定
3. 对回归系数检验的个数进行限制,以避免犯 过多的第一类错误(弃真错误)
•
E( y ) = 0+ 1 x1 + 2 x2 +…+ p xp
▪ 1,2,,p称为偏回归系数
▪变动i 表一示个假单定位其时他,变y量的不平变均,平当均x变i 动每
值
1 -2
质量管理 学实验
二元回归方程的直观解释
二元线性回归模型
回归面
y
y 0 1x1 2 x2
(观察到的y)
} 0
i
x2
2. 由最小二乘法求得 3. 一般形式为
yˆ ˆ0 ˆ1x1 ˆ2 x2 ˆ p xp
▪ ˆ0 , ˆ1 , ˆ2 ,, ˆ p是 0 , 1 , 2 ,, p
估计值
▪ yˆ 是 y 的估计值
1 -4
质量管理 学实验
线性关系检验
1. 检验因变量与所有自变量之间的是否显著 2. 也被称为总体的显著性检验 3. 检验方法是将回归离差平方和(SSR)同剩余离
统计量为:
Fj=
SS残差
பைடு நூலகம்
U /1 ( / n
m
1)
Fj 服从F (1 ,n - m - 1) 分布
如果Fj>F(1 ,n - m - 1),则 Xj选入方程;否则,不入选。
从方程中剔除无统计学作用的自变量,过程则相反,但检验一样。
3. 多元逐步回归的检验水平
在进行逐步回归前,首先应确定检验水平,以作为 引入或剔除变量的标准。检验水平可以根据具体情况而
避免根据 t 统计量对单个参数进行检验
对因变量值的推断(估计或预测)的限定在自 变量样本值的范围内
1 - 11
多元逐步回归 (multiple stepwise regression)
1. 多元逐步回归的基本思想
多元逐步回归(multiple stepwise regression)
有三种筛选自变量的方法 : 1.向后法(Backward selection) 先建立一个全因素的回归方程,
2. 综合考虑各种因素,从“最佳子集”中选出 一组或几组最满意的自变量,产生最佳( 最优)回归方程
1 - 16
结束
定,一般可将 F 值定在 为0.05、0.10或0.20水平
上。对于回归方程的选入和剔除水平往往选择
选入≤剔除。 选择不同的F 值(或水平),其回归方程的结果可 能不一致,一般可选不同的F 值(或值) 作调试。至
于何种结果是正确的,必须结合医学的实际意义来确定。
质量管理 学实验
最佳子集回归
1. 找出多个“最佳回归方程”:每个最佳方程 都有一组自变量
(x1,x2)
x1
E( y) 0 1x1 2 x2
1 -3
质量管理 估计的多元回归的方程
学实验(estimated multiple regression equation)
1. 用样本统计量 ˆ0 , ˆ1 , ˆ2 ,, ˆ p 估计回归方 程中的 参数 0 , 1 , 2 ,, p 时得到的方程
2. 多重共线性带来的问题有
可能会使回归的结果造成混乱,甚至会把分 析引入歧途
可能对参数估计值的正负号产生影响,特别 是各回归系数的正负号有可能同我们与其的 正负号相反
1 - 10
质量管理 学实验
多重共线性
(问题的处理)
1. 将一个或多个相关的自变量从模型中剔除 ,使保留的自变量尽可能不相关
2. 如果要在模型中保留所有的自变量,则应
4. 对每一个自变量都要单独进行检验 5. 应用 t 检验统计量
1 -7
质量管理 学实验
回归系数的检验
(步骤)
1. 提出假设
H0: i = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: i 0 (自变量 xi 与 因变量 y有线性关系)
2. 计算检验的统计量 t
3. 确定显著性水平,并进行决策
3. 逐步法(stepwise selecfion) 取上述两种方法的优点,在向前 引入每一个新自变量之后都要重新对前已选入的自变量进行检查,以评价 其有无继续保留在方程中的价值。为此引入和剔除交替进行,直到无具有 统计学意义的新变量可以引入也无失去其统计学意义的自变量可以剔除时 为止。
2.多元逐步回归的基本原理
1 -8
质量管理 学实验
回归系数的推断
(置信区间)
• 回归系数在(1-)%置信水平下的置信区 间为
ˆi t 2 (n p 1)sˆi
•
回归系数的
抽样标准差
•
•
1 -9
质量管理
多重共线性
学实验 (multicollinearity)
1. 回归模型中两个或两个以上的自变量彼此 相关
然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能 剔除时为止,此法的计算量大,有时不能实现。
2.向前法(forward selection) 方程由一个自变量开始,每次引 入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到 无具有统计意义的因素可以引入为止。用此法建立的方程有时不够精炼。
每一步只引入或剔除一个自变量。自变量是否被引入或剔除则取
决于其偏回归平方和的F检验或校正决定系数。
如方程中已引入了(m-1)个自变量,在此基础上考虑再引入变量
Xj 。记引入Xj 后方程(即含m个自变量)的回归平方和为SS回归,残 差为SS残差;之前含(m-1)个自变量(不包含Xj )方程的回归平方和 为SS回归(-j) ,则Xj 的偏回归平方和为 U = SS回归-SS回归(-j),检验
质量管理 学实验
实验五 多元线性回归
1 估计的多元线性回归模型 2 线性回归模型的选择
1 -1
质量管理
多元回归方程
学实验 (multiple regression equation)
1. 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,…,xp的方程
2. 多元线性回归方程的形式为
差平方和(SSE)加以比较,应用 F 检验来分 析二者之间的差别是否显著
如果是显著的,因变量与自变量之间存在线性 关系
如果不显著,因变量与自变量之间不存在线性 关系
1 -5
质量管理 学实验
线性关系检验
1. 提出假设
H0:12p=0 线性关系不显著 H1:1,2,,p至少有一个不等于0
2. 计算检验统计量F
3. 确定显著性水平和分子自由度p、分母自由度np-1找出临界值F
4. 作出决策:若F>F ,拒绝H0
1 -6
质量管理 学实验
回归系数的检验
1. 线性关系检验通过后,对各个回归系数有选 择地进行一次或多次检验
2. 究竟要对哪几个回归系数进行检验,通常需 要在建立模型之前作出决定
3. 对回归系数检验的个数进行限制,以避免犯 过多的第一类错误(弃真错误)
•
E( y ) = 0+ 1 x1 + 2 x2 +…+ p xp
▪ 1,2,,p称为偏回归系数
▪变动i 表一示个假单定位其时他,变y量的不平变均,平当均x变i 动每
值
1 -2
质量管理 学实验
二元回归方程的直观解释
二元线性回归模型
回归面
y
y 0 1x1 2 x2
(观察到的y)
} 0
i
x2
2. 由最小二乘法求得 3. 一般形式为
yˆ ˆ0 ˆ1x1 ˆ2 x2 ˆ p xp
▪ ˆ0 , ˆ1 , ˆ2 ,, ˆ p是 0 , 1 , 2 ,, p
估计值
▪ yˆ 是 y 的估计值
1 -4
质量管理 学实验
线性关系检验
1. 检验因变量与所有自变量之间的是否显著 2. 也被称为总体的显著性检验 3. 检验方法是将回归离差平方和(SSR)同剩余离
统计量为:
Fj=
SS残差
பைடு நூலகம்
U /1 ( / n
m
1)
Fj 服从F (1 ,n - m - 1) 分布
如果Fj>F(1 ,n - m - 1),则 Xj选入方程;否则,不入选。
从方程中剔除无统计学作用的自变量,过程则相反,但检验一样。
3. 多元逐步回归的检验水平
在进行逐步回归前,首先应确定检验水平,以作为 引入或剔除变量的标准。检验水平可以根据具体情况而
避免根据 t 统计量对单个参数进行检验
对因变量值的推断(估计或预测)的限定在自 变量样本值的范围内
1 - 11
多元逐步回归 (multiple stepwise regression)
1. 多元逐步回归的基本思想
多元逐步回归(multiple stepwise regression)
有三种筛选自变量的方法 : 1.向后法(Backward selection) 先建立一个全因素的回归方程,
2. 综合考虑各种因素,从“最佳子集”中选出 一组或几组最满意的自变量,产生最佳( 最优)回归方程
1 - 16
结束
定,一般可将 F 值定在 为0.05、0.10或0.20水平
上。对于回归方程的选入和剔除水平往往选择
选入≤剔除。 选择不同的F 值(或水平),其回归方程的结果可 能不一致,一般可选不同的F 值(或值) 作调试。至
于何种结果是正确的,必须结合医学的实际意义来确定。
质量管理 学实验
最佳子集回归
1. 找出多个“最佳回归方程”:每个最佳方程 都有一组自变量
(x1,x2)
x1
E( y) 0 1x1 2 x2
1 -3
质量管理 估计的多元回归的方程
学实验(estimated multiple regression equation)
1. 用样本统计量 ˆ0 , ˆ1 , ˆ2 ,, ˆ p 估计回归方 程中的 参数 0 , 1 , 2 ,, p 时得到的方程
2. 多重共线性带来的问题有
可能会使回归的结果造成混乱,甚至会把分 析引入歧途
可能对参数估计值的正负号产生影响,特别 是各回归系数的正负号有可能同我们与其的 正负号相反
1 - 10
质量管理 学实验
多重共线性
(问题的处理)
1. 将一个或多个相关的自变量从模型中剔除 ,使保留的自变量尽可能不相关
2. 如果要在模型中保留所有的自变量,则应
4. 对每一个自变量都要单独进行检验 5. 应用 t 检验统计量
1 -7
质量管理 学实验
回归系数的检验
(步骤)
1. 提出假设
H0: i = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: i 0 (自变量 xi 与 因变量 y有线性关系)
2. 计算检验的统计量 t
3. 确定显著性水平,并进行决策
3. 逐步法(stepwise selecfion) 取上述两种方法的优点,在向前 引入每一个新自变量之后都要重新对前已选入的自变量进行检查,以评价 其有无继续保留在方程中的价值。为此引入和剔除交替进行,直到无具有 统计学意义的新变量可以引入也无失去其统计学意义的自变量可以剔除时 为止。
2.多元逐步回归的基本原理