多重线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
29
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选 这就是自变量的选择问题,或称为变量筛选。 这就是自变量的选择问题,或称为变量筛选。 选择时, 选择时, 一要尽可能地不漏掉重要的自变量; 一要尽可能地不漏掉重要的自变量; 不漏掉重要的自变量 二要尽可能地减少自变量的个数, 尽可能地减少自变量的个数 二要尽可能地减少自变量的个数,保持模型 的精简。 的精简。
15
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验 模型的显著性检验步骤为: 模型的显著性检验步骤为: 第二步,计算统计量 的值。 的值。 第二步,计算统计量F的值
SS回 / k F= ~ F( k , n − k −1) SS残 / ( n − k − 1)
16
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验 模型的显著性检验步骤为: 模型的显著性检验步骤为: 第三步,确定 值,下统计学结论。 第三步,确定P值 下统计学结论。 根据检验统计量F的值和自由度, 根据检验统计量 的值和自由度,确定其对 的值和自由度 应的P值 则接受H 应的 值。若P>α,则接受 0,认为回归模型的系 数全部为0; 则拒绝H 接受H 数全部为 ;若P<α,则拒绝 0,接受 1,认为回 归模型的系数不全为0。 归模型的系数不全为 。
30
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选 就回归方程而言,每个变量均有两种可能性, 就回归方程而言,每个变量均有两种可能性, 即被选择或被踢除。所以,所有可能的模型有 k 即被选择或被踢除。所以,所有可能的模型有2 为自变量个数)。 个(k为自变量个数 。 为自变量个数 自变量个数较多时,计算量过大。此时, 自变量个数较多时,计算量过大。此时,需 要一定的变量筛选方法。 要一定的变量筛选方法。
24
三、分析步骤
表2
id 1 2 3 : 25 : 33 x1 120.50 133.50 121.50 : 126.00 : 124.50
33名8岁正常男童的观测数据 名 岁正常男童的观测数据
x2 20.50 27.50 21.00 : 25.00 : 24.00 x3 8.33 9.60 8.80 : 9.10 : 9.50 x4 8.80 10.30 9.70 : 10.20 : 9.90 x5 7.20 8.10 8.00 : 7.70 : 7.80 x6 18.40 21.60 19.80 : 20.90 : 20.80 y 48.28 66.89 54.73 : 49.09 : 57.00
22
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 或 , 若t > tα/2(n-k-1)或t <- tα/2(n-k-1),则P<α。此 时,拒绝 0,接受 1,认为该回归系数不等于 。 拒绝H 接受H 认为该回归系数不等于0。 反之,则接受H 认为该回归系数为0。 反之,则接受 0,认为该回归系数为 。
多重线性回归分析
军事医学科学院 统计学教研室 高 辉
内 容
方法简介
基本原理
分析步骤
几点补充
2
一、方法简介
• 1.1 分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时 简单线性回归分析 研究一个因变量与多个自变量间的线性关系时 多重线性回归分析 研究多个因变量与多个自变量间的线性关系时 多元多重线性回归分析
26
proc reg; model y=x1-x6; run;
三、分析步骤
• SAS结果 结果 模型检验结果
Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F
Model Error Corrected Total
6
二、基本原理
• 2.1 原理简介 多重线性回归模型中包含多个自变量,它们 多重线性回归模型中包含多个自变量, 同时对因变量Y 发生作用。 同时对因变量 发生作用。
若要考察一个自变量对Y 的影响, 若要考察一个自变量对 的影响,就必须假 设其他自变量保持不变。 设其他自变量保持不变。
7
二、基本原理
23
三、分析步骤
为推算少年儿童心脏面积, 例1 为推算少年儿童心脏面积,重庆医科大 学对33名 岁正常男童进行观测 获得身高(x 岁正常男童进行观测, 学对 名8岁正常男童进行观测,获得身高 1,cm)、 、 体重(x 心脏横径(x 体重 2,cm) 、心脏横径 3,cm) 、心脏纵径 (x4,cm) 、心脏宽径 5,cm) 、胸腔横径 6,cm)及心 心脏宽径(x 胸腔横径(x 及心 脏面积(y,cm2)的值,结果如表 。 的值, 脏面积 的值 结果如表2。
17
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 回归方程有统计学意义, 回归方程有统计学意义,可以说明整ቤተ መጻሕፍቲ ባይዱ上自 变量对Y 有影响,但并不意味着每个自变量对因 变量对 有影响, 变量的影响都有统计学意义。 变量的影响都有统计学意义。
18
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 考察各个自变量对因变量的影响, 考察各个自变量对因变量的影响,即检验其 系数是否为0。 系数是否为 。
10
三、分析步骤
• 1. 基本任务 求出模型中参数的估计值,对模型和参数进 求出模型中参数的估计值, 行假设检验; 行假设检验; 对自变量进行共线性诊断,对观测值进行异 对自变量进行共线性诊断, 常值诊断; 常值诊断; 结合统计学知识和专业知识, 结合统计学知识和专业知识,对回归方程进 行合理的解释,并加以应用。 行合理的解释,并加以应用。
28
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选 由例1的分析结果可知, 由例 的分析结果可知,不是所有的自变量都 的分析结果可知 对因变量的作用都有统计学意义。 对因变量的作用都有统计学意义。 故需要找到一个较好的回归方程,使之满足: 故需要找到一个较好的回归方程,使之满足: 方程内的自变量对回归都有统计学意义, 方程内的自变量对回归都有统计学意义,方程外 的自变量对回归都无统计学意义。 的自变量对回归都无统计学意义。
3
一、方法简介
• 1.2 概念 用回归方程定量地刻画一个因变量与多个自 用回归方程定量地刻画一个因变量与多个自 变量之间的线性依存关系, 变量之间的线性依存关系,称为多重线性回归分 析(multiple linear regression analysis)。 )。
自变量是相互独立的连续型变量或分类变量。 自变量是相互独立的连续型变量或分类变量。
20
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 第二步,计算检验统计量。 第二步,计算检验统计量。
t=
ˆ S βi
( )
ˆ βi
v = n − k −1
21
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 第三步,确定P值 第三步,确定 值。 根据自由度和临界水平,查t分布表,可得双 分布表, 根据自由度和临界水平, 分布表 侧界值为t 侧界值为 α/2(n-k-1)。 。
6 26 32
1985.79167 330.96528 156.48088 2142.27255 6.01850
54.99
<.0001
27
三、分析步骤
• SAS结果 结果 参数估计及假设检验结果
Parameter Estimates Variable Intercept x1 x2 x3 x4 x5 x6 DF 1 1 1 1 1 1 1 Parameter Standard Estimate Error -83.18036 0.30246 -0.50435 3.76741 4.06703 4.80679 0.14286 16.97446 0.18782 0.36265 1.50330 1.58690 1.34487 0.82343 t Value -4.90 1.61 -1.39 2.51 2.56 3.57 0.17 Pr > |t| <.0001 0.1194 0.1761 0.0188 0.0165 0.0014 0.8636
8
二、基本原理
• 2.2 前提条件 多重线性回归分析要求资料满足线性(Linear)、 多重线性回归分析要求资料满足线性 、 独立性(Independence)、正态性(Normality)和方 、正态性 独立性 和方 差齐性(Equal variance), LINE条件 条件。 差齐性(Equal variance),即LINE条件。
若某自变量对因变量的影响无统计学意义, 若某自变量对因变量的影响无统计学意义, 可将其从模型中删除,重新建立回归方程。 可将其从模型中删除,重新建立回归方程。
19
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 进行假设检验, 对自变量X 的系数是否为0进行假设检验 对自变量 i的系数是否为 进行假设检验, 步骤为: 步骤为: 第一步,建立检验假设。 第一步,建立检验假设。 H0:βi=0 H1: βi≠0
4
一、方法简介
• 1.3 数据结构
表1 进行多重线性回归分析资料的数据结构 编号 1 2 : n X1 X11 X21 : Xn1 X2 X12 X22 : Xn2 … … … … Xk X1k X2k : Xnk Y Y1 Y2 : Yn
5
二、基本原理
• 2.1 原理简介 多重线性回归模型: 多重线性回归模型: Y=β0+β1X1+β2X2+…+βkXk+ε=βX+ε + 其中,βj (j=0, 1 , 2 … , k)为未知参数,ε为随机 为未知参数, 其中, 为未知参数 误差项。 误差项。
除此之外, 除此之外,还要求多个自变量之间相关性不 要太强。 要太强。
9
二、基本原理
• 2.2 前提条件 线性——指自变量与因变量之间的关系是线性的 线性 指自变量与因变量之间的关系是线性的 独立性——指各观测值之间是相互独立的 指各观测值之间是相互独立的 独立性 正态性——指自变量取不同值时,因变量服从正 指自变量取不同值时, 正态性 指自变量取不同值时 态分布 方差齐性——指自变量取不同值时,因变量的方 指自变量取不同值时, 方差齐性 指自变量取不同值时 差相等
11
三、分析步骤
• 2. 具体步骤 • 2.1 回归参数估计 多重线性回归分析的参数估计, 多重线性回归分析的参数估计,常采用最小 二乘法(OLS)进行。 进行。 二乘法 进行 参数估计值为: 参数估计值为:
ˆ = ( X ′X )-1 X ′Y β
12
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验 根据方差分析的思想, 根据方差分析的思想,将总的离均差平方和 SS总分解为回归平方和SS回和残差平方和 残两部 和残差平方和SS 分解为回归平方和 分。 的自由度为n-1, 的自由度为k, SS总的自由度为 , SS回的自由度为 , SS残的自由度为 的自由度为n-k-1。 。
• 2.1 原理简介 因此,多重线性回归模型中的回归系数为偏 因此,多重线性回归模型中的回归系数为偏 回归系数。 回归系数。
它反映的是当模型中的其他自变量不变时, 它反映的是当模型中的其他自变量不变时, 其他自变量不变时 其中一个自变量对因变量 的均值的影响。 其中一个自变量对因变量Y 的均值的影响。 一个自变量对因变量
13
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
SS总 = SS回 = SS残 =
∑ (y − y )
ˆ ∑ (y − y ) ˆ ∑ (y − y)
2
2
2
14
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验 模型的显著性检验步骤为: 模型的显著性检验步骤为: 第一步,建立检验假设。 第一步,建立检验假设。 H0:β1=β2= … =βk=0 H1: β1, β2, …, βk不同时为 不同时为0
25
三、分析步骤
• SAS程序如下 程序如下
data a; input id x1-x6 y; cards; 1 120.50 20.50 8.33 8.80 7.20 18.40 48.28 2 133.50 27.50 9.60 10.30 8.10 21.60 66.89 3 121.50 21.00 8.80 9.70 8.00 19.80 54.73 …… ; run;
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选 这就是自变量的选择问题,或称为变量筛选。 这就是自变量的选择问题,或称为变量筛选。 选择时, 选择时, 一要尽可能地不漏掉重要的自变量; 一要尽可能地不漏掉重要的自变量; 不漏掉重要的自变量 二要尽可能地减少自变量的个数, 尽可能地减少自变量的个数 二要尽可能地减少自变量的个数,保持模型 的精简。 的精简。
15
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验 模型的显著性检验步骤为: 模型的显著性检验步骤为: 第二步,计算统计量 的值。 的值。 第二步,计算统计量F的值
SS回 / k F= ~ F( k , n − k −1) SS残 / ( n − k − 1)
16
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验 模型的显著性检验步骤为: 模型的显著性检验步骤为: 第三步,确定 值,下统计学结论。 第三步,确定P值 下统计学结论。 根据检验统计量F的值和自由度, 根据检验统计量 的值和自由度,确定其对 的值和自由度 应的P值 则接受H 应的 值。若P>α,则接受 0,认为回归模型的系 数全部为0; 则拒绝H 接受H 数全部为 ;若P<α,则拒绝 0,接受 1,认为回 归模型的系数不全为0。 归模型的系数不全为 。
30
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选 就回归方程而言,每个变量均有两种可能性, 就回归方程而言,每个变量均有两种可能性, 即被选择或被踢除。所以,所有可能的模型有 k 即被选择或被踢除。所以,所有可能的模型有2 为自变量个数)。 个(k为自变量个数 。 为自变量个数 自变量个数较多时,计算量过大。此时, 自变量个数较多时,计算量过大。此时,需 要一定的变量筛选方法。 要一定的变量筛选方法。
24
三、分析步骤
表2
id 1 2 3 : 25 : 33 x1 120.50 133.50 121.50 : 126.00 : 124.50
33名8岁正常男童的观测数据 名 岁正常男童的观测数据
x2 20.50 27.50 21.00 : 25.00 : 24.00 x3 8.33 9.60 8.80 : 9.10 : 9.50 x4 8.80 10.30 9.70 : 10.20 : 9.90 x5 7.20 8.10 8.00 : 7.70 : 7.80 x6 18.40 21.60 19.80 : 20.90 : 20.80 y 48.28 66.89 54.73 : 49.09 : 57.00
22
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 或 , 若t > tα/2(n-k-1)或t <- tα/2(n-k-1),则P<α。此 时,拒绝 0,接受 1,认为该回归系数不等于 。 拒绝H 接受H 认为该回归系数不等于0。 反之,则接受H 认为该回归系数为0。 反之,则接受 0,认为该回归系数为 。
多重线性回归分析
军事医学科学院 统计学教研室 高 辉
内 容
方法简介
基本原理
分析步骤
几点补充
2
一、方法简介
• 1.1 分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时 简单线性回归分析 研究一个因变量与多个自变量间的线性关系时 多重线性回归分析 研究多个因变量与多个自变量间的线性关系时 多元多重线性回归分析
26
proc reg; model y=x1-x6; run;
三、分析步骤
• SAS结果 结果 模型检验结果
Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F
Model Error Corrected Total
6
二、基本原理
• 2.1 原理简介 多重线性回归模型中包含多个自变量,它们 多重线性回归模型中包含多个自变量, 同时对因变量Y 发生作用。 同时对因变量 发生作用。
若要考察一个自变量对Y 的影响, 若要考察一个自变量对 的影响,就必须假 设其他自变量保持不变。 设其他自变量保持不变。
7
二、基本原理
23
三、分析步骤
为推算少年儿童心脏面积, 例1 为推算少年儿童心脏面积,重庆医科大 学对33名 岁正常男童进行观测 获得身高(x 岁正常男童进行观测, 学对 名8岁正常男童进行观测,获得身高 1,cm)、 、 体重(x 心脏横径(x 体重 2,cm) 、心脏横径 3,cm) 、心脏纵径 (x4,cm) 、心脏宽径 5,cm) 、胸腔横径 6,cm)及心 心脏宽径(x 胸腔横径(x 及心 脏面积(y,cm2)的值,结果如表 。 的值, 脏面积 的值 结果如表2。
17
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 回归方程有统计学意义, 回归方程有统计学意义,可以说明整ቤተ መጻሕፍቲ ባይዱ上自 变量对Y 有影响,但并不意味着每个自变量对因 变量对 有影响, 变量的影响都有统计学意义。 变量的影响都有统计学意义。
18
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 考察各个自变量对因变量的影响, 考察各个自变量对因变量的影响,即检验其 系数是否为0。 系数是否为 。
10
三、分析步骤
• 1. 基本任务 求出模型中参数的估计值,对模型和参数进 求出模型中参数的估计值, 行假设检验; 行假设检验; 对自变量进行共线性诊断,对观测值进行异 对自变量进行共线性诊断, 常值诊断; 常值诊断; 结合统计学知识和专业知识, 结合统计学知识和专业知识,对回归方程进 行合理的解释,并加以应用。 行合理的解释,并加以应用。
28
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选 由例1的分析结果可知, 由例 的分析结果可知,不是所有的自变量都 的分析结果可知 对因变量的作用都有统计学意义。 对因变量的作用都有统计学意义。 故需要找到一个较好的回归方程,使之满足: 故需要找到一个较好的回归方程,使之满足: 方程内的自变量对回归都有统计学意义, 方程内的自变量对回归都有统计学意义,方程外 的自变量对回归都无统计学意义。 的自变量对回归都无统计学意义。
3
一、方法简介
• 1.2 概念 用回归方程定量地刻画一个因变量与多个自 用回归方程定量地刻画一个因变量与多个自 变量之间的线性依存关系, 变量之间的线性依存关系,称为多重线性回归分 析(multiple linear regression analysis)。 )。
自变量是相互独立的连续型变量或分类变量。 自变量是相互独立的连续型变量或分类变量。
20
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 第二步,计算检验统计量。 第二步,计算检验统计量。
t=
ˆ S βi
( )
ˆ βi
v = n − k −1
21
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 第三步,确定P值 第三步,确定 值。 根据自由度和临界水平,查t分布表,可得双 分布表, 根据自由度和临界水平, 分布表 侧界值为t 侧界值为 α/2(n-k-1)。 。
6 26 32
1985.79167 330.96528 156.48088 2142.27255 6.01850
54.99
<.0001
27
三、分析步骤
• SAS结果 结果 参数估计及假设检验结果
Parameter Estimates Variable Intercept x1 x2 x3 x4 x5 x6 DF 1 1 1 1 1 1 1 Parameter Standard Estimate Error -83.18036 0.30246 -0.50435 3.76741 4.06703 4.80679 0.14286 16.97446 0.18782 0.36265 1.50330 1.58690 1.34487 0.82343 t Value -4.90 1.61 -1.39 2.51 2.56 3.57 0.17 Pr > |t| <.0001 0.1194 0.1761 0.0188 0.0165 0.0014 0.8636
8
二、基本原理
• 2.2 前提条件 多重线性回归分析要求资料满足线性(Linear)、 多重线性回归分析要求资料满足线性 、 独立性(Independence)、正态性(Normality)和方 、正态性 独立性 和方 差齐性(Equal variance), LINE条件 条件。 差齐性(Equal variance),即LINE条件。
若某自变量对因变量的影响无统计学意义, 若某自变量对因变量的影响无统计学意义, 可将其从模型中删除,重新建立回归方程。 可将其从模型中删除,重新建立回归方程。
19
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验 进行假设检验, 对自变量X 的系数是否为0进行假设检验 对自变量 i的系数是否为 进行假设检验, 步骤为: 步骤为: 第一步,建立检验假设。 第一步,建立检验假设。 H0:βi=0 H1: βi≠0
4
一、方法简介
• 1.3 数据结构
表1 进行多重线性回归分析资料的数据结构 编号 1 2 : n X1 X11 X21 : Xn1 X2 X12 X22 : Xn2 … … … … Xk X1k X2k : Xnk Y Y1 Y2 : Yn
5
二、基本原理
• 2.1 原理简介 多重线性回归模型: 多重线性回归模型: Y=β0+β1X1+β2X2+…+βkXk+ε=βX+ε + 其中,βj (j=0, 1 , 2 … , k)为未知参数,ε为随机 为未知参数, 其中, 为未知参数 误差项。 误差项。
除此之外, 除此之外,还要求多个自变量之间相关性不 要太强。 要太强。
9
二、基本原理
• 2.2 前提条件 线性——指自变量与因变量之间的关系是线性的 线性 指自变量与因变量之间的关系是线性的 独立性——指各观测值之间是相互独立的 指各观测值之间是相互独立的 独立性 正态性——指自变量取不同值时,因变量服从正 指自变量取不同值时, 正态性 指自变量取不同值时 态分布 方差齐性——指自变量取不同值时,因变量的方 指自变量取不同值时, 方差齐性 指自变量取不同值时 差相等
11
三、分析步骤
• 2. 具体步骤 • 2.1 回归参数估计 多重线性回归分析的参数估计, 多重线性回归分析的参数估计,常采用最小 二乘法(OLS)进行。 进行。 二乘法 进行 参数估计值为: 参数估计值为:
ˆ = ( X ′X )-1 X ′Y β
12
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验 根据方差分析的思想, 根据方差分析的思想,将总的离均差平方和 SS总分解为回归平方和SS回和残差平方和 残两部 和残差平方和SS 分解为回归平方和 分。 的自由度为n-1, 的自由度为k, SS总的自由度为 , SS回的自由度为 , SS残的自由度为 的自由度为n-k-1。 。
• 2.1 原理简介 因此,多重线性回归模型中的回归系数为偏 因此,多重线性回归模型中的回归系数为偏 回归系数。 回归系数。
它反映的是当模型中的其他自变量不变时, 它反映的是当模型中的其他自变量不变时, 其他自变量不变时 其中一个自变量对因变量 的均值的影响。 其中一个自变量对因变量Y 的均值的影响。 一个自变量对因变量
13
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
SS总 = SS回 = SS残 =
∑ (y − y )
ˆ ∑ (y − y ) ˆ ∑ (y − y)
2
2
2
14
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验 模型的显著性检验步骤为: 模型的显著性检验步骤为: 第一步,建立检验假设。 第一步,建立检验假设。 H0:β1=β2= … =βk=0 H1: β1, β2, …, βk不同时为 不同时为0
25
三、分析步骤
• SAS程序如下 程序如下
data a; input id x1-x6 y; cards; 1 120.50 20.50 8.33 8.80 7.20 18.40 48.28 2 133.50 27.50 9.60 10.30 8.10 21.60 66.89 3 121.50 21.00 8.80 9.70 8.00 19.80 54.73 …… ; run;