5多元线性回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.6737 0.3679 0.5231 0.5104 0.6343 0.6985
Non-significant !!
自变量共线性引起的问题之二:符号错误
例2:吸氧效率的研究 Y:吸氧效率 X1:年龄 X2:跑1.5公里所需的时间(分钟) X3:跑步时的心跳率 X4:最高心跳率
例2的相关系数表
吸氧 年龄 跑步 跑步 最高
4、模型的诊断 (diagnosis)
• 数据应满足的假设条件(assumption): a) 自变量之间不存在多重共线性; b) 自变量与残差独立; c) 残差 的均值为零,方差为常数; d) 残差之间相互独立 ; e) 残差服从正态分布。
• 不满足条件导致的后果: a) 结论不唯一; b) 模型中缺少重要自变量; c) 参数估计出现偏倚; d) 结果失真; e) 统计检验结果出现偏倚。
举例说明
诊断自变量多重共线性的 必要性
多重共线性
multicollinearity
显著性消失 符号错误
不分 稳析 定结
果
自变量共线性引起的问题之一:显著性消失
例1:儿童心象面积的研究 Y: 心象面积(平方厘米) X1:性别(男=1,女=2) X2:年龄(月) X3:身高(厘米) X4:体重(公斤) X5:胸围(厘米)
t-检验法: H0: βj =0 vs H1:βj ≠0
(j=1,2,…,k)
3、检验模型
F-检验法: H0:β1=…= βk = 0 vs H1:βj≠0
模型显著性检验的方差分析表:
判断模型的另一个指标: 复确定系数(multiple determinent coefficient)
--------------它表示了因变量 y 的总体变异中被所有 自变量所解释的比例。 校正复确定系数 (adjusted multiple determinent coefficient)
Multicollinearity !!
例1 的回归分析结果:
模型总体检验:p=0.0002,R-sq=0.95 参数估计和检验
Var DF Est SE T Prob > |T|
Int 1 54.58 124.3 0.439 X1 1 -7.76 8.07 -0.962 X2 1 0.12 0.18 0.672 X3 1 0.29 0.42 0.693 X4 1 1.12 2.26 0.497 X5 1 -0.94 2.33 -0.404
……
n xn yn
y
εi 。。
。。。(。x。i, yi)。。。 。。
。
。。
x
0
一元线性回归模型
模型: yi=α+ β xi + εi
(wenku.baidu.com=1,2…n)
数据的假设条件:
1. 因变量是连续随机变量; 2. 自变量是固定数值型变量,且相互独立; 3. 每一个自变量与因变量呈线性关系; 4. 每一个自变量与随机误差相互独立; 5. 观察个体的随机误差之间相互独立; 6. 随机误差{ei}~N(0,σ)。
回归分析的分类
一个 因变 量y
连续型因变量 (y) ---线性或非线性回归分析 分类型因变量 (y) ---Logistic 回归分析 生存时间因变量 (t) ---生存风险回归分析 时间序列因变量 (t) ---时间序列分析
多个因变量 (y1,y2…yk)
路径分析 结构方程模型分析
例如:各种回归分析的比较
第一节 多元线性回归分析的基本思想
多元线性回归分析: 研究一个因变量与一组自变量的依存关系, 即,研究一组自变量是如何直接影响一个因 变量的。
第二节 多元线性回归分析的数学模型
数据:
id x 1 … x j … xk y -----------------------------------------------------1 x11 … x1j … x1k y1 … … … ……… … i x i1 … x ij … xik yi … … … ……… … n xn1 … xnj … xnk yn
5多元线性回归分析
多元统计分析方法
The Methods of Multivariate Statistical Analysis
第五章
多元线性回归分析
➢ 什么是多元线性回归分析? ➢ 多元线性回归分析的数学模型 ➢ 多元线性回归分析的方法步骤 ➢ 多元线性回归分析的逐步回归法 ➢ 多元相关分析 ➢ 多元线性回归分析在医学中的应用
效率
时间 心跳率 心跳率
y X1 X2 X3 X4
X1 -0.20 1.00
High correlated
X2 -0.80 -0.15 1.00
X3 -0.49 -0.32 0.36 1.00
X4 -0.37 -0.42 0.28 0.93 1.00
Negative correlated
例2的分析结果: 模型总体检验:p=0.0001,R-sq=0.85 参数估计和检验 Var DF Est SE T Prob > |T| int 1 96.61 12.2 7.91 0.0001 X1 1 -0.19 0.09 -1.99 0.0574 X2 1 -2.88 0.35 -8.14 0.0001 X3 1 -0.34 0.12 -2.95 0.0068 X4 1 0.28 0.13 2.06 0.0493
第三节 多元线性回归分析的方法步骤
1. 估计偏回归系数b0,b1…bk; 2. 检验回归系数b0,b1…bk的统计意义; 3. 检验模型y=b0+b1x1+…+bkxk的统计意义; 4. 诊断模型; 5. 解释模型参数的实际意义。
1、估计偏回归系数 最小二乘法: 使得残差的平方和
达到最小。
2、检验参数
数学模型:
其中:{yi}和{xij}是因变量y和自变量xj 的观察值; β0, β1…βk是待估计的偏回归系数; e i 是yi 的随机误差,且{ei }~N(0,σ)。
一元线性回归分析的数学模型
id x
y
------------------------
1 x1 y1
2 x2 y2
……
i xi yi
例1的相关系数表
心象 性别 年龄 身高 体重 胸围
y x1 x2 性别 -0.08 1.00 年龄 0.87 -0.06 1.00 身高 0.93 0.00 0.86 体重 0.91 -0.02 0.89 胸围 0.89 -0.08 0.86
x3 x4 x5
1.00 0.95 1.00 0.91 0.97 1.00