多重线性回归与相关
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t bi
bi S bi
如例题……
(二)偏回归平方和法
含义 回归方程中某一自变量 X j 的偏回归 平方和表示模型中含有其它 k-1 个自变量的 条件下该自变量对 Y 的回归贡献,相当于从 回归方程中剔除 X j 后所引起的回归平方和 的减少量,或在 k-1 个自变量的基础上新增 加 X j 引起的回归平方和的增加量。
➢ 条件:Y与X呈线性关系;各个体观测资料彼此独立; 各X处的Y呈正态分布;不同X处Y的方差相等。
第一节 多重线性回归的概念与统计描述
一、数据与模型
变量:应变量 1 个,自变量k 个。
回归模型一般形式:
Y 的 平 0 1 X 1 均 2 X 2 数 3 X 3 . .. p X p
0 为常数项, 1, 2, , k 为偏回归系数,表示在其它自变 量保持不变时, X j 增加或减少一个单位时 Y 的平均变化 量。
样本的多重线性回归方程:
Y ˆ b 0 b 1 x 1 b 2 x 2 b 3 x 3 . .b .p x p
标准化偏回归系数(standardized partial regression coefficient):
第13章 多重线性回归与相关
(multiple linear regression & multiple correlation)
多元线性回归的应用
1. 影响因素分析 例如影响高血压的因素可能有年龄、饮食习惯、 吸烟状况、工作紧张度和家族史等,在影响 高血压的众多可疑因素中,需要研究哪些因 素有影响,哪些因素影响较大。
二、偏相关系数
表13-4 冷饮销售量、游泳人数与气温数据
冷饮销售量(元)
X1
267 397 451 528 618 655 690 740 780 889 996
游泳人数(人)
X2
722 814 924 1066 1253 1369 1593 1761 1931 2231 2749
气温 (oC)
X3
29 30 31 32 33 34 35 36 37 38 39
偏相关系数(partial correlation coefficient ): 一般地,扣除其他变量的影响后,变量Y与X的相 关。 计算:统计软件
第四节 自变量筛选
一、自变量筛选的标准与原则
1.残差平方和(SSE)缩小或决定系数(R2)增大
2. 估计与预测
如由儿童的心脏横径、心脏纵径和心脏宽径 估计心脏的表面积;
由胎儿的孕龄、头颈、胸径和腹径预测出生 儿体重等。
3. 统计控制——逆估计。
例如采用射频治疗仪治疗脑肿瘤,脑皮质的 毁损半径与射频温度及照射时间有线性回 归关系,建立回归方程后可以按预先给定 的脑皮质毁损半径,确定最佳控制射频温 度和照射时间。
对原始变量的观察值作标准化正 态变换,将原始数据减去相应变 量的均数,然后再除以该变量的 标准差。
X
' j
(X
jX Sj
j)
计算得到的回归方程称作标准 化回归方程,相应的回归系数 即为标准化回归系数。
b'j bj
ljj lYY
bj SSYj
➢标准化回归系数Βιβλιοθήκη Baidu以用来比较各个自变量Xj对Y的影 响强度,通常在有统计学意义的前提下,标准化回归
系数的绝对值愈大说明相应自变量对Y的作用愈大。
➢一般回归系数有单位,用来解释各自变量对应变量
的影响,表示在其它自变量保持不变时, X 增加或减 Xj Xb j j Yˆ YXbˆj j j
少一个单位时Y的平均变化量 。不能用各bj来比较各 自变量对Y 的影响大小。
➢标准化回归系数无单位,用来比较各自变量对应变
F
P
总变异
n-1
SS 总
回归
k
SS 回
SS 回 /k
MS 回/MS 残
残差
n-k-1 SS 残 SS 残 /(n-k-1)
如例题……
二、对各自变量的假设检验
(一)偏回归系数的t检验
偏回归系数的t检验是在回归方程具有统计学意义的 情况下,检验某个总体偏回归系数是否等于零的假 设,以判断是否相应的那个自变量对回归确有贡献 。
表示变量Y与k个自变量(X1,X2,…Xk)的线性相 关的密切程度。
调整的R2(adjusted R-square) 当回归方程中包含有 很多自变量,即使其中有一些自变量对解释反应变 量变异的贡献极小,随着回归方程的自变量的增加, R2 值表现为只增不减,这是R2的缺点。
Ra2
R2
k(1R2) nk1
R2 SS回 1 SS残
SS总
SS总
0 R 2 1 ,说明自变量 X1, X 2 , , X k 能够解释 Y 变
化的百分比,其值愈接近于 1,说明模型对数据的拟合程度 愈好。
复相关系数(multiple correlation coefficient): 决定系数的算术平方根。
R SSR SST
一、 回归方程的假设检验——方差分析法:
H0 : 1 2 k 0 , H1 : 各(j j=1,2,,k)不全为 0,
0.05
S总 SS回 SS残 S
FSS残S( /S回 n/kk1)M MSS回 残
F~F(k,nk1)
多元线性回归方差分析表 ( 0.05)
变异来源 自由度 SS
MS
Fj
SS回(Xj )/1 SS残 /(nk 1)
11, 2 nk1
第三节 复相关系数与偏相关系数
一、决定系数、复相关系数与调整决定系数
决定系数(coefficient of determination),或确定 系数,记为R2,用以反映线性回归模型能在多大程 度上解释反应变量Y的变异性。其定义为
量的影响大小,标准化回归系数越大, 对Y的影响越
大。
二、偏回归系数的估计
统计软件包
(1)求偏回归系数b0,b1,b2, ,bk
建立回归方程(样本)
一
般 步
Y ˆ b 0 b 1 X 1 b 2 X 2 b kX k
骤
(2)检验并评价回归方程 及各自变量的作用大小
第二节 多重线性回归的假设检验
content
➢ 多重线性回归的概念与统计推断 ➢ 多重线性回归的假设检验 ➢ 复相关系数与偏相关系数 ➢ 自变量筛选 ➢ 多元线性回归的应用
➢ 目的:作出以多个自变量估计应变量的多元线性回归 方程。
➢ 资料:应变量Y为定量指标,正态随机变量;自变量 为全部或绝大多数为定量指标。如不符合,需转换。