回归分析第四章
计量经济学课程第4章(多元回归分析)
§4.1 多元线性回归模型的两个例子
一、例题1:CD生产函数
Qt AKt 1 Lt 2 et
这是一个非线性函数,但取对数可以转变为一个 对参数线性的模型
ln Qt 0 1 ln Kt 2 ln Lt t
t ~ iid(0, 2 )
注意:“线性”的含义是指方程对参数而言是线 性的
R 2 1 RSS /(N K 1) TSS /(N 1)
调整思想: 对 R2 进行自由度调整。
Page 20
基本统计量TSS、RSS、ESS的自由度:
1.
TSS的自由度为N-1。基于样本容量N,TSS
N i1
(Yi
Y
)2
因为线性约束 Y 1 N
Y N
i1 i
而损失一个自由度。
分布的多个独立统计量平方加总,所得到的新统计量就服从
2 分布。
《计量经济学》,高教出版社2011年6月,王少平、杨继生、欧阳志刚等编著
Page 23
双侧检验
概 率 密 度
概率1-
0
2 1 / 2
2 /2
图4.3.1
2
(N-K-1)的双侧临界值
双侧检验:统计值如果落入两尾中的任何一个则拒绝原假设
《计量经济学》,高教出版社2011年6月,王少平、杨继生、欧阳志刚等编著
Page 24
单侧检验
概 率 密 度
概率 概率
0
2 1
2
图4.3.2 (2 N-K-1)的单侧临界值
H0:
2
2,
0
HA :
2
2 0
第四章 线性回归分析
(4-1)
, zki 是 k 个对 Y 有显
其中 j ( j 1,2,
, k ) 是回归系数,Y 是被解释变量, z1i , z2i ,
著影响的解释变量 (k 2) , i 是反映各种误差扰动综合影响的随机项,下标 i 表 示第 i 期观察值 (Yi , z1i , z2i ,
, zki ), i 1,2,
2
,n 。
ˆ ˆZ ˆ Z ˆZ ˆ 假设多元样本回归函数为:Y i 0 1 1i 2 2i 3 3i
ˆ。 差为: i Yi Y i
由于有 n 期的观察值,这一模型实际上包含 n 个方程:
Y2 0 1Z12 Yn 0 1Z1n
另 V 对 b0 ,
bk zki )]2
(4-3)
, bk 的一阶偏导数都等于 0,即下列方程组:
2[Y (b
i
0
b1 z1i b1 z1i b1 z1i
bk zki )]( 1) 0, bk zki )]( z1i ) 0, bk zki )]( zki ) 0
把样本数据分别代入样本回归方程,得到回归方程组为:
ˆ b bz Y 1 0 1 11 ˆ b bz Y n 0 1 1n bk zk 1 ,
(4-4)
(4-5)
bk zkn
写成等价的向量方程,则为:
ˆ ZB Y
这样回归残差向量为:
ˆ Y ZB Y Y
再利用向量,矩阵的运算法则,可以得到残差平方和为:
k Zk ,
, bk 分 别 表 示 模 型 参 数 0 ,
高级心理统计4-Logistic回归分析
c. 预测准确性:分类表(classification table)
4. 注意事项
第一,样本量大小。 第二,个案与变量的比例。 第三,预测变量的多重共线性。 第四,分类结果中的异常值。
5. 案例及SPSS操作
本章的应用案例是模拟生成 的,因此其分析结果不能推 论到实际之中,我们仅以此 为例演示logistic回归分析过 程。本案例数据文件参见 “4_1 logistic.sav”
1. Logistic回归分析概述
用于处理因变量为离散的二分变量的问题,也可 以进一步扩展为多分类Logistic回归。
logistic回归分析中并不直接对二分结果变量进行 回归分析,而是将其转换到logit尺度下,引入发 生比(事件发生的概率/事件不发生的概率)的概 念,再对发生比取自然对数(ln)作为因变量, 探究自变量的线性组合对转换后的因变量的影响。
3. 前提假设与模型
3. 前提假设与模型
5. 模型评价
a. 负2倍对数似然值(-2LL):
反映了假设拟合模型为实际情境时观察到特定样本的概率,其值处于0 和1之间。其值越大,表明回归方程的似然值越小,则拟合越差。
将截距模型(不包含任何预测变量)与含有预测变量的logistic模型的2LL进行比较,如果前者显著高于后者,那么可以证明含有预测变量的 模型显著改善了模型的拟合情况,即预测变量可以显著改善模型的拟 合情况。显著性的检验采用卡方检验。注意样本量的影响。
2. 了解logistic回归方程中的系数的含义与解释。 3. 学习logistic回归方程的整体检验和拟合优度的
评价标准。 4. 掌握SPSS软件展示logistic回归的操作过程和结
第四章多元线性回归分析
21
三、离回归标准误 在简单线性回归分析中,我们知道用Sy/x可以用来 反映回归方程估测精确度,在多元线性回归分析中也同 样可用离回归标准误反映回归方程的估测精确度。
Sy/x
Q dfQ
2 ˆ ( y y )
n2
简单线性回归
S y /1, 2,m
多元线性回归方程
一、多元线性回归的数学模型 设有m个自变数,以变数为y,共有n组实际观测数据,则 可以整理为表1。假如y与x1、x2、…… xm之间存在线性关系, 则m元线性回归模型为:
y j y / x1 , x2 xm j
y j 1x1 j 2 x2 j m xmj j
1
16 b1 4 b 2 25 b 3
15
1. 先将相关数据填入表2的算阵A;
2. 计算算阵B的各数值:计算方法分两种: (1)主对角线及其以下各Bij值:
Bij Aij Bi. B. j
(2)主对角线以上各Bij值
7
在回归模型中:α为x1、x2、…xm皆取0时的y总体的
理论值;βi为在其它自变数x固定时xi对y的偏回归系数,
例如β1表示x2、x3、…xm皆保持一定时,x1每增加一个单
位对y总体的的平均效应,叫做x2、x3、…xm固定时,x1对y 的偏回归系数,其余同; y / x1 , x2 ,xm 为y依x1、x2、…xm 的条件总体平均数(简写作 y / 1, 2,m );εj为m元随机
依变数依两个或两个以上自变数的回归叫多元回
归或复回归(multiple regression)。
2
多元回归有多种类型(如多元线性回归、
多元非线性回归、正交多元回归等),而其中 最简单、常用、具有基础性质的是多元线性回 归分析。 多元线性回归分析的思想、方法和原理与 简单线性回归分析基本相同,但会涉及一些新 概念及更细致的分析,尤其是计算要繁杂些, 当自变数较多时可借助计算机进行计算。
应用回归分析,第4章课后习题参考答案
第4章违背基本假设的情况思考与练习参考答案4.1 试举例说明产生异方差的原因。
答:例4.1:截面资料下研究居民家庭的储蓄行为Y i=β0+β1X i+εi其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。
由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。
例4.2:以某一行业的企业为样本建立企业生产函数模型Y i=A iβ1K iβ2L iβ3eεi被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
4.2 异方差带来的后果有哪些?答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
第四章多元回归分析:推断
受教育年限与每小时工资 yˆ 0.0144 0.7241x
如果受教育年限的单位为月
yˆ 0.0144 (0.7241/12)(12x) 0.0144 0.0603z
如果受教育年限的单位为日 yˆ 0.0144 (0.7241/ 365)(365x) 0.0144 0.0020w
se(ˆ)=se(ˆ ˆ)= Var(ˆ) Var(ˆ)+2Cov(ˆ, ˆ)
能否直接将作为模型参数进行估计?
= + = -
原模型变换为:
ln Q=lnA+lnK+(-)lnL+u
即:
lnQ=lnA+ln(K/L)+lnL+u
若定义参数:
= +-1
原假设变为标准的显著性检验:
H0: =0
H0:j=0
H1: j0
相应的检验为双侧检验(two-tailed test) 单侧备择假设:
H0:j=0
或者
H1: j>0
H0:j=0
H1: j<0
相应的检验为单侧检验(one-tailed test)
➢ 双侧检验
若原假设成立:
j=0
tˆ j
ˆ j j se(ˆ j )
ˆ j se(ˆ
j
受约束模型,即认为原假设成立时的模型:
ln(salary)=0+1 years+2gamesyr+u
若原假设真的成立,即 3= 4= 5=,0 不受约束模 型和受约束模型的估计结果应该差异不大,两者的残差平 方和(SSR)应该比较接近
若 tˆj t/2(n k 1),拒绝H0,xj对y的影响是统计显著的。 若 tˆj t/2(n k 1),不能拒绝H0,xj对y的影响统计上不显著。
第4章 需求回归分析
25 35 -75 65 -35 -65 15 -15 75 -25
625 1225 5625 4225 1225 4225 225 225 5625 625
Y
=175;X =125;∑ (Xi∑(Yi- Y )2=8650;
)( Yi- Y )=10350, X )2=23850;∑(Xi- X
试给出销售量的估计方程。
log Qd log B log b p P log bi I log b0 P0 log bt T
23
幂函数方程的特点:
可以求出相应自变量的边际变化使需求量变化的绝对 数量。但是,这一绝对数量的变化不是既定的常数,而 是受其他自变量数值大小影响。例如: Qd b 1 b0 bt b p aP p I bi P T 0 P 每个系数是相关变量的弹性。例如:
Y
Xi-
X
(Xi-
X
)2
(Xi-
X) ( Yi- Y)
-375 1575 2625 975 1575 975 375 375 2625 -375
(Yi- Y)2 225 2025 1225 225 2025 225 625 625 1225 225
-15 45 -35 15 -45 -15 25 -25 35 15
线性方程 自变量边际变 化引发的因 变量变化的 绝对值 相对比率 不变 变 幂函数 变 不变
25
第三节 需求回归分析 步骤
4. 估计结果及解释
可决系数的 值表示模型的 总解释能力
26
ˆ ±tn-k-1Sb b
如果自变量和因变量之间没有关系,参数b将为零。 因此,应检查在95%的置信区间内是否包括零值。若 不是,则 b ˆ 所度量的X和Y之间的关系在统计上显著 ˆ 不显著 significant;如果包括零,则 b 12 nonsignificant 。
应用回归分析课后习题第4章第9题
4.9 1)由上表可知,普通最小二乘法所建立的回归方程为831.0004.0ˆ-=x y残差散点图为(1)诊断该问题是否存在异方差。
第一步,由残差图可以知道,残差图中53个散点并不是随机的,残差e 随y 值得增大而增大,具有明显的规律,所以可以认为模型的随机误差项i ε的方差是非齐性的,可以初步认为该问题中存在异方差。
第二步,用等级相关系数法进一步的检验首先,用Excel 计算出残差绝对值|i e |,然后利用SPSS 软件,用斯皮尔曼等级相关法进行计算与i x 的等级相关系数,输出结果如表:可以得到等级相关系数为0.318,p=0.021所以可以认为残差绝对值与i x 之间相关,存在异方差。
综上两种方法,可以知道,该问题存在异方差。
(2)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程。
由SPSS 软件中的权重估计可以得到当m=1.5,似然函数的值达到最大,由系数表可以知道,此时,加权最小二乘幂指数m 的最优取值为1.5的时候的,回归方程为:683.0004.0ˆ-=x y(3)用方差稳定变换y y =’消除异方差。
首先计算:用Excel 计算出y y =’,然后用SPSS 软件计算出结果中系数表为:由系数表可以知道此时回归方程为582.0001.0ˆ+=x y下面将普通最小二乘估计与做变换后的结果进行比较:首先,由残差图可以知由上图可知道,此时,残差图完全随机分布在0的上方。
另外,由SPSS计算出此时的残差绝对值与x的等级相关系数表如下:此时等级相关系数为0.318,P值为0.021此时说明已消除了异方差的影响,但由于此时的决定系数R方为0.648小于最小二乘估计的R方0.705。
说明此时回归效果并不比最小二乘估计有效。
4.13(1)由普通最小二乘法建立y与x的回归方程。
由上表可知y与x的回归方程为:435.1176.0ˆ-=xy由回归系数的显著性知道,t=107.928 p=0说明自变量对因变量的线性显著影响。
第4章多元线性回归分析
4.2.1回归系数估计
结论
4.2 多元线性回归模型参数估计
结论1: OLS估计的一致性 ˆj 如果回归模型误差项满足假设1和假设2,OLS估计 为一致估计,即
ˆ , j 0, 1, 2, , k p limn j j
结论2: OLS估计的无偏性 如果回归模型误差项满足假设1和假设2,OLS估计 ˆj 为无偏估计: ˆ ) , j 0, 1, , k E( j j
4.9 自变量共线性 重要概念Biblioteka 4.1 多元线性回归模型设定
模型设定:
假设1(零条件均值:zero conditonal mean)
给定解释变量,误差项条件数学期望为0,即
E(u | X1 , X 2 ,, X k ) 0
Y 0 1 X1 2 X 2 k X k u
4.8 假设条件的放松
4.8.1 假设条件的放松(一)—非正态分 布误差项 4.8.2 假设条件的放松(二)—异方差 4.8.3 假设条件的放松(三)—非随机抽 样和序列相关 4.8.4 假设条件的放松(四)—内生性
4.8 假设条件的放松
4.8.1 假设条件的放松(一)—非正态分 布误差项
• 去掉假设5不影响OLS估计的一致性、无偏性和渐 近正态性。 • 不能采用t-检验来进行参数的显著性检验,也不能 用F检验进行整体模型检验。 • 大样本情况下,t统计量往往服从标准正态分布 (在原假设下)。
…
xk ( X k1 , X k 2 ,, X kn )
假设2’(样本无共线性:no colinearity)
不存在不全为零的一组数 c0 , c1,, ck使得
c0 c1x1 xk 0
4.2 多元线性回归模型参数估计
多元统计分析第四章多元回归分析
多元统计分析第四章多元回归分析第4章多元回归分析简单说,回归分析是根据统计资料建⽴经验公式的统计⽅法。
例如统计若⼲焊接点数据,从⽽建⽴由焊接点直径预报焊点剪切强度的预报公式;⼜如统计若⼲棵松树的胸径与材积(可利⽤⽊材体积),建⽴由胸径预报材积公式,也⽤到回归分析⽅法。
当然回归分析不只是建⽴预报公式,还要对预报误差的⼤⼩,预报公式的合理性等问题讨论,有着⾮常丰富的内容。
回归分析可⽤于预测和控制,在⾃然科学,社会科学和应⽤技术中都有重要应⽤,它是统计学最重要的⼯具。
回归分析⽅法和理论从Gauss提出最⼩⼆乘法开始,⾄今已近200年,⽬前仍在蓬勃发展,例如在回归诊断、维度缩减、半参数回归、⾮参数回归、LOGISTIC 回归等⽅向不断有新的突破。
本章介绍参数回归分析模型及其参数估计、检验、模型选择等理论和有关计算⽅法。
参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和⾮线性回归。
本章依次介绍这三类模型。
有关回归分析的⼀般理论可参见陈希儒(1984),⽅开泰(1988),Seber(1976),何晓群(1997),何晓群、刘⽂卿(2001)、Richard(2003)。
Robert(1999)和王吉利(2004)提供了许多有趣的应⽤例⼦。
4.1多元线性回归模型⾸先让我们看⼀个例⼦:x表⽰⽬标例4.1 对15个地区调查某种护肤霜销量得表4-1,其中y表⽰销量(打),1x表⽰⼈均可⽀配收⼊(美元)。
试建⽴由⽬标⼈⼝和⼈均可⽀配收⼊预⼈⼝数(千⼈),2测销量的公式。
表4-1 护肤霜销量数据这个问题中,每个地区销量受该地区⽬标⼈⼝数和⼈均可⽀配收⼊数影响,3个变量y 、1x 、2x 间存在密切关系。
但是它们的关系不是确定性关系⽽是相关关系。
常见的变量间关系分为两⼤类:确定性关系和相关关系。
确定性关系也称为函数关系。
具有确定性关系时,⾃变量完全确定因变量的值。
例如存款的年利率c 固定,那么存款数z 与总利息y 的关系就是确定性关系;z 知道后,y 就由y=cz 确定。
应用回归分析,第4章课后习题参考答案
第4章违背基本假设的情况思考与练习参考答案试举例说明产生异方差的原因。
答:例:截面资料下研究居民家庭的储蓄行为Y i=?0+?1X i+εi其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。
由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。
例:以某一行业的企业为样本建立企业生产函数模型Y i=A i?1K i?2L i?3eεi被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
异方差带来的后果有哪些?答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显着性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
回归分析预测法
一元线性回归样本函数
ˆ b ˆX ˆ b Y i 0 1 i ˆ 为E(Y )的估计式; 式中 , Y
i i
ˆ 为b 的估计式; b 0 0 ˆ 为b 的估计式。 b
1 1
回归模型
对于样本中每一个与Xi相对的观测值Yi与由样 本回归函数得到的估计值有一随机偏差,这个 偏差称为随机误差,记为ei。
如此以来,高的伸进了天,低的缩入了地。他百思 不得其解,同时又发现某人种的平均身高是相当稳 定的。最后得到结论:儿子们的身高回复于全体男 子的平均身高,即“回归”——见1889年F.Gallton 的论文《普用回归定律》。 后人将此种方法普遍用于寻找变量之间的规律
二、回归分析与相关分析
相关分析:是研究两个或两个以上随机
2 2222R =1 2
n2
(1 R )
2
3、变量的显著性检验(t检验)
主要对多元线性回归模型而言,在方程的总体 线性关系呈显著性时,并不能说明每个解释变 量对被解释变量的影响是显著的,必须对每个 解释变量进行显著性检验,以决定是否作为解 释变量保留在模型中。其检验的思路与方程显 著性检验相似,用以检验的方法主要有三种: F检验、t检验、z检验。它们区别于方程显著性 检验在于构造统计量不同,其中应用最为普遍 的为t检验。
意义:拟合优度越大,自变量对因变量的解释程度越 高,自变量引起的变动占总变动的百分比高。观察点 在回归直线附近越密集。 取值范围:0-1
修正的
R ,记为R
2
2
在应用过程中,如果在模型中增加一个解释变 量,模型的解释功能增强了,回归平方和增大 R ,记为R R R 2 也增大了。从而给人一个错觉:要使得模 了, 型拟合得好,就必须增加解释变量,但是在样 本容量一定的情况下,增加解释变量必定使得 自由度减少,于是实际应用中引进修正的决定 2 R 系数 ,具体表达式为(其中 n是样本容量,n-k n 1 R =1 (1 R ) n2 =n-2为残差平方和的自由度, n-1为总体平方和 的自由度): n 1
第四章 回归分析
•反映客观现象之间的联系的数量关系有两种,确定性关系和不 确定性关系. •确定性关系常用函数描述,不确定性关系也称为相关关系,常 用回归分析处理. •确定性关系和不确定性关系在一定条件下互相转换.
4.1 概述 •不确定性关系中作为影响因素的称自变量,用X 表示,是可以控 制的,受X 影响的响应变量称为因变量,用Y 表示,是可以观测的.
n
lxx
14
结束
于是有: 2 (x) ˆ u1 / 2 ,
Y0的1置信区间为yˆ0 ˆ u1 / 2 , yˆ0 ˆ u1 / 2
取 0.05时 : u1 / 2 1.96, Y0的1 置信区间为:
yˆ0 1.96ˆ , yˆ0 1.96ˆ yˆ0 2ˆ , yˆ0 2ˆ
yˆ0 y0
ˆ s1 ( x0 )
~
t (n 2),
其中: s1 ( x0 )
1 ( x0 x )2 ,
n
lxx
ˆ 2
S
2 E
/(n
2),
S
2 E
lyy
S
2 R
,
S
2 R
ˆ12lxx.
12
结束
P T1 t1 / 2 (n 2), 1 ,
P yˆ0 1( x0 ) y0 yˆ0 1( x0 ) 1 ,
r 2
S R2 ST2
n
ˆ12 l xx
( yi y)2
l xy l xx
2
l xx l yy
l
2 xy
,取R
l xx l yy
i 1
Lxy . Lxx Lyy
据性质4.2.5,
0
r
1,
r
应用统计学课件第四章回归分析
X ki
X 1i X
X
2 ki
ki
ˆ0 ˆ1
ˆ k
1 X 11
X k1
1 X 12
X k2
1 Y1 X 1n Y2 X kn Yn
(XX)βˆ XY
条件?
βˆ (XX)1 XY
点估计
•
OLS估计的矩阵表示
Q
n
ei2
ee (Y Xβˆ )(Y Xβˆ )
例:二元回归模型的参数估计
ˆ1 (
yi x1i )( x2i ) ( yi x2i )( x1i x2i ) ( x12i )( x22i ) ( x1i x2i )2
Var(ˆ1)
2
x12i (1 r122 )
1的OLS估计量的标准误为:Se(ˆ1) Var(ˆ1) 1的置信区间:
样本回归函数(SRF)
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki
Yi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki ei
ei称为残差或剩余项(residuals),可看成是总体
回归函数中随机扰动项i的近似替代。
• 样本回归函数的矩阵表达:
Yˆ Xβˆ
一个身高60的妇女体重平均111.5,最大偏差12
猜体重平均值,最大偏差:31
160
155
150 总变异 (wi w)2 4606.8
140
130
体重均值123.6
120
POUN
110
体 重 100
93
90
56
58
60
62
64
66
68
70
身高INCH
POUN
160身高相同的人体重 不一定相同
第4章 回归分析
r=1
r=-1
y
y
x
x
r<0:x与y负线性相关(negative linear correlation) r>0:x与y正线性相关(positive linear correlation)
-1<r<0
0<r<1
y y
x
② 自由度
SST的自由度 :dfT=n-1 SSR的自由度 :dfR=1 SSe的自由度 :dfe=n-2 三者关系: dfT= dfR +dfe
③ 均方
MSR
SSR dfR
MSe
SSe dfe
④ F检验
F MSR MSe
F服从自由度为(1,n-2)的F分布
给定的显著性水平α下 ,查得临界值: Fα(1,n-2)
① 离差平方和
总离差平方和:
n
SST ( yi y)2 Lyy
i 1
回归平方和(regression sum of square) :
n
SSR ( $yi y)2 b2 Lxx bLxy i 1
残差平方和 : n SSe ( yi $yi )2 i 1
三者关系:
SST SSR SSe
性回归方程,其中b1,b2,…,bm 称为偏回归系数。。
设变量 x1, x2 , xm , y 有N组试验数据:
x11, x21, xm1, y1 x12 , x22 , xm2 , y2
回归系
数?
x1k , x2k , xmk , yk (k 1,2, , N )( N m)
回归系数的确定
根据最小二乘法原理 :求偏差平方和最小时的回归系数。
试验设计与数据处理第4章回归分析
a' ln a
y' ln y
yˆ abx ln yˆ ln a xln b
yˆ a bx
a' ln a
b' ln b
对数函数 (logarithmic function)
x' lg x
yˆ a blg x
yˆ a bx'
x' ln x
yˆ a bln x
yˆ a bx'
幂函数 (power function)
(2)回归系数的确定 根据最小二乘法原理 :求偏差平方和最小时的回归系数
偏差平方和:
n
n
Q ( yi $yi )2 ( yi a b1x1 b2x2 ... bmxm )2
i 1
i 1
根据:
Q 0
Q 0
a
bj
得到正规方程组,正规方程组的解即为回归系数。
应用条件:
注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若 自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对 于自变量是分类变量的情形,需要用广义线性回归模型分析。
-1≤r≤1 r=±1:x与y有精确的线性关系
y
y
r=1 x
r=-1
x
r<0:x与y负线性相关(negative linear correlation) r>0:x与y正线性相关(positive linear correlation)
y y
0<r<1 x
-1<r<0 x
r=0
r=0
y y
b0 11.9259 0.1424 5.8126 0.3515 2.8407 0.2706 6.1467 0.6382 9.1185
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Assumptions about the Predictors
(3) The predictor variables X1, X2,…, Xp are assumed to be linearly independent of each other. If the assumption does not hold: The collinearity problem
*
n 2 ( e e ) i i 1 n 2 e i i 1
ˆ
n p 1
n p 1
SSE n p 1
Checking Normality Assumptions
Normal probability plot of the standardized residuals If the residuals are normally distribution, the ordered residuals should be approximately the same as the ordered normal scores, which are what we would expect to obtain if we take a sample of size n from a standard normal distribution.
Normal probability plot of the standardized residuals
This plot should resemble a (nearly) straight line with an intercept of zero (i.e., the mean) and a slope of one (i.e., the standard deviation)
Assumptions about the Errors
The errors ε1, ε2,…, εn are assumed to be independently and identically distributed (iid) normal random variables each with mean zero and a common variance σ2. This implies four assumptions. (3) Constant variance (or homogeneity or homoscedasticity) assumption: The errors ε1, ε2,…, εn have the same (but unknown) variance σ2.
Regression Diagnostics
Outline
• • • • Standard Regression Assumptions Standardized Residuals Checking Linearity Assumptions Checking Normality Assumptions
Assumptions about the observations
All observations are 1) equally reliable and 2) have an approximately equal role in determining the regression results and in influencing conclusions.
A pattern indicating nonlinearity
A pattern indicating heterogeneity
பைடு நூலகம்
Standardized Residuals
The standardized residual is
ei e ei 0 ei ei ˆ ˆ ˆ
Assumptions about the Form of the Model
Linearity assumption:
Y 0 1 X 1 2 X 2 ... p X p yi 0 1 xi1 2 xi 2 ... p xip i , i 1, 2,..., n
This plot should resemble a (nearly) straight line with an intercept of zero (i.e., the mean) and a slope of one (i.e., the standard deviation)
Checking Normality Assumptions
Checking Linearity Assumptions
Residual plot: scatter plots of the standardized residuals against each of the predictor variables Under the standard assumptions, the standardized residuals are uncorrelated with each of the predictor variables. This plot should be a random scatter of points.
Checking the assumption: For simple regression For multiple regression If the assumption does not hold: Scatter plot of Y versus X Residual Plot Data transformation
Assumptions about the Errors
The errors ε1, ε2,…, εn are assumed to be independently and identically distributed (iid) normal random variables each with mean zero and a common variance σ2. This implies four assumptions. (1) Normality assumption: The error εi, i = 1, 2,…, n, has a normal distribution. Checking the assumption: Normal probability plot (2) The errors ε1, ε2,…, εn have mean zero.
If the assumption does not hold: The heterogeneity or heteroscedasticity problem
Assumptions about the Errors
The errors ε1, ε2,…, εn are assumed to be independently and identically distributed (iid) normal random variables each with mean zero and a common variance σ2. This implies four assumptions. (4) Independent-errors assumption: The errors ε1, ε2,…, εn are independent of each other (their pair-wise covariances are zero). If the assumption does not hold: The auto-correlation problem
Assumptions about the Predictors
(1) The predictor variables X1, X2,…, Xp are nonrandom, that is, the values x1j, x2j, …, xnj; j = 1, 2, …, p are assumed fixed or selected in advance. Cannot be validated (2) The values x1j, x2j, …, xnj; j = 1, 2, …, p are measured without error. Cannot be validated