第12章 回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(12.8)
23
24
b1
n xi yi xi yi n x x
2 2
12 4462.220 930 56.690 2 12 73764 930 0.0407
25
b0 y b1 x
n n 56.690 930 0.0407 12 12 1.570
y
i
ˆ y i min
2
(12.6)
22
(三)估计回归方程斜率和截距的计算公式
x y xy b x nx n x y x y b n x x
i i 1 2 2 i i i 1 2 2
12.7a
i
12.7b
b0 y b1 x
第十二章 回归分析
学习目标 掌握简单线性回归模型基本原理。 掌握最小平方法。 掌握测定系数。 了解模型假定。 掌握显著性检验 学会用回归方程进行估计和预测。 了解残差分析。
1
习 题
1. P370-1 4. P380-20
2. P372-7
3. P380-18
5. P388-28
Fra Baidu bibliotek
sy
2
(12.23)
53
第3步:计算检验统计量的样本观测值。 第4步:进行决策: 根据显著性水平a和自由度df=n-2 确定检验统计量的临界值, t>ta 时拒绝H0;
54
例如,已知在飞行成本的例子中,
x 930 x 2 73764 n 12 , , 。
b1 0.0407
残差平方和 (SSE)
ˆ ( yi y) 2 ( yi y i ) 2 SSR 2 R 1 2 SST ( yi y) ( yi y) 2
{
y
i
y
2
ˆ i y 2 yi y 2 ˆ y
(12.10)
(12.11)
ˆ yi yi
(12.12)
例如,上面的例子, i 5,xi 70
ˆ y5 y5 4.48 4.419 0.061元
34
表12-3 残差计算表
35
(二)误差平方和
残差平方的总和称为误差平方和 (Sum of squares of error,SSE)。
归直线对各观测数据的代表性就越好。 与R2不同的是,估计标准误是一个有单位的 平均数。
42
在飞行成本的案例中: sse=0.31414 n=12
SSE 0.31434 sy 0.1773千元 n2 10
【统计分析】计算结果表明,在12条商 业航线上,每架波音737飞机在飞行500 公里和其他条件相同情况下,其飞行成 本与它们的平均飞行成本平均相差117.3 元。
**Y = 4.48千元二者差0.061千元或61元。
28
第三节 一元线性回归方程的评价
测定系数 估计标准误差
29
一、测定系数 回归直线与各观测数据的接近程度 称为回归直线的拟合优度。 度量回归直线的拟合优度最常用的 指标是测定系数,(又称可决系数、判定 系数)。 该指标是建立在对总离差平方和进 行分解的基础之上的。
sb1
s y 0.1773
32
决定系数的取值
R2的取值范围是[0,1]。 R2越接近于1,表明回归平方和占总离差 平方和的比例越大,回归直线与各观测点 越接近,回归直线的拟合程度就越好。 在一元线性回归中,相关系数r的平方等于 判定系数,符号与自变量x的系数一致。 因此可以根据回归结果求出相关系数。
33
(一)残差 残差(Residual error)是因变量的观察 ˆ 值y和因变量的估计值yi 之间的偏差。
i ~ N 0, i 1 2, ,n , ,
2
(12.21)
50
第五节 回归分析中的显著性检验
回归分析中的显著性检验包括两方面的内容:
一是对单个自变量回归系数的显著性检验( t检 验); 二是对整个回归方程(所有自变量回归系数) 显著性的整体检验( F检验)
在一元线性回归模型中,由于只有一个解释 变量X,因此,对β1=0的t检验与对整个方 程的F检验是等价的。
4
第一节 简单线性回归模型
只涉及两个变量(一个自变量和一 个因变量)之间关系的回归分析称为简 单回归分析(Simple regression analysis)。 两个变量之间的关系大约呈一条直 线的简单回归分析称为简单线性回归分 析(Simple linear regression analysis)。
51
一、单个回归系数显著性的t检验
第1步:提出假设。一般为 H 0 : 1 0 H1 : 1 0
对于一些具体问题也可能需要进行单侧检验。
第2步:确定检验的统计量。可以证明在 回归模型的基本假设成立时,如果零假设 正确,则有
(12.22)
52
sb1
x x n
2
ˆ SSE y i y i
2
(12.13)
SSE的值是用估计回归方程估计样本中因 变量的值时所产生误差的一种测度。
36
(三)总离差平方和
因变量的值与其均值之间离差的 平方和称为总离差平方和(Total sum of squares,SST)。
SST yi y
2
6. P393-35
2
案例讨论: 1.这个案例都告诉了我们哪些信息?
2.通过阅读这个案例你受到哪些启发?
3
根据一个变量(或更多变量)来估计 某一变量的方法,统计上称为回归分析 (Regression analysis)。 回归分析中,待估计的变量称为因变 量(Dependent variables),用y表示;用来 估计因变量的变量称为自变量 (Independent variables),用x表示。
46
第四节 模型假定
在进行回归分析时,为了建立适当 的模型来说明因变量和自变量之间的关 系,需要做出一些假定。 简单线性回归的假定模型是:
y 0 1 x
47
要确定假定模型是否恰当,就需要进 行显著性检验。 显著性检验建立在以下有关假定的基 础上: 关于回归模型中误差项 的假定 (1)误差项 是一个随机变量,它的 均值或期望值为0,即
(12.14)
37
(四)回归平方和
因变量的值与其估计值之间离差的 平方和称为回归平方和(Sum of squares due to regression,SSR)。
ˆ SSR y i y i
2
(12.15)
38
例如;飞行成本案例中各种有关数据计算如下
表12-4 计算表
39
5
一、从一个实际问题入手
用回归分析可以预测运行一条商业航空 线的成本吗? 如果可以,那么哪些变量与这一成本有 关呢?
6
飞行距离
飞机型号
乘客数量
飞机运行成本
行李或货物重量
天气状况
……
7
为了减少自变量个数,我们做如下假定: 飞机类别——波音737飞机 飞行距离——500公里 航线——可比,而且在每年的相同季节 在这种条件下,可以用乘客数来预测飞行 的成本吗?
:误差项(随机变量),含义为说明在 y x y 中不能被 和 之间线性关系解释的变异 性。
11
在有关 假设中,有一个假设就是的 期望值或均值等于0,即
E 0
(12.2)
如果简单线性回归模型满足了这个条 件,那么就意味着 y 的均值或期望值就是 一个线性函数。 描述 y 的均值与 x 的关系如何的方 程称为回归方程(Regression equation)。
由表12-4计算结果可知, SSE = 0.31434, SSR = 2.79775, SST = 3.11209, 则
SSR 2.79775 r 0.899 SST 3.11209
2
40
这就是说,在一条商业航线上一架波音 737飞机飞行成本的方差中有89.9%可以被 乘客数目说明或预测,换句话说,飞行成 本Y的方差中不能由X或回归方程解释的有 10.1%。
45
●测定系数与相关系数的联系与区别
两种系数都可以用来测量线性相关关 系的强弱; 两种系数的取值范围不同:测定系数 在0~1之间,相关系数在-1 ~ +1之间。 两种系数的作用范围不同:相关系数 只能用来测定双变量之间的线性相关关系 的强弱,测定系数除了可以测量双变量之 间线性相关关系的强弱外,还可以用来测 量非线性相关关系的强弱和多变量时的相 关。因此,测定系数的应用范围比相关系 数更广泛。
y b x
1
26
(四)将 b0 和 b1 的计算结果代入式 (12.5)有:
ˆ yi 1.570 0.0407xi
结论: 计算结果表明,在其他条件相同情况下, 12条航线上波音737飞机各条航线每次飞行时 每增加1名乘客,将会使飞行成本平均增加 40.70元。
27
ˆ yi 1.570 0.0407 70 4.419千元
41
二、估计标准误
估计标准误:是对各观测数据在回归直 线周围分散程度的一个度量值,它是对误差 项ε的标准差σ的估计。
sy
ˆ ( yi yi ) 2 n2
SSE (12.16) MSE n2
估计标准误反映了用估计的回归方程拟合因 变量Y时平均误差的大小。 各观测数据越靠近回归直线,sy 就越小,回
30
离差分解图
y
( xi , y i )
y y
{
}
ˆ y y
ˆ ˆ ˆ y 0 1 x
y
} yˆ y
离差分解图
x
31
离差平方和的分解
ˆ ˆ y y ( y y) ( y y)
两端平方后求和有
(12.9)
{
{
总离差平方和 (SST)
回归平方和 (SSR)
43
三、利用测定系数计算相关系数
样本相关系数
rxy b1的符号 r
r 0.899
2
2
(12.17)
例如,在飞行成本的例子中,
b1 0.0407
rxy r 0.899 0.95
2
44
计算结果表明,波音737飞机在相同季 节12条航线上,乘客数量与运行成本之间 存在线性高度的正相关关系。
估计回归方程(Estimated regression equation) 就是用样本统计量作为参数的估 计值所建立的回归方程。
ˆ y b0 b1 x
(12.4)
ˆ y :y 的估计值
b0 :0 的估计值 b1 : 1 的估计值
18
19
第二节 最小平方法
最小平方法(Least squares method), 也称最小二乘法,是将回归模型的方差之 和最小化,以得到一系列方程,从这些方 程中解出模型中需要的参数的一种方法。
12
E y 0 1x
(12.3)
在简单线性回归中 1.回归方程的图形是一条直线(如图12.1 所示);
13
14
2. 0 :y 的截距;
3. 1 :斜率(回归系数);
1 的含义:当自变量 x 给定一个具体变动值 时,因变量 y 平均变化的量。
15
16
17
三、估计回归方程
E 0
(12.18)
48
E y 0 1 x
(2)对于所有 x 值,误差项 ( 2 )相等,即
的方差
(12.19)
2 1
(3)误差项
E i j 0
2 2
2 n
值是相互独立的。
i j
(12.20)
49
(4)误差项 是一个服从正态分布的随 机变量
20
(一)画散点图,以初步观察成本与乘客 数量之间是否呈回归直线。
21
(二)建立估计回归方程
ˆ yi b0 b1xi i 1 2, , , 12
(12.5)
最小平方法运用样本数据求出 b0 的值, 和 b1 yi 使得因变量的实际观察值 与其估计值 之 ˆ yi 差的平方和最小,即
8
表12-1是每年相同季节波音737飞机在 12条500公里的不同航线不同乘客数时的飞 行成本。我们用这些数据以乘客数作为自 变量构造模型来预测成本。
9
10
二、回归模型和回归方程
y 0 1 x
y :因变量(随机变量)
(12.1)
x :自变量(给定变量)
0、1 :参数