第8章相关与回归分析统计学第三版贾俊平-
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
◆确定性的函数关系 Y=f (X)
◆相关关系—不确定性的统计关系
Y= f(X)+ε
(ε为随机变量)
◆没有关系
35
变量间关系的图形描述:
30 25
20
Y
坐标图(散点图)
15 10
5
0
0
10
20
30
X
8-4
统计学
STATISTICS
相关关系的类型
● 从涉及的变量数量看
简单相关
多重相关(复相关)
● 从变量相关关系的表现形式看
N
XiYi Xi2 (
XiYi Xi)2
(Xi X )(Yi Y )
__
(Xi X )2
^
^
8 - 31 Y X
统计学 估计参数的最小二乘法
STATISTICS 最小平方法(L S )
1. 最小平方法——使因变量的观察值与估计值之间
的离差平方和达到最小来求得 a和b的方法,即:
a 和 b 的计算公式
根据最小平方法的原则,利用微分求解极值(最
优值)的原理,可得求解 a 和 b 的标准方程
组如下:
ynabx
xyaxbx2
b
n xy x n x2 (
y x)2
a
y
bx
y n
b
x n
8 - 24
统计学
8 - 26
统计学
STATISTICS
Wr1584维4df尔嘎
8 - 27
统计学
STATISTICS
三、回归系数的估计
回归系数估计的思想:
为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本观测值 结论:只能通过变量样本观测值选择适当方法去近似
地估计回归系数。
当 r 1 时,表明X与Y完全线性相关: 若r=1,称X与Y完全正相关; 若r=-1,称X与Y完全负相关。
8 - 14
统计学
STATISTICS
使用相关系数的注意事项:
▲X和Y 都是相互对称的随机变量,所以
XY YX
▲相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。
▲相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。
STATISTICS
相关分析与回归分析的联系
●共同的研究对象:都是对变量间相关关系的 分析
●只有当变量间存在相关关系时,用回归分析 去寻求相关的具体数学形式才有实际意义
●相关分析只表明变量间相关关系的性质和程 度,要确定变量间相关的具体数学形式依赖 于回归分析
● 相关分析中相关系数的确定建立在回归分析 的基础上
Yi Xiui
8 - 17
统计学
STATISTICS
(总体)回归方程
1. 描述 y 的平均值或期望值如何依赖于 x 的方程 称为(总体的)回归方程;
2. 一元线性(总体)回归方程的形式如下:
Y 0 3.
E( y ) = α + x
方程的图示是一条直线,因此也称为直线回归方程
α 是回归直线在 y 轴上的截距,是当 x=0 时 y 的期 望值,是回归直线的起始值;
● 残差 e在概念上类似总体回归函数中的随机
误差u。
回归分析的目的: 8 - 21 用样本回归函数去估计总体回归函数。
统计学样本回归函数与总体回归函数的关系
STATISTICS
——相互区别
●总体回归函数虽然未知,但它是确定的;
样本回归线随抽样波动而变化,可以有许多条。
●样本回归线还不是总体回归线,至多只是未知总体
回归线的近似表现。
●总体回归函数的参数虽未知,但是确定的常数;
样本回归函数的参数可估计,但是随抽样而变化的随 机变量。
●总体回归函数中的 u i 是不可直接观测的;
而样本回归函数中的 就可以计算的数值。
e
i
是只要估计出样本回归的参数
8 - 22
S统TAT计IST学ICS一元线性回归方程的确定
具有线性相关关系的两个变量的关系可表示 为:
α+ x
2. e的方差σ2 相同(对于所有的 x 值); 3. 误差项e是一个服从正态分布的随机变量,
且相互独立,即e~N(0,σ2)。
8 - 29
统计学
STATISTICS
简单线性回归的基本假定
假定1:零均值假定。 E(ui Xi ) 0
假定2:同方差假定。
V a r (u iX i) E u i E (u iX i) 2 E (u i2 )2
(引自《光明日报》刘军/文)
问题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗?
这些类型的问题可以运用相关分析与回归分析的 方8法- 2去解决。
统计学
STATISTICS
8.1 相关与回归的基本概念
一、变量间的相互关系 二、相关关系的类型 三、相关分析与回归分析
8-3
S统TAT计IST学ICS一、变量间的相互关系
8-9
统计学
STATISTICS
8.2 简单线性相关与回归分析
一、简单线性相关系数 二、总体回归函数与样本回归函数 三、回归系数的估计
8 - 10
统计学 一、简单线性相关系数
STATISTICS
●总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:
Cov(X,Y)
Q(yyˆ)2 min
Q [y(ab)x2]min
2. 用最小平方法拟合的直线来代表x与y之间的 关系,所产生的估计值与实际值的误差要比 其他任何直线的误差都小。
STATISTICS
说明:
1的. 中样心本回x归,直y线;必定经过各散点
2. 回归系数与相关系数同号(从二者的计 算公式可推导它们之间的关系):
brSy Sx
或 rbSx Sy
8 - 25
例: 统计学
STATISTICS
某地区调查统计资料得到:每户平均收入 为 元,方差为元,每户平均年消费支出 元,标准差为 元,支出对收入的回归系 数为 ,求: ⑴计算收入与支出的相关系数 ⑵拟合支出对收入的回归方程 ⑶收入每增加一元,支出平均增加多少元?
__
__
rXY
rXY
(Xi X)(Yi Y)
__
__
(Xi X)2 (Yi Y)2
特点:样本相关系数是根据从总体中抽取的随机样本
的观测值计算出来的,是对总体相关系数的估
计,它是个随机变量。
8 - 12
统计学
STATISTICS
相关系数的计算公式
rS2xy
(xx)y(y)
8 - 15
统计二学、总体回归函数与样本回归函数
STATISTICS
若干基本概念
● Y的条件分布: Y在X取某固定值条件下的分布。 ●对于X的每一个取值,都有Y的条件期望与之对应, 在坐标图上 Y的条件期望的点随X而变化的轨迹所形 成的直线或曲线,称为回归线。 ●如果把Y的条件期望 E (Y X i ) 表示为X的某种函 数:E(YXi)f(Xi) , 这个函数称为回归函数。 ●如果其函数形式是只有一个自变量的线性函数,
前提: u是随机变量其分布性质不确定,必须作某些 假定,其估计才有良好性质,其检验才可进行。
原则8 - :28使参数估计值“尽可能地接近”总体参数真实值
统计学
STATISTICS 一元线性回归模型的基本假定
1. E(e)=0,即误差项ε是一个期望值为0的随 机变量。
• 从平均意义上,总体线性回归方程 E ( y ) =
5
同增同减 (A)
0
0
2
4
6
8
10
12
负相关——变量反方向变化 一增一减 (B)
● 从变量相关的程度看
25
20
B 15 10 5
0
0
2
4
6
8
10
12
完全相关 (B) 不完全相关 (A) 不相关 (C)
8-6
35 30 25
C 20 15 10 5 0 0
5
10
15
统计学
STATISTICS
相关分析与回归分析
如 E(YXi)Xi , 称为简单线性回归函数。
8 - 16
统计学 总体回归函数(PRF)
STATISTICS
概念:将总体因变量Y的条件均值表现为自变 量X的某种函数,这个函数称为总体回归函数 (简记为PRF)。 表现形式: (1)条件均值表现形式
E(YXi)Xi
(2)个别值表现形式(随机设定形式)
假定3:无自相关假定。
C o v ( u i , u j ) E u i E ( u i ) u j E ( u j ) E ( u i , u j ) 0
假定4:随机扰动 u i 与自变量 X i 不相关。 C o v ( u i ,X i) E u i E ( u i ) X i E ( X i ) 0
假定5:正态性假定 ui ~N(0,2)
8 - 30
统计学
STATISTICS
回归系数的最小二乘估计
基本思想:
希望所估计的 Y ^ i 偏离实际观测值 Y i 的残差
e
i
越小越好。可以取残差平方和
e
2 i
作为衡量
^
Y
i
与
Y
i
偏离程度的标准—最小二乘准则
估计式:
__
__
^
N
线性相关——散布图接近一条直线(左图)
非线性相关——散布图接近一条曲线(右图)
8-5
25
20
15
10
5
0
0
2
4
6
8
10
12
11.2
11
10.8
10.6
10.4
10.2
10
0
2
4
6
8
10
统计学
STATISTICS
相关关系的类型
● 从变量相关关系变化的方向看 25
20
正相关——变量同方向变化
A 15 10
回归的古典意义:
高尔顿遗传学的回归概念
父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的 趋势
8-7
统计学
STATISTICS
回归的现代意义
一个因变量对若干解释变量依存关系的研究 回归的目的(实质):
由固定的自变量去估计因变量的平均值
总 体
8-8
样
自变量固定值
本
统计学
SxSy
(xx)2 (yy)2
或化简为
r
nx yxy
nx2x2 ny2y2
8 - 13
统计学
STATISTICS
相关系数的特点:
相关系数的取值在-1与1之间。
当r=0时,表明X与Y没有线性相关关系。
当 0 r 1 时,表明X与Y存在一定的线性 相关关系: 若 r 0 表明X与Y 为正相关; 若 r 0 表明X与Y 为负相关。
是直线的斜率,表示当 x 每变动一个单位时,y
的平均变动值。
8 - 18
统计学
STATISTICS
样本回归函数(SRF)
概念:
●Y的样本观测值的条件均值随自变量X而变 动的轨迹,称为样本回归线。
●如果把因变量Y的样本条件均值表示为自变 量X的某种函数,这个函数称为样本回归函数
(简记为SRF)。
表现形式:线性样本回归函数可表示为
或者
8 - 19
^
^^
Yi Xi
^^
Yi X i ei
S统TAT计IST学IC样S 本(估计的、经验的)回归方程
1. 总体回归参数α和 是未知的,我们必须利
用样本数据去估计它们; 2. 用样本统计量 a、b代替回归方程中的未知
2 参数α和,就得到了样本回归方程(估计
统计学
STATISTICS
第8章 相关与回归分析
8.1 相关与回归的基本概念 8.2 简单线性相关与回归分析
8-1
统计学 实例: STATISTICS 全球吃死的人比饿死的人多?
据世界卫生组织统计,全球肥胖症患者达3 亿人,其中儿童占2200万人,11亿人体重过重。 肥胖症和体重超常早已不是发达国家的“专利”, 已遍及五大洲。目前,全球因”吃”致病乃至死 亡的人数已高于因饥饿死亡的人数。
的回归方程):
yˆ abx
拟合估计方程,就是要估计方程的参数a、b
8 - 20
统计学样本回归函数与总体回归函数的关系
STATISTICS
——相互联系
● 样本回归函数的函数形式应与设定的总体回 归函数的函数形式一致 。
^
^
● 和 是对总体回归函数参数的估计。
^
● Y i 是对总体条件期望 E (Y X i ) 的估计
y = α x e
– 线性部分反映了由于 x 的变化而引起的 y 的变化.
– 误差项 e 是随机变量;
• 反映了除 x 和 y 之间的线性关系之外的随机因素对y 的 影响
• 是不能由 x 和 y 之间的线性关系所解释的变异性
– α 和 称为模型的两个待定参数。
8 - 23
统计学
STATISTICS
Var(X)Var(Y)
总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于特定的总体来说,X和Y的数值是既定的
总体相关系数是客观存在的特定数值。
8 - 11
rXY
统计学
STATISTICS
● 样本相关系数
通过X和Y 的样本观测值去估计样本相关系数变量
X和Y的样本相关系数通常用 r X Y 表示