第8章_相关与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8 - 11
统计学
STATISTICS
回归的现代意义
一个因变量对若干解释变量依存关系的研究 回归的目的(实质): 由固定的自变量去估计因变量的平均值
总 体
8 - 12
样 本
自变量固定值
统计学
STATISTICS
相关分析与回归分析的联系
●共同的研究对象:都是对变量间相关关系的分析 ●只有当变量间存在相关关系时,用回归分析去寻求 相关的具体数学形式才有实际意义 ●相关分析只表明变量间相关关系的性质和程度,要 确定变量间相关的具体数学形式依赖于回归分析 ● 相关分析中相关系数的确定建立在回归分析的基础 上
协方差的定义(第三章中介绍的)
Cov( X , Y ) E{[ X E ( X )][Y E (Y )]}
E ( XY ) E ( X ) E (Y )
8 - 16
统计学 STATISTICS • 如果X,Y独立(不相关),则
Cov(X,Y)=0 E(XY)=E(X) E(Y)
Yi X i ei
^ ^
^
^
^
样本回归函数与总体回归函数的关系 统计学
STATISTICS
——相互联系
● 样本回归函数的函数形式应与设定的总体回归函数 的函数形式一致 。
● 和
^
^
是对总体回归函数参数的估计。
的估计 E (Y X i )
^
● Y 是对总体条件期望 i
● 残差 e 在概念上类似总体回归函数中的随机 误差u。
性相关) 当 | ρ|=1,两个变量完全线性相关
8 - 18
统计学
STATISTICS
● 样本相关系数
通过X和Y 的样本观测值去估计样本相关系数变量 X和Y的样本相关系数通常用 表示 XY
r
rXY
( X X )(Y Y ) ( X X ) (Y Y )
i i __ 2 __ i i
8 - 20
统计学 X 1167 STATISTICS
Y 4720
XY 600566
X 2 175661
Y 2 2190104
n 12
XY
8 - 21
n Xi Yi Xi Yi n Xi2 ( Xi ) 2 n Yi2 ( Yi ) 2
ui ~ N (0, )
2
假定5:正态性假定
8 - 32
统计学
STATISTICS
回归系数的最小二乘估计
^
基本思想:
希望所估计的 偏离实际观测值 的残差 Yi Yi ei 越小越好。可以取残差平方和 ei2作为衡量 ^ Y i与 Yi 偏离程度的标准—最小二乘准则
^
估计式:
^
N X ( X i )
(引自《光明日报》刘军/文)
问题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗? 这些类型的问题可以运用相关分析与回归分析的 方法去解决。
8-6
STATISTICS 8.1 相关与回归的基本概念
统计学
一、变量间的相互关系 二、相关关系的类型 三、相关分析与回归分析
8-7
STATISTICS
8 - 27
统计学
STATISTICS
样本回归函数(SRF)
概念: ●Y的样本观测值的条件均值随自变量X而变动的轨 迹,称为样本回归线。 ●如果把因变量Y的样本条件均值表示为自变量X的 某种函数,这个函数称为样本回归函数 (简记为SRF)。 表现形式:线性样本回归函数可表示为
或者
8 - 28
Y i Xi
2 i
N X iYi X iYi
2
Y X
8 - 33
^Байду номын сангаас
( X X )(Y Y ) (X X )
i i __ 2 i
__
__
统计学
STATISTICS
最小二乘估计的性质 ——高斯—马尔可夫定理
8 - 26
统计学
STATISTICS
总体回归函数(PRF)
概念:将总体因变量Y的条件均值表现为自变量X的某种 函数,这个函数称为总体回归函数(简记为PRF)。 表现形式: (1)条件均值表现形式
(2)个别值表现形式(随机设定形式)
E (Y X i ) X i
Yi X i ui
从涉及的变量数量看 简单相关 多重相关(复相关) ● 从变量相关关系的表现形式看 线性相关——散布图接近一条直线(左图) 非线性相关——散布图接近一条曲线(右图)
25 20 15 10 5 0 0 2 4 6 8 10 12
11.2 11 10.8 10.6 10.4 10.2 10 0 2 4 6 8 10
回归分析的目的: 用样本回归函数去估计总体回归函数。
8 - 29
样本回归函数与总体回归函数的关系 统计学
STATISTICS
——相互区别
●总体回归函数虽然未知,但它是确定的;
样本回归线随抽样波动而变化,可以有许多条。 ●样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。 ●总体回归函数的参数虽未知,但是确定的常数; 样本回归函数的参数可估计,但是随抽样而变化的随机变量。 ●总体回归函数中的 ui 是不可直接观测的; 而样本回归函数中的 是只要估计出样本回归的参数就可以计 i 算的数值。
统计学
STATISTICS
相关系数的检验方法
给定显著性水平 , 查自由度为 n-2 的临界值
t 2
若 t t 2,表明相关系数 r 在统计上是显著 的,应否定 0 而接受 0 的假设; 反之,若
8 - 25
t t 2 ,应接受 0 的假设。
统计学 二、总体回归函数与样本回归函数 STATISTICS
相关系数的检验
为什么要检验? 样本相关系数是随抽样而变动的随机变量,相关系 数的统计显著性还有待检验。 检验的依据: 如果X和Y都服从正态分布,在总体相关系 数 0 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布:
t r n2
8 - 24
1 r 2 ~ t (n 2)
原则: 使参数估计值“尽可能地接近”总体参数真实值
8 - 31
统计学
STATISTICS
简单线性回归的基本假定
E (ui X i ) 0
2
假定1:零均值假定。 假定2:同方差假定。
Var (ui X i ) E ui E (ui X i ) E (ui2 ) 2 假定3:无自相关假定。
假定4:随机扰动
Cov(ui , u j ) E ui E (ui ) u j E (u j ) E (ui , u j ) 0
ui 与自变量 X i不相关。 Cov(ui , X i ) E ui E (ui ) X i E ( X i ) 0
8-2
实例1:
国 某 一 地 区 的 经 济 发 展 数 据
统计学
STATISTICS 我
8-3
统计学
STATISTICS
关系
8-4
相关系数R
0.9829
影响
参数b 2.2767
统计学
STATISTICS
8-5
实例2: 统计学 STATISTICS 全球吃死的人比饿死的人多?
据世界卫生组织统计,全球肥胖症患者达3 亿人,其中儿童占2200万人,11亿人体重过重。 肥胖症和体重超常早已不是发达国家的“专利”, 已遍及五大洲。目前,全球因”吃”致病乃至死 亡的人数已高于因饥饿死亡的人数。
e
8 - 30
统计学
STATISTICS
三、回归系数的估计
回归系数估计的思想:
为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本观测值 结论:只能通过变量样本观测值选择适当方法去近似
地估计回归系数。
前提: u是随机变量其分布性质不确定,必须作某些 假定,其估计才有良好性质,其检验才可进行。
若干基本概念
● Y的条件分布: Y在X取某固定值条件下的分布。 ●对于X的每一个取值,都有Y的条件期望与之对应,在坐标 图上 Y的条件期望的点随X而变化的轨迹所形成的直线或曲 线,称为回归线。 ●如果把Y的条件期望 E (Y X ) 表示为X的某种函 i 数: (Y X i ) f ( X i ), 这个函数称为回归函数。 E ●如果其函数形式是只有一个自变量的线性函数, 如 E (Y X i ) X i , 称为简单线性回归函数。
Cov( X , Y ) var( x) var( y )
总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于特定的总体来说,X和Y的数值是既定的 总体相关系数是客观存在的特定数值。
8 - 15
统计学 STATISTICS 相关系数中 Cov( X , Y )
是两个随机变量的协方差
8 - 13
STATISTICS 8.2 简单线性相关与回归分析
统计学
一、简单线性相关系数及检验 二、总体回归函数与样本回归函数 三、回归系数的估计 四、简单线性回归模型的检验 五、简单线性回归模型预测
8 - 14
统计学 一、简单线性相关系数及检验 STATISTICS
●总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:
即
• 协方差在一定程度上反映了X、Y之 间的相关性 • 协方差受两个变量本身量纲的影响。
8 - 17
统计学
STATISTICS
Cov( X , Y ) var( x) var( y )
相关系数ρ具有如下的性质: 相关系数ρ是一个无量纲的值
0≤|
ρ| ≤1
当ρ=0,两个变量不相关(不存在线
__
__
2
特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。
8 - 19
统计学
STATISTICS
化简得到:
n Xi Yi Xi Yi n Xi2 ( Xi ) 2 n Yi2 ( Yi ) 2
XY
如例1
8 - 22
统计学
STATISTICS
使用相关系数的注意事项:
▲X和Y 都是相互对称的随机变量,所以
XY YX
▲相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。 ▲相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。
8 - 23
统计学
STATISTICS
8 - 10
25 20 15 10 5 0 0 2 4 6 8 10 12
35 30 25 20 15 10 5 0 0 5 10 15
统计学
STATISTICS
相关分析与回归分析
回归的古典意义: 高尔顿遗传学的回归概念 父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的 趋势
8-9
统计学
STATISTICS
相关关系的类型
25 20 15 10 5 0 0 2 4 6 8 10 12
● 从变量相关关系变化的方向看 正相关——变量同方向变化 A 同增同减 (A) 负相关——变量反方向变化 一增一减 (B) B ● 从变量相关的程度看 完全相关 (B) 不完全相关 (A) C 不相关 (C)
统计学一、变量间的相互关系
◆确定性的函数关系 Y=f (X) ◆不确定性的统计关系—相关关系 Y= f(X)+ε ◆没有关系
变量间关系的图形描述: 坐标图(散点图)
Y
(ε为随机变量)
35 30 25 20 15 10 5 0 0 10 X 20 30
8-8
统计学
STATISTICS
相关关系的类型
●
统计学
STATISTICS
第8章 相关与回归分析
相关与回归的基本概念 简单线性相关与回归分析 多元线性相关与回归分析 非线性相关与回归分析
8.1 8.2 8.3 8.4
8-1
统计学
STATISTICS
学习目标
1. 变量间的相关关系与相关系数的计算
2. 总体回归函数与样本回归函数 3. 简单线性回归参数的估计与检验 4. 多元线性回归参数的估计与检验 5. 常用的可以转换为线性回归的非线性函数
0.9829
统计学
STATISTICS
相关系数的特点:
相关系数的取值在-1与1之间。 当r=0时,表明X与Y没有线性相关关系。 当 0 r 1 时,表明X与Y存在一定的线性相关关 系: 若 r 0 表明X与Y 为正相关; 若 r 0 表明X与Y 为负相关。 当 r 1时,表明X与Y完全线性相关: 若r=1,称X与Y完全正相关; 若r=-1,称X与Y完全负相关。
统计学
STATISTICS
回归的现代意义
一个因变量对若干解释变量依存关系的研究 回归的目的(实质): 由固定的自变量去估计因变量的平均值
总 体
8 - 12
样 本
自变量固定值
统计学
STATISTICS
相关分析与回归分析的联系
●共同的研究对象:都是对变量间相关关系的分析 ●只有当变量间存在相关关系时,用回归分析去寻求 相关的具体数学形式才有实际意义 ●相关分析只表明变量间相关关系的性质和程度,要 确定变量间相关的具体数学形式依赖于回归分析 ● 相关分析中相关系数的确定建立在回归分析的基础 上
协方差的定义(第三章中介绍的)
Cov( X , Y ) E{[ X E ( X )][Y E (Y )]}
E ( XY ) E ( X ) E (Y )
8 - 16
统计学 STATISTICS • 如果X,Y独立(不相关),则
Cov(X,Y)=0 E(XY)=E(X) E(Y)
Yi X i ei
^ ^
^
^
^
样本回归函数与总体回归函数的关系 统计学
STATISTICS
——相互联系
● 样本回归函数的函数形式应与设定的总体回归函数 的函数形式一致 。
● 和
^
^
是对总体回归函数参数的估计。
的估计 E (Y X i )
^
● Y 是对总体条件期望 i
● 残差 e 在概念上类似总体回归函数中的随机 误差u。
性相关) 当 | ρ|=1,两个变量完全线性相关
8 - 18
统计学
STATISTICS
● 样本相关系数
通过X和Y 的样本观测值去估计样本相关系数变量 X和Y的样本相关系数通常用 表示 XY
r
rXY
( X X )(Y Y ) ( X X ) (Y Y )
i i __ 2 __ i i
8 - 20
统计学 X 1167 STATISTICS
Y 4720
XY 600566
X 2 175661
Y 2 2190104
n 12
XY
8 - 21
n Xi Yi Xi Yi n Xi2 ( Xi ) 2 n Yi2 ( Yi ) 2
ui ~ N (0, )
2
假定5:正态性假定
8 - 32
统计学
STATISTICS
回归系数的最小二乘估计
^
基本思想:
希望所估计的 偏离实际观测值 的残差 Yi Yi ei 越小越好。可以取残差平方和 ei2作为衡量 ^ Y i与 Yi 偏离程度的标准—最小二乘准则
^
估计式:
^
N X ( X i )
(引自《光明日报》刘军/文)
问题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗? 这些类型的问题可以运用相关分析与回归分析的 方法去解决。
8-6
STATISTICS 8.1 相关与回归的基本概念
统计学
一、变量间的相互关系 二、相关关系的类型 三、相关分析与回归分析
8-7
STATISTICS
8 - 27
统计学
STATISTICS
样本回归函数(SRF)
概念: ●Y的样本观测值的条件均值随自变量X而变动的轨 迹,称为样本回归线。 ●如果把因变量Y的样本条件均值表示为自变量X的 某种函数,这个函数称为样本回归函数 (简记为SRF)。 表现形式:线性样本回归函数可表示为
或者
8 - 28
Y i Xi
2 i
N X iYi X iYi
2
Y X
8 - 33
^Байду номын сангаас
( X X )(Y Y ) (X X )
i i __ 2 i
__
__
统计学
STATISTICS
最小二乘估计的性质 ——高斯—马尔可夫定理
8 - 26
统计学
STATISTICS
总体回归函数(PRF)
概念:将总体因变量Y的条件均值表现为自变量X的某种 函数,这个函数称为总体回归函数(简记为PRF)。 表现形式: (1)条件均值表现形式
(2)个别值表现形式(随机设定形式)
E (Y X i ) X i
Yi X i ui
从涉及的变量数量看 简单相关 多重相关(复相关) ● 从变量相关关系的表现形式看 线性相关——散布图接近一条直线(左图) 非线性相关——散布图接近一条曲线(右图)
25 20 15 10 5 0 0 2 4 6 8 10 12
11.2 11 10.8 10.6 10.4 10.2 10 0 2 4 6 8 10
回归分析的目的: 用样本回归函数去估计总体回归函数。
8 - 29
样本回归函数与总体回归函数的关系 统计学
STATISTICS
——相互区别
●总体回归函数虽然未知,但它是确定的;
样本回归线随抽样波动而变化,可以有许多条。 ●样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。 ●总体回归函数的参数虽未知,但是确定的常数; 样本回归函数的参数可估计,但是随抽样而变化的随机变量。 ●总体回归函数中的 ui 是不可直接观测的; 而样本回归函数中的 是只要估计出样本回归的参数就可以计 i 算的数值。
统计学
STATISTICS
相关系数的检验方法
给定显著性水平 , 查自由度为 n-2 的临界值
t 2
若 t t 2,表明相关系数 r 在统计上是显著 的,应否定 0 而接受 0 的假设; 反之,若
8 - 25
t t 2 ,应接受 0 的假设。
统计学 二、总体回归函数与样本回归函数 STATISTICS
相关系数的检验
为什么要检验? 样本相关系数是随抽样而变动的随机变量,相关系 数的统计显著性还有待检验。 检验的依据: 如果X和Y都服从正态分布,在总体相关系 数 0 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布:
t r n2
8 - 24
1 r 2 ~ t (n 2)
原则: 使参数估计值“尽可能地接近”总体参数真实值
8 - 31
统计学
STATISTICS
简单线性回归的基本假定
E (ui X i ) 0
2
假定1:零均值假定。 假定2:同方差假定。
Var (ui X i ) E ui E (ui X i ) E (ui2 ) 2 假定3:无自相关假定。
假定4:随机扰动
Cov(ui , u j ) E ui E (ui ) u j E (u j ) E (ui , u j ) 0
ui 与自变量 X i不相关。 Cov(ui , X i ) E ui E (ui ) X i E ( X i ) 0
8-2
实例1:
国 某 一 地 区 的 经 济 发 展 数 据
统计学
STATISTICS 我
8-3
统计学
STATISTICS
关系
8-4
相关系数R
0.9829
影响
参数b 2.2767
统计学
STATISTICS
8-5
实例2: 统计学 STATISTICS 全球吃死的人比饿死的人多?
据世界卫生组织统计,全球肥胖症患者达3 亿人,其中儿童占2200万人,11亿人体重过重。 肥胖症和体重超常早已不是发达国家的“专利”, 已遍及五大洲。目前,全球因”吃”致病乃至死 亡的人数已高于因饥饿死亡的人数。
e
8 - 30
统计学
STATISTICS
三、回归系数的估计
回归系数估计的思想:
为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本观测值 结论:只能通过变量样本观测值选择适当方法去近似
地估计回归系数。
前提: u是随机变量其分布性质不确定,必须作某些 假定,其估计才有良好性质,其检验才可进行。
若干基本概念
● Y的条件分布: Y在X取某固定值条件下的分布。 ●对于X的每一个取值,都有Y的条件期望与之对应,在坐标 图上 Y的条件期望的点随X而变化的轨迹所形成的直线或曲 线,称为回归线。 ●如果把Y的条件期望 E (Y X ) 表示为X的某种函 i 数: (Y X i ) f ( X i ), 这个函数称为回归函数。 E ●如果其函数形式是只有一个自变量的线性函数, 如 E (Y X i ) X i , 称为简单线性回归函数。
Cov( X , Y ) var( x) var( y )
总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于特定的总体来说,X和Y的数值是既定的 总体相关系数是客观存在的特定数值。
8 - 15
统计学 STATISTICS 相关系数中 Cov( X , Y )
是两个随机变量的协方差
8 - 13
STATISTICS 8.2 简单线性相关与回归分析
统计学
一、简单线性相关系数及检验 二、总体回归函数与样本回归函数 三、回归系数的估计 四、简单线性回归模型的检验 五、简单线性回归模型预测
8 - 14
统计学 一、简单线性相关系数及检验 STATISTICS
●总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:
即
• 协方差在一定程度上反映了X、Y之 间的相关性 • 协方差受两个变量本身量纲的影响。
8 - 17
统计学
STATISTICS
Cov( X , Y ) var( x) var( y )
相关系数ρ具有如下的性质: 相关系数ρ是一个无量纲的值
0≤|
ρ| ≤1
当ρ=0,两个变量不相关(不存在线
__
__
2
特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。
8 - 19
统计学
STATISTICS
化简得到:
n Xi Yi Xi Yi n Xi2 ( Xi ) 2 n Yi2 ( Yi ) 2
XY
如例1
8 - 22
统计学
STATISTICS
使用相关系数的注意事项:
▲X和Y 都是相互对称的随机变量,所以
XY YX
▲相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。 ▲相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。
8 - 23
统计学
STATISTICS
8 - 10
25 20 15 10 5 0 0 2 4 6 8 10 12
35 30 25 20 15 10 5 0 0 5 10 15
统计学
STATISTICS
相关分析与回归分析
回归的古典意义: 高尔顿遗传学的回归概念 父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的 趋势
8-9
统计学
STATISTICS
相关关系的类型
25 20 15 10 5 0 0 2 4 6 8 10 12
● 从变量相关关系变化的方向看 正相关——变量同方向变化 A 同增同减 (A) 负相关——变量反方向变化 一增一减 (B) B ● 从变量相关的程度看 完全相关 (B) 不完全相关 (A) C 不相关 (C)
统计学一、变量间的相互关系
◆确定性的函数关系 Y=f (X) ◆不确定性的统计关系—相关关系 Y= f(X)+ε ◆没有关系
变量间关系的图形描述: 坐标图(散点图)
Y
(ε为随机变量)
35 30 25 20 15 10 5 0 0 10 X 20 30
8-8
统计学
STATISTICS
相关关系的类型
●
统计学
STATISTICS
第8章 相关与回归分析
相关与回归的基本概念 简单线性相关与回归分析 多元线性相关与回归分析 非线性相关与回归分析
8.1 8.2 8.3 8.4
8-1
统计学
STATISTICS
学习目标
1. 变量间的相关关系与相关系数的计算
2. 总体回归函数与样本回归函数 3. 简单线性回归参数的估计与检验 4. 多元线性回归参数的估计与检验 5. 常用的可以转换为线性回归的非线性函数
0.9829
统计学
STATISTICS
相关系数的特点:
相关系数的取值在-1与1之间。 当r=0时,表明X与Y没有线性相关关系。 当 0 r 1 时,表明X与Y存在一定的线性相关关 系: 若 r 0 表明X与Y 为正相关; 若 r 0 表明X与Y 为负相关。 当 r 1时,表明X与Y完全线性相关: 若r=1,称X与Y完全正相关; 若r=-1,称X与Y完全负相关。