第八章_相关与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、回归分析:
回归是关于一个变量对另一个或多个 变量依存关系的研究,是用适当的数学模型 去近似地表达或估计变量之间地平均变化关 系,
回归分析目的:根据已知的自变量的 数值,去估计因变量的总体平均值。
3、相关分析和回归分析的区别与联系 区别: 从研究目的上看:相关分析是研究变量间 相互联系的方向和程度;回归分析是寻求变量间 联系的具体数学形式,是要根据自变量的固定值 去估计和预测因变量的值。
若 t ,t表2 明相关系数 r 在统计上是显著
的,应拒绝 而0接受 的假设0 ; 反之,若 t ,t不2 拒绝 的假 设 0。
二、总体回归函数与样本回归函数
1、若干基本概念
● Y的条件分布: Y在X取某固定值条件下的分布。 ●对于X的每一个取值,都有Y的条件期望与之对应,在
坐标图上 Y的条件期望的点随X的变化而变化的轨迹所 形成的直线或曲线,称为回归线。 ●如果把Y的条件期望 E (Y表X示i )为X的某种函 数: E(YXi), 这f(个Xi函) 数称为回归函数。 ●如果其函数形式是只有一个自变量的线性函数,
为什么要检验?
样本相关系数是随抽样而变动的随机变量,相 关系数的统计显著性还有待检验。
检验的依据:
如果X和Y都服从正态分布,在总体相关系
0 数
的假设下,与样本相关系数 r 有关的
t
统计量服从自由度为n-2的 t 分布:
trn2 1r2~t(n2)
相关系数的检验方法
给定显著性水平 ,
查自由度为 n-2 的临界值 t 2
● 从变量相关关系的表现形式看 线性相关——散点图接近一条直线(左图)
非线性相关——散点图接近一条曲线(右图)
25
20
15
10
5
0
0
2
4
6
8
10
12
11.2 11
10.8 10.6 10.4 10.2
10 0
5
10
相关关系的类型
● 从变量相关关系变化的方向看 正相关——变量同方向变化 负相关——变量反方向变化 ● 从变量相关的程度看
●相关分析只表明变量间相关关系的性质和程 度,要确定变量间相关的具体数学形式依赖 于回归分析
8.2 简单线性相关与回归分析
一、简单线性相关系数及检验 二、总体回归函数与样本回归函数 三、回归系数的估计 四、简单线性回归模型的检验 五、简单线性回归模型预测
一、简单线性相关系数及检验
●总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:
第8章 相关与回归分析
8.1 相关与回归的基本概念 8.2 简单线性相关与回归分析 8.3 多元线性相关与回归分析 8.4 非线性相关与回归分析
学习目标
1. 变量间的相关关系与相关系数的计算 2. 总体回归函数与样本回归函数 3. 线性回归的基本假定 4. 简单线性回归参数的估计与检验
8.1 相关与回归的基本概念
一、变量间的相互关系 二、相关关系的类型 三、相关分析与回归分析
一、变量间的相互关系
◆确定性的函数关系 Y=f (X) ◆不确定性的统计关系—相关关系
Y= f(X)+u (u为随机变量)
35
30
两变量关系的图形描述: 25 20
Y
坐标图(散点图)
15 10
5
0
0
10
20
30
X
二、相关关系的类型
● 从涉及的变量数量看 简单相关 多重相关(复相关)
●如果把因变量Y的样本条件均值表示为自变量 X的某种函数,这个函数称为样本回归数。
__
__
(Xi X)2 (Yi Y)2
特点:样本相关系数是根据从总体中抽取的随机样 本的观测值计算出来的,是对总体相关系数的估计,它 是个随机变量。
相关系数的特点:
相关系数的取值在-1与1之间。
当r=0时,表明X与Y没有线性相关关系。
当 0 时r ,1 表明X与Y存在一定的线性相关关 系;
从对变量的处理来看:相关分析中的变量均 为随机变量,不考虑两者的因果关系;回归分析 是在变量因果关系的基础上研究自变量对因变量 的具体影响,必须明确划分自变量和因变量,回 归分析中通常假定自变量为非随机变量,因变量 为随机变量。
联系:
●共同的研究对象Βιβλιοθήκη Baidu都是对变量间相关关系的 分析
●只有当变量间存在相关关系时,用回归分析 去寻求相关的具体数学形式才有实际意义
Co(vX,Y)
Va(rX)Va(Yr)
总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于特定的总体来说,X和Y的数值是既定的
总体相关系数是客观存在的特定数值。
● 样本相关系数
通过X和Y 的样本观测值去计算样本相关系数,变量
X和Y的样本相关系数通常用
r
表示
XY
__
__
rXY
(Xi X)(Yi Y)
如 E(YXi,)称为简单Xi线性回归函数。
2、总体回归函数
概念:将总体因变量Y的条件期望表现为自变量 X的某种函数,这个函数称为总体回归函数。 表现形式:
(1)条件均值表现形式 E(YXi)Xi
(2)个别值表现形式(随机设定形式)
Yi Xiui
3、样本回归函数
概念:
●Y的样本观测值的条件均值随自变量X而变动 的轨迹,称为样本回归线。
度极弱,可视为不相关 5. 上述解释必须建立在对相关系数的显著性
进行检验的基础之上
使用相关系数的注意事项:
▲X和Y 都是相互对称的随机变量,所以
XY YX
▲相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。
▲相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。
相关系数的检验
完全相关 不完全相关 不相关
25
20
15
10
5
0
0
2
4
6
8
10
12
25
20
15
10
5
0
0
2
4
6
8
10
12
35 30 25 20 15 10
5 0
0
5
10
15
三、相关分析和回归分析
1、相关分析 分析变量之间是否存在相关关系 分析相关关系的类型 计量相关关系的密切程度
相关分析: 不能说明变量间的相关关系的具体形式 不能从一个变量去推测另一个变量的具体变化
若 r表明0 X与Y 为正相关; 若 r表明0 X与Y 为负相关。 当 r 时 1,表明X与Y完全线性相关;
若r=1,称X与Y完全正相关; 若r=-1,称X与Y完全负相关。
相关系数的经验解释
1. |r|0.8时,可视为两个变量之间高度相 关
2. 0.5|r|<0.8时,可视为中度相关 3. 0.3|r|<0.5时,视为低度相关 4. |r|<0.3时,说明两个变量之间的相关程