应用统计学 第九章 回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 的置信水平下,可以认为总体上两个变量之间是线性相关的。如果 | t | t/2 ,则表明相关
系数 在统计上是不显著的,也就是说在 1 的置信水平下,不能认为总体上两个变量之间是
线性相关的。
由表9-1中的样本数据所计算出来的样本相关系数为: r 0.945 。在 0.05 的显著性
水平上进行相关系数显著性检验的步骤如下。
析
度的线性相关关系;而当 0.75 | r |1 时,则认为变量间的线性相关关系很强。
20
第一节 相关分析概述
第 九 章
三、相关系数的显著性检验
回
归 分
若总体中两个变量的全部取值已知,则可以根据总体的数据计算出两个变量之间相关系数
析
的理论真值。但这在现实中是做不到的,也就是说,两变量之间总体上的相关系数的理论真
关联起来,估计出不同收入水平居民家庭的“平均每户每月日用杂货支出”,这才符合分析报告
写作的要求。“每月日用杂货支出”与“月收入”两变量的样本数据如表9-1所示。
目
录
页
2
CONTENTS PAGE
目
录
页
3
CONTENTS PAGE
目
录
页
4
CONTENTS PAGE
相关分析概 回归模型与
述
回归方程
若总体相关系数等于零,则与样本相关系数有关的上述t统计量的值就不应过大或过小,
回 归
因为t统计量过大或过小都是总体上两个变量之间具备线性相关关系的证据。因此,给定一个
分 析
显著性水平 ,就可以在自由度为 n 2 的t分布下,确定衡量这个t统计量的值过大或过小的
一个标准,即临界值 t /2 。如果 | t | t/2 ,则表明相关系数r在统计上是显著的,也就是说在
回 (二) 相关系数的构造原理
归
分
析
相关系数的构造原理如图9-3所示。
图9-3中标出了40个家庭的平均月日用杂货支出 y 与平均月收入 x 的位置。y 与 x 将所有的点划分为4个象限。正的线性相关表现出这样的特点:落在第1象限和第3象限
的点多于落在第2象限和第4象限中的点。落在第1象限和第3象限中的点称为正相关点;
个容量为40的样本数据,并针对“每月日用杂货支出”的数据,估计出“平均每户每月日用杂货
支出”为840.63元。
正准备引用这一数字时,计划部主管却突然发现有些不妥。分析报告中的有关部分已经细化
到针对不同收入水平居民的经营策略,而“平均每户每月日用杂货支出”的估计值,还只是一个
笼统的估计数字,其中并未包含不同居民家庭收入水平差异的信息。因此,有必要与“月收入”
不相关,如图9-2(f)所示。
11
第一节 相关分析概述
第 九 章 回 归 分 析
12
第一节 相关分析概述
第 九
章 二、相关系数
回 (一) 相关系数的概念
归
分
析
虽然散点图有助于观察和判断两个变量之间相关关系的类型及密切程度,但它毕竟是依赖
肉眼观察,判断结果往往带有很强的主观性,不同的人甚至可能会得出不同的判断结果,这
i 1
i1
i 1
i1
(9-2)
这个公式虽然表面上看起来比先前的理论公式显得繁琐一些,但由于避免了计算均
值 x 与 y 的过程,也避免了计算离差 (xi x) 与 ( yi y) 的过程,并由此减少了
计算过程中四舍五入的误差,因此在实际运用中更便于手工计算。依此公式,只需根据
n
n
n
8
第一节 相关分析概述
第 九 章
回 (二) 相关关系与函数关系的区别
归
分
析
相关关系与函数关系是不同的。在函数关系中,当一个变量的取值发生变化时,另一个变
量有唯一确定的值与之相对应。在相关关系中,当一个变量的取值发生变化时,另一个变量
的取值是不确定的,它遵循某种规律在一定范围内变化。
9
第一节 相关分析概述
过观察散点图,并计算相关系数,可以在一定的置信水平上确认:在月支出与月收入之间存
在着正的线性相关关系。也就是说,随着月收入的增加,该地区居民家庭的每月日用杂货支
出也将随之线性增加。
接下来的问题就是要找到这条直线,并确定下来,从而可根据“月收入”的不同取值,来
估计“每月日用杂货支出”的取值。这就是线性回归分析方法要解决的问题。
分
布下,可确定相应的临界值 t 2 (n 2) t0.025 (38) 2.024 4 。因为 t t 2 ,所以拒绝原假设 H0 ,
析
也就是说,总体中在月支出与月收入之间存在着显著的线性相关关系,作出这一推断的置信
水平为95%。当然也可采用P值进行决策,决策结果是相同的。针对表9-1中的样本数据,通
第九章 回归分析
CONTENTS PAGE
如何估计每户每月日用杂货支出?
引导案例
一家超级市场股份有限公司正在考虑向一个新的地区发展业务,计划部主管必须向公司董事
会的执行委员会提交一份有关发展计划的分析报告。作为报告中的一个关键部分,她需要提供那
个地区居民每月在日用杂货项目上的支出信息。
为此她以居民家庭为对象,就每户家庭的“每月日用杂货支出”“月收入”等变量收集了一
(1)提出原假设和备择假设,即 H0 :总体相关系数 0 ,H1:总体相关系数 0 。
(2)计算检验统计量的值,即
n2
40 2
tr
0.945
17.810 8
1 r2
1 0.9452
22
第一节 相关分析概述
第 九 章
回 归
(3)作出统计决策。若给定显著性水平 0.05 ,在自由度为 n 2 40 2 38 的t分
落在第2象限和第4象限中的点称为负相关点;落在均值线 或 上的点称为零相关点。
显然,对于正相关点,必然有 (x x)( y y) 0;对于负相关点,必然
有 (x x)( y y) 0 ;对于零相关点,必然有 (x x)( y y) 0 。(x x)( y y) 称为积
n
差。所有点的积差之和称为积差和,即 (xi x)( yi y) 。 i 1
归 分
种线性相关关系:
析
yi 0 1xi i
(9-4)
这个等式称为x与y的一元线性回归模型。模型中,因变量y的第i个取值 是以自变量x的第i个
取值 xi 为自变量的线性函数值 0 1xi 再加上一个 i 。其中, i 1,2,3, , ; 0 和 1 分别为线性函数的截距和斜率,称作模型参数。
则表明正的方面的积差与负的方面的积差相互抵消,此时意味着x和y之间不存在线性相 n
关关系。因此,积差和 (xi x)( yi y) 就成为x和y之间是否具有线性相关关系以及 i 1
线性相关关系强弱的一种度量。
16
第一节 相关分析概述
第 九 章
回 归
但是,用积差和来度量x和y之间的线性相关关系有许多不便之处。首先,积差和的
就需要一种尺度来客观地衡量两个变量之间相关关系的类型及密切程度。相关系数就可以充
当这个尺度,它是反映变量之间相关关系密切程度的统计指标,用r表示,计算公式为:
n
(xi x)( yi y)
r
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
(9-1)
13
第一节 相关分析概述
第 九 章
(a)~(d)所示。正线性相关的两个变量,它们的变动方向相同;负线性相关的两个变量,
它们的变动方向相反。
10
第一节 相关分析概述
第 九 章
回 归
当一个变量的取值变动时,另一变量的取值沿着一条曲线变动,则称两者之间是非线性相
分 析
关关系或曲线相关关系,如图9-2(e)所示。如果两个变量各自独立、互不影响,则称两者
23
CONTENTS PAGE
相关分析概 回归模型与
述
回归方程
估计的回归 检验和预测 方程
残差分析
运用SPSS 进行回归分
析
第一节
第二节
第三节
第四节
第五节
第六节
目
录
页
24
第二节 回归模型与回归方程
第 九
章 一、回归模型
回
假定自变量x与因变量y在总体上存在着线性相关关系,可以用以下等式来模拟x与y之间的这
分
取值要受到x和y所采用的计量单位的影响;其次,样本点的多少对积差和的值也有影响,
析
样本点越多,积差和绝对值的取值就倾向于越大。然而,变量间的线性关系的强弱根本
上取决于两个变量本身的性质,与计量单位的变化或样本点的多少没有关系,并不会因
为计量单位或样本点的变化而改变变量之间本身所固有的线性相关关系的强弱。因此,
i 1
i 1
即: 1 r 1 。 n
相关系数r消除了积差和 (xi x)(yi y) 中样本量和计量单位的影响因素,以一个系 i 1
数来衡量两个变量之间线性相关关系的强弱。
当 r 0 时,表明x和y之间不存在线性相关关系;当 r 0 时,表明存在正的线性
相关关系;当 r 0 时,表明存在负的线性相关关系。r的绝对值越接近于1,表明线性
第 九 章
回 (三) 相关关系的类型
归
分
析
按相关形式不同,相关关系可分为线性相关和非线性相关。
当一个变量的取值变动时,另一变量的取值整体上沿着一条直线变动,则称两者之间是线
性相关关系或直线相关关系。例如,图9-1所示的月支出与月收入之间的关系就是具有一定程
度的线性相关关系。按变动方向不同,线性相关又可分为正线性相关和负线性相关,如图9-2
需要进一步寻求测定线性相关关系强弱的普遍适用的尺度。
17
第一节 相关分析概述
第 九 章
(四) 相关系数的取值范围
回
归
分 析
因为:
n
0
(xi x)( yi y)
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
n
所以:
1
(xi x)( yi y)
i 1
1nBiblioteka n(xi x)2 ( yi y)2
值总是未知的。一般情况下,只能根据随机样本数据计算出样本相关系数,再由样本相关系
数来对总体相关系数的理论真值作出具有一定置信水平的推断。
统计学家的研究表明,当总体相关系数等于零时,存在一个与样本相关系数相关的自由度
为 n 2 的t统计量:
tr
n2 1 r2
(9-3)
21
第一节 相关分析概述
第 九 章
相关关系越强,当r的绝对值等于1时,表明x与y完全正相关或完全负相关。
18
第一节 相关分析概述
第 九 章
(五) 相关系数的等价公式
回
归
分
相关系数的计算公式还可以等价变换为另外一种形式:
析
n
n
n
n xi yi xi yi
r
i 1
i1 i1
n
n
xi2
n
2 xi
n
n
yi2
n
2 yi
章 一、相关关系
回
归 分
(一) 相关关系的概念
析
如果反复观察表9-1中的样本数据,或许会隐约察觉到“月支出”与“月收入”两个变量
之间的确有着某种关联。随着月收入的增加,月支出相应地也在增加。但这种判断是非常不
明确的,关联的具体状态如何?关联的密切程度如何?这无法直接从表中数值看出答案。
用表9-1中的数值绘制散点图,横轴代表月收入,纵轴代表月支出,如图9-1所示,图中
估计的回归 检验和预测 方程
残差分析
运用SPSS 进行回归分
析
第一节
第二节
第三节
第四节
第五节
第六节
目
录
页
5
CONTENTS PAGE
相关分析概 回归模型与
述
回归方程
估计的回归 检验和预测 方程
残差分析
运用SPSS 进行回归分
析
第一节
第二节
第三节
第四节
第五节
第六节
目
录
页
6
第一节 相关分析概述
第 九
n
样本数据计算出 xi ,
yi , xi2 , yi2
i 1
i 1
i 1
i 1
量n代入公式,即可得出相关系数的计算结果。
n
和 xi yi i 1
这5个数据项,再将样本
19
第一节 相关分析概述
第 九 章
回
由表9-1中的样本数据计算所得的相关系数为0.945,这表明在月支出与月收入之间
归
分
存在着很强的正线性相关关系。通常,当 0 | r | 0.75 时,经验表明变量间具有中等强
各点分别由每一个观测点的月支出和月收入决定。此图直观地显示了数据中40户家庭月支出
与月收入之间的关系。
7
第一节 相关分析概述
第 九 章 回 归 分 析
观察图9-1可知,这40户家庭月支出的观测值,除自身的上下波动之外,与月收入之间同时 又具有一种协变关系。尽管这种协变关系表现出了某种不确定性,但从整体上看,月支出是沿 着一定的方向,随着月收入的变化而变化。统计中将两变量之间的这种相对关系称作相关关系。 散点图是从样本数据上直观判断两个数值型变量之间是否具有相关关系的常用工具。
14
第一节 相关分析概述
第 九 章 回 归 分 析
15
第一节 相关分析概述
第 九 章
回 (三) 积差和与线性相关的关系
归
分
析
从积差和公式不难看出,如果积差和大于零,则表明正的方面的积差多于负的方面
的积差,x和y之间将呈现出正的线性相关关系;如果积差和小于零,则表明负的方面的 x
积差多于正的方面的积差,x和y之间将呈现出负的线性相关关系;如果积差和等于零,