第6章 管理定量分析 相关与回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
40
41
一元非线性回归模型的线性处理方法
由于线性回归方模型比较简单,所以在遇到非线性回归模型时, 最好通过变换将其转换为线性回归模型。
一些常用的非线性回归模型转换方法包括以下几种。
42
拟合优度的测度
有三种拟合优度的测度方法
㈠估计标准误差

Sy|x 被称为估计的标准误差(又称为均方根差)
是观测值Y 和Yˆ 之间的离差的估计值
假定2 无论X为何值,误差项的方差都为常数。
异方差的处理
• 异方差的检验有图示法及解析法。 • 检验异方差的解析方法的共同思想是,由于不同的观察
值随机误差项具有不同的方差,因此检验异方差的主要 问题是判断随机误差项的方差与解释变量之间的相关性 。如果相关,则存在异方差,反之没有。 • 异方差的修正方法有加权最小二乘法和模型对数变换法 等,其基本思路是变异方差为同方差,或者尽量缓解方 差变异的程度。
11
(1)在SPSS中录入对应的原始数据,建立SPSS数据文件; (2)打开SPSS数据文件,选择[Analyze]=>[Correlate]=>[Bivariate](图10-
3);
13
(3)将分析变量x和y输送到[Variables]分析框中,并采用默认设置(图 10-4)。
14
(4)单击[OK]进行分析,输出结果如表10-3所示。
当t值大于临界值时,则拒绝原假设;
当t值小于临界值时,则接受原假设。
10
Pearson相关分析实例
【例10-1】 以1990~2010年的统计数据为依据(表 10-2),运用SPSS计算农村居民家庭人均纯收入和城 镇居民家庭人均可支配收入两者之间的Pearson相关系 数,并进行统计显著性检验。
例如, S R2 ,圆的面积随着半径而变动;V pq ,产值V 和产量 p 、单位生产 成本 q 之间也是确定的函数关系。
(二)相关关系
相关关系是指现象之间确实存在依存关系,但这种关系不
确定不严格。例如:
• 身高与体重之间,存在一定的依存关系。 • 但是体重除了与身高有关外,还受年龄、性别、区域、种族等
Pearson相关的显著性检验
在随机抽样中,由于抽样误差的影响,要对得到的r值(样本的简单相关系 数)进行统计显著性检验,以判断两变量的总体是否存在线性相关关系。
在小样本的条件下,数学上可以证明,在x与y都服从于正态分布,并且又满 足 0 的条件下( 是样本所来自的总体的相关系数),可以使用费希尔
是最优的。这种方法就被称为普通最小二乘法(least squares),也就是线性回归(linear regression)。
样本回归直线用如下公式表示:
Y a bX e
根据最小二乘法则,可以确定回归方程的两个系数:
b (Xi X )(Yi Y ) (Xi X )2
a Y bX
➢ 剔除了一个变量Z影响后,两个变量的偏相关系数
rxy.z
rxy rxz ryz (1 rxz2 ) (1 rxz2 )
16
➢ 剔除了两个变量影响后,两个变量的偏相关系数
r xy.z1z2
r r r xy.z1
xz2 .z1 yz2 .z1
(1 rxz2 .z1 2 ) (1 ryz2 .z1 2 )
假定3:误差相互独立。
• 这个假定的另一种说法是,一个误差的大小不是任何从前误 差的函数。
• 如果残差相互之间是随机的,误差就是相互独立的。 • 误差不独立就存在自相关问题。 • 自相关不是指两个或两个以上的变量之间的相关关系,而是
20
(4)进入[Partial],将Y和X1输入[Variables]分析变量框,将X2 输入 到[Controlling for]控制变量框(图10-15)。
21
22
从输出结果可知,城市人均消费性支出和地区生产总值 之间的简单相关系数为0.474,在0.01的水平上具有统计 显著意义。但在将城市人均可支配收入控制起来的条件 下,城市人均消费性支出和地区生产总值之间的偏相关 系数为-0.082,且不具有统计显著意义。
㈢斜率的标准误差

在公共管理研究中,很多情况下研究的变量是多个的,这就需要 用多元的方法才能更好地描述变量间的关系。就方法的实质来说 ,处理多元线性回归(multiple linear regression)的方法与处理 一元线性回归的方法是基本相同的,只是多元线性回归的方法复 杂些,计算量大些,我们通常都运用统计软件来进行处理。
计算警车数与平均车速数据表中反映关系的截距 a 与斜率 b(见表 6—2)
计算结果带入Y a bX e,可得描述公路上巡逻车数和在该路段上汽车平均车速
的关系的回归方程就应为
Yˆ 72.2 2.55X
回归方程的应用
• 第一,当6辆巡逻车在执勤时,公路上汽车的平均车速 是多少?
• 第二,7量巡逻车呢? • 第三,一辆巡逻车也没有呢? • 6辆警车和7辆警车对车速的影响有多少差距?
➢ 偏相关系数显著性检验的统计量构造:
t r
nk2 1 r2
该统计量服从于自由度为(n k 2)的t分布
n是样本的容量,k是剔除的变量数
17
【例10-9】 以2010年我国31个省市城市人均消费性支 出、地区生产总值和城市人均可支配收入的相关统计数 据为依据,研究城市人均消费性支出与地区生产总值的 关系。
第6章 变量间关系研究:相关与回归分析
引例
世界上的事物或多或少存在着某种联系。例如: • 身高与体重之间 • 投资与利润之间 • 公务员考核次数和公务员业绩之间 • 公路上汽车的平均车速与那段公路上巡逻车的数量 之间
• 这种联系可分为两类:函数关系与相关关系
6.1相关分析
㈠函数关系
它反映现象之间存在着严格的依存关系。 其特点: ⒈变量之间的数值以确定的关系相对应 这种关系中,对于某一变量的每一个数值,都有另一个变量的确定的值与之相对应。 ⒉变量间的关系可以用一个确定的公式来反映
任意一条直线都能以斜率和截距完全确定:
Y X
描述两个变量关系的直线,可用下面的方程来表示:
Yˆ X
Yˆ 可能与 Y 的实际值相等,也可能不相等
因此
为说明这一点,让我们回到前述汽车平均车速与巡逻车数的例子中。该组数据绘成图 6—3, 该图描述了该例中两个变量之间的关系。如果我们仅有这条直线,当有 3 辆巡逻车在公路
Yˆ 72.2 2.55X
以研究与开发(R&D)投入与国内生产总值(GDP) 的关系为例来说明一元线性回归模型的求解问题。 1989~2010年,中国R&D投入与GDP相关统计数据如 表11-1所示。
38
将观察值xi,yi(i=1,…,22)在平面直角坐标系中用点标出,所 得的图称为散点图。从图11-1可以看出,y(GDP)与x(R&D投 入)之间大致呈现线性相关关系,可见一元线性回归模型适用于 对y与x关系的回归分析。
(R.A.Fisher)的t检验来检验r的显著性。
检验的基本程序如下:
(1)提出假设:H0:β=0;H1:β≠0。
(2)构造统计量:
该统计量服从于自由度为(n-2)的t分布。
n2
t r 1 r 2
(3)在给定的显著性条件下,查t分布表得临界值:t n 2 。 2
(4)比较实际的Βιβλιοθήκη 值与临界值之大小,并进行决策。48
5.3线性回归的假定
• 上述内容并没有讨论线性回归的假定和限制条件 • 许多分析人员经常忽视这些假定,这样做确实冒
着一定的决策风险。 • 只要任何一个假定被违背,上面的处理结果就会
变得不可信。
假定1:对所有的X值,Y的预测值的误差服从均值 为0的标准正态分布。
• 假定1要求每一个Y 的估计值与真实值相减而形 成的一列数(误差项)服从标准正态分布。
向变化,称为完全正相关(perfect positive correlation,
r=1);反之,图d中的X、Y呈反向变化,称为完全负相 关(perfect negative correlation, r=-1)。图e至图h,两
变量间毫无联系或可能存在一定程度的曲线联系而没有
直线相关关系,称为零相关(zero correlation,r=0)。
23
6.2回归分析
• 相关分析可以说明变量间相关关系的方向和程度,但是 却不能说明变量之间具体的数量因果关系。
• 当自变量给出一个数值时,因变量可能取值是多少,这 是相关分析不能解决的。
• 这需要通过新的方法,即回归分析。
交警队队长认为,高速公路路段上汽车的平均车速与在该路段 上的巡逻车数有关。于是,他专门派人进行测试,试图证实这一假 设。测试连续进行了60天。随机抽取了5天的测试结果列在表6—2 中。
从输出结果可以看出,农村居民家庭人均纯收入(x)和城镇居民家庭人 均可支配收入(y)两者之间的Pearson相关系数 r 0.996 ,p=0.000,在
=0.01条件下达到统计显著性线性相关。
15
2、偏相关分析
➢ 偏相关:是指在多个变量中,剔除了(控制了)其中 的一个或若干个变量的影响后,两个变量之间所存在 的相关关系。
因素影响。 • 身高与体重并无严格的对应关系,同一身高的人,体重大多数
情况下是不相等的。 • 但即便如此,这两个变量之间仍旧存在一定的规律性,在一般
条件下,身高越高,体重越大。
相关关系的种类
㈠ 按相关关系涉及的变量多少来划分,可分为单相关 和复相关 ㈡ 按相关的方向分,可分为正相关和负相关 ㈢ 按相关的表现形式分,分为线性相关(直线相关) 和非线性相关(曲线相关) ㈣ 按照相关的密切程度分,分为完全相关、不完全相 关和无相关
警车数 3 1 4 5 7
汽车平均车速 64 71 61 58 56
公路上的巡逻车数和该路段上汽车平均车速的例子中,能绘出一 条描述这两个变量之间关系的直线。
直线因斜率不同而不同
斜率
• 斜率(第一个决定直线的要素):相对于点在直线上移动 的水平距离,点在直线上上升或下降的距离。
截距
• 截距:直线与y轴的交点(第二个决定直线的要素)。 截距 常用α 表示
拟合优度的第二种测度方法是判定系数法,即回归方程可解释的离差与总离差的比率, 可解释的离差是因变量的总离差与误差之差。统计学家定义了如下的可解释的离差与不可 解释的离差的比率:
r2 (Yˆi -Y)2 (Yi Y )2
这种测度称为判定系数法(coefficient of determination),或 r2。判定系数的取值 区间为 0(直线与数据完全不拟合)~1(直线完全拟合了数据)。
y
y
x x
(a)完全相关 y
(b)不完全相关 y
x x
(c)无相关 y
(d)曲线相关 y
x (e)正相关
x (f)负相关
变量间关系的密切程度一般用相关系数r衡量
1、两个变量Pearson相关分析
r 计算公式
结果衡量
两个变量之间Pearson相关的性质可用下图所示的散点图直观地表示
8
图a的散点呈椭圆形分布,宏观而言两变量X、Y变化趋势 是同向的,称为正线性相关或正相关(0 < r < 1);反之, 图b中的X、Y呈反向变化,称为负线性相关或负相关 (-1 < r< 0)。图c的散点在一条直线上,且X、Y是同
利用如下公式可以进行任意一点预测值的区间估计
假定交通警察想预测当3辆巡逻车在公路上时汽车的平均 车速时,利用回归方程,有 Y=72.2-2.55×3=72.2-7.65=64.55
当有3辆巡逻车在公路上时,我们有90%的把握确定车 速在60.28公里/小时—— 68.82公里/小时之间。
㈡判定系数
18
采用SPSS进行运算基本程序如下: (1)将“城市人均消费性支出”设为变量Y、“地区生产总值”
设为变量X1、“城市人均可支配收入”设为变量X2,在SPSS中录入 对应的原始数据,建立SPSS数据文件。 (2)先计算Y与X1之间的Pearson相关系数,再计算偏相关系数。 (3)选择[Analyze] =>[Correlate]=>[Partial](图10-14)。
上的时候,我们预测的汽车平均车速可能为多少? Yˆ ,其期望速度为 65 英里/小时。
Yˆi Yi ei
有时候同样的散点图上可以配上多条斜率不同的直线, 哪一条才是最优的呢?
总体回归直线:Y X
统计学家一致认为误差平方和最小的直线,即使所有的 (Yˆi Yi )2 的和最小的那条直线
相关文档
最新文档