第八章相关与回归分析统计学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 而当一个变量发生变动时,另一个变量也随之 发生变动(增加或减少),但这种变动不是均 等的,从图形上看,其相应观测点的分布近似 地表现为各种不同的曲线形式,这种相关关系 称为非线性相关。
4.按变量多少划分,相关关系可分为单 相关、复相关和偏相关
• 单相关又称一元相关,是指两个现象之间的相关,即 一个变量对另一个变量之间的相关关系。
• 复相关又称多元相关,是指三个或三个以上变量之间 的相关关系。
• 例如家庭的消费水平与家庭收入、家庭财产及市场价 格水平之间的关系便是一种复相关。
• 在某一变量与多个变量相关时,当假定其他变量不变, 仅研究两个变量的相关关系时,称为偏相关。
• 例如在假定家庭收入、家庭财产不变的条件下,市场 价格水平与家庭消费支出的关系就是一种偏相关,同 样,在假定家庭收入和市场价格水平不变的条件下, 家庭财产与家庭消费支出的关系也是一种偏相关。
成的单变量分组相关表,分组后各耕作深度对应着一定的次数(即亩数),而
产量为相应亩数上的平均产量。从表中可以看出,平均亩产量随着耕作深度的
增加有增加的趋势,是一种正相关。
表 8-3 则是将 40 家便民店按营业人员数(自变量)和营业额(因变
量)同时进行分组而形成的双变量分组相关表。从表中数据可以看出,营
解:在计算相关系数时,通常要设计一张计算表(见表 8-4),
将有关数据的计算过程放在表格中。
表 8-4
相关系数计算表
年份 收入 x 消费 y
xy
x2
y2
2003 2004 2005 2006 2007 2008 合计
Leabharlann Baidu
8472 9422 10493 11760 13786 15781 69714
6511 7182 7943 8697 9997 11243 51573
• 判断真实相关与虚假相关,必须依靠有关的实 质性科学提供的知识做定性分析,而不能靠数 学公式或简单的数学图表来作出判断。
二、相关关系的分析
• 相关分析就是对变量之间相关关系的描述与度量。 • 其基本内容包括: • 1、直观地判断变量之间是否存在相关关系及其相关关
系的具体形式。一般是通过绘制统计图表来实现,这 也是相关分析的出发点。
(2)现象之间数量上的依存关系是非确定性 的,即其中一个变量取某一值时,另一个变量可能 有多个数值与之对应。
例如身高 170 ㎝的人,其体重会有许多个值与 之对应;收入水平相同的家庭,它们的消费水平往 往并不相同。之所以如此,就在于影响因变量的因 素有许多,除了我们所举的因素外,其它因素也对 因变量有影响。
将式(8.3)的分子、分母同除以 n2 ,还可得到如下的计算公式:
r
xy x y
[x2 (x)2 ][ y2 ( y)2 ]
(8.4)
样本相关系数是根据样本观测值计算的,抽取的样本不同,其具体 的数值便会有所差异。数理统计已经证明,样本相关系数是总体相关系 数的一致估计量。
【例8-2】
要求根据表 8-1 的资料计算相关系数,说明相关程度。
55161192 67668804 83345899 102276720 137818642 177425783 623697040
71774784 88774084 110103049 138297600 190053796 249039961 848043274
42393121 51581124 63091249 75637809 99940009 126405049 459048361
例如上述的圆的周长 L 决定于它的半径 R ,即 L 2 R , 又如,某产品的销售额 y 与销售量 x 之间的关系,即 y px , 其中 p 为价格,这就是说,在销售价格不变的情况下,对于
该商品的某一销售量,总有一个销售额与之对应,即销售额 完全由销售量所决定,二者之间为线性函数关系。再如,企 业的原材料消耗额( y )与产量( x1 )、单位产品原材料消 耗量( x2 )、单位原材料价格( x3 )之间的关系可表示为 y x1x2 x3 ,这也是一种确定的函数关系,但它们不是线性函 数关系。
2.按相关方向划分,相关关系可分为正 相关和负相关。
• 两个相关变量间,当一个变量的数值增加(或 减少)时,另一个变量的数值也随之增加(或 减少),这种相关称为正相关。
• 例如家庭消费与收入、身高与体重。
• 当一个变量的数值增加(或减少)时,另一个 变量的数值反而表现出减少(或增加)的趋势 变化,称这种相关为负相关。
• 当两个现象彼此互不影响,其数量各自独立时,称这 两个现象之间的关系为不相关或零相关。
• 例如,学生的学习成绩与其身高、体重之间一般认是 不相关的,同样,一个人的收入与其血压之间也是不 相关的。
• 若两个现象之间的关系介于完全相关和不相关之间, 就称为不完全相关。一般的相关关系就是指这种不完 全相关,它是相关分析的研究对象。
5.按相关的性质分,相关关系可分为真 实相关和虚假相关。
• 当两个现象之间的相关确实具有内在联系时, 称之为真实相关。
• 例如上述的消费与收入、价格与需求量等的相关,都 可以说是真实相关。
• 当两个现象之间的相关只是表面存在,实质上 并没有内在联系时,称其为虚假相关。
• 一个国家的国内生产总值与其精神病患者人数之间、 一个股票市场的股票价格水平与气温之间的关系就是 典型的虚假相关。
第八章相关与回归分析统计学
当一个或几个变量取一定的值时,另一个变量有确定值 与之相对应,我们称这种确定性的一一对应关系为函数关
系。如圆的周长与其半径之间的关系即为函数关系。 在函数关系中,一般把作为影响因素的变量称为自变
量,把发生对应变化的变量称为因变量,通常用公式记为: y f (x) ,其中 x 称为自变量, y 称为因变量。
业额随着营业员的增加有增加的趋势,也是一种正相关。
表 8-3
双变量分组表
营业额
营业员 x
合计
y(万元) 1—3 3—5 5—7 7—9 9—11
6—7 -
-
-1
6
7
5—6 -
-
24
4 10
4—5 -
2
4
5
-
11
3—4 2
1
4
-
-
7
2—3 1
2
-
-
-
3
1—2 2
-
-
-
-
2
合计
5
5 10 10 10 40
制作双变量分组相关表,须注意将自变量放在纵栏标题处,按变量值从小
到大自左向右排列,将因变量放在横行标题处,按变量值从大到小自上而
下排列。这样做的目的是将相关表与相关图一致起来,便于判断相关关系
的性质。
相关图又称散点图,它是以直角坐标系的横轴代表变量 x,纵轴代表变量 y,将两个变量间对应的变量值用坐标点的 形式描绘出来,用来反映两变量之间相关关系的图形。根据 表 8-1 的资料绘制的相关图如图 8-1 所示,从图 8-1 可以看 出,人均消费性支出与人均可支配收入之间呈现出正的线性 相关关系。
• 相关表和相关图是研究相关关系的简单、直观 工具。利用它们可对现象之间存在的相关关系 的方向、表现形式和密切程度做出大致的判断。
• 相关表是一种反映变量之间相关关系的统计表, 根据资料是否分组,相关表有简单相关表和分 组相关表两种。
• 简单相关表就是先将自变量的数值按从小到大 的顺序排列出来,然后将因变量数值对应列上 而形成的表格。
图8.1 收入与消费的相关图
人均消费性支出
12000 10000 8000 6000 4000 2000
0 0
5000
10000
15000
人均可支配收入
20000
(二)相关系数(Coefficient of correlation)
• 1.相关系数的意义 • 在各种相关中,单相关是基本的相关关系,它是复相
关系数是反映两变量之间线性相关程度的统计指标,表
现为一个常数。
若相关系数是根据样本数据计算的,称为样本相关系数,记为 r 。 样本相关系数的定义式是:
r sx2y sx sy
n
1
1
(x
x
)(
y
y
)
n
1 1
(
x
x )2
1 n 1
(
y
y)2
(8.2)
(x x)( y y) (x x)2 (y y)2
分组相关表则是对两个相关变量都进行分组,交叉排列,并列出两种变量各组
间的共同次数。具体见表 8-2 和表 8-3。
表 8-2
单变量分组相关表
按耕作深度分组 亩数 平均亩产量
(厘米)
(亩) (公斤)
12
4
320
14
6
343
16
15
353
18
10
378
20
4
400
22
1
420
合计
40
361
表 8-2 是将 40 亩地的耕作深度与亩产量数据按耕作深度进行分组后所形
2.相关系数的计算
若相关系数是根据总体全部数据计算的,称为总体 相关系数,记为 。总体相关系数的定义式是:
Cov(X ,Y )
Var(X ) Var(Y )
(8.1)
式中, Cov(X ,Y ) 是变量 X 与 Y 的协方差,是衡量
两个变量朝什么方向以及在什么程度上共同变动的指
标;Var(X ) 与 Var(Y ) 分别为变量 X 与 Y 的方差。总体相
变量之间的函数关系和相关关系,在一定条件 下是可以相互转化的。
本来具有函数关系的变量,当存在观测误差 时,其函数关系往往以相关关系的形式表现出来。 而对于具有相关关系的变量之间的联系,如果我们 对它们有了深刻的规律性认识,并且能把影响因变 量变动的因素全部纳入方程,这时的相关关系也可 能转化为函数关系。客观现象的函数关系可以用数 学分析的方法去研究,而研究客观现象的相关关系 则要借助于统计学中的相关与回归分析方法。
13786
9997
2008
15781
11243
资料来源:《中国统计摘要——2009》,中国统计出版社,2009 年。
从表中数据可以看出,人均消费支出随着人均可支配收入的增加
有增加的趋势,是一种典型的正相关。
分组相关表具体又分为单变量分组相关表和双变量分组相关表两种。其中
单变量分组相关表只对自变量进行分组,列出每组变量值出现的次数;双变量
式中: sx2y 表示 x,y 两个变量数列的样本协方差(Covariance),
显示 x,y 之间相关程度的大小; sx , sy 分别表示 x,y 变量数列的样 本标准差。
为了简化计算,可由上式推导出下面的计算公式:
r
n xy x y
(8.3)
[n x2 ( x)2 ][n y2 ( y)2 ]
关和偏相关的基础。单相关有线性相关和非线性相关 两种表现形式。测定线性相关系数的方法是最基本的 相关分析,是测定其他相关系数方法的基础。 • 单相关系数或简单相关系数可简称相关系数。
• 相关系数是在直线相关条件下,对变量之间相关关系 密切程度的度量。把若干个相关系数加以比较,可以 发现现象发展中具有决定意义的因素,因而相关系数 在多个因素的作用判断中亦有重要作用。
• 例如价格与需求量、劳动生产率与单位产品成本等。 或者说,正相关是变量数值之间表现出的同方向变化, 而负相关是变量数值之间的反向变化。
3.按相关形式划分,相关关系可分为线 性相关与非线性相关。
• 当一个变量发生变动,另一个变量随之发生大 致均等的变动(增加或减少),从图形上看, 其相应观测点的分布近似地表现为直线形式, 就是线性关系。
【例8-1】
表 8-1 是我国近几年来城镇居民的人均可支配收入与人均消费性
支出的简单相关表。
表 8-1
我国近几年来城镇居民收入与消费的简单相关表
年份 人均可支配收入(元) 人均消费性支出(元)
2003
8472
6511
2004
9422
7182
2005
10493
7943
2006
11760
8697
2007
• 2、定量地刻画变量之间相关关系的程度或强度。线性 相关关系一般是通过相关系数来说明,非线性相关关 系可以通过相关指数来说明,这是相关分析的中心内 容。
• 3、相关系数的显著性检验。在实际进行相关分析时, 相关系数都是利用样本数据计算的,因而带有一定的 随机性。因此,也需要进行显著性检验。
(一)相关表和相关图
(二)相关关系的分类
• 客观现象间的相关关系相当复杂,表现为各种 形态,可以按不同的标志加以分类。
• 1.按相关程度划分,相关关系可分为完全相 关、不完全相关和不相关。
• 当一种现象的数量变化完全由另一种现象的数量变化 所决定时,称这两种现象之间的关系为完全相关(即函 数关系)。
• 例如上述的圆的周长与圆的半径之间的关系等。在这 种情况下,相关关系即为函数关系,也可以说函数关 系是相关关系的一种特例。
将表中数据代入式(8.3)即得:
相关文档
最新文档