统计学相关与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
29
2、相关分析与回归分析的关系
相关分析是回归分析的基础和前提,回归分析则 是相关分析的深入和继续。
相关分析需要依靠回归分析来表现变量之间数量 相关的具体形式,而回归分析则需要依靠相关 分析来表现变量之间数量变化的相关程度。 只有当变量之间存在高度相关时,进行回归分析 寻求其相关的具体形式才有意义。
2
0.9938
相关系数较大,这说明人均消费额与人均国内生产 总值高度相关。 2、由分组资料计算相关系数的公式为:
r
f x y f x f y f x f ( x f ) f y f
ij i j ij i i 2 2 2 i i i i i j j
j
fj ( y j f j ) 2
称为不完全相关。不完全相关关系是现实当中相关关 系的主要表现形式,是相关分析的主要研究对象。
8
2. 按相关的方向可分为正相关和负相关 正相关:当一个变量随着另一个变量的增加 (减少)而增加(减少),即两者同向变化时, 称为正相关。 如家庭收入与家庭支出之间的关系。 负相关:当一个变量随着另一个变量的增加 (减少)而减少(增加),即两者反向变化时, 称为负相关。 如产品产量与单位成本之间的关系,单位成 本会随着产量的增加而减少。
y
x
6
具有相关关系的某些现象可表现为因果关系。
自变量:是引起某种结果变化的原因,它是可以
控制、给定的值,常用x表示;
因变量:是自变量变化的引起结果量,它是不确
定的值,常用y表示。
它们的表现形式有多种:一种原因引起一种结果;多种 原因引起一种结果;还有变量之间是互为因果的关系。 相关分析时,一般不区分原因和结果。
x与y关系散点图的主要类型
(a)正相关\直线相关
(b)负相关\直线相关
(c)正相关\曲线相关
16
(d)负相关\曲线关系
(e)负相关直线相 关(相关程度较小)
(f )不相关
17
(二)相关系数
相关图表可反映两个变量之间的相互关系及其相关方向, 但无法确切地表明两个变量之间相关的程度。 统计学家卡尔·皮尔逊设计了统计指标 ––– 相关系数。
30
二者的区别: (1) 相关分析中变量之间的关系是对等的;回归分析 中,变量之间的关系是不对等的,将变量划分自变量 和因变量。 (2) 相关分析中变量都必须是随机变量;回归分析中, 自变量是给定的,因变量是随机的。 (3)相关分析主要是通过一个指标即相关系数来反映 变量之间相关程度的大小,相关系数是惟一的。而在 回归分析中,对于互为因果的两个变量 ,则有可能存 在两个或多个回归方程。
单相关:两个变量之间的相关,称为单相关。 复相关:一个变量与两个或两个以上其他变量之
间的相关,称为复相关。
偏相关:在复相关的研究中,假定其他变量不变,
专门研究其中两个变量之间的相关关系时称其为 偏相关。
11
三、相关关系的测定
注意:并非所有的变量之间都存在相关关系,因此需要用相 关分析方法来识别和判断。
25
2 4、相关系数取正值或是负值,与分子 xy 关系.它可能出现以下情况:
有直接的
2 1)所有相关点都为正相关,则 xy >0 ,说明两变量之 间正线性相关; 2 2)所有相关点都为负相关,则 xy <0 ,说明两变量之 间负线性相关;
3)在全部相关点中,既有正相关、又有负相关和零相 关,这时计算协方差时就会出现正负抵消。抵消的结果 为正数,为正相关;为负数就是负相关.
21
【例】根据上述资料,计算人均消费与人均国内生产 总值的直线相关系数。
22
将上表计算结果代入公式为:
r n x x
2
n xy x y
2 2
n y y
2
2
9 202299852 61395 28734 9 433057667 61395 9 94547496 28734
简单相关系数:在线性条件下说明两个变量之 间相关关系密切程度的统计分析指标,简称相 关系数。
根据总体全部数据计算的,称为总体相关系数,记为; 根据样本数据计算的,则称为样本相关系数,记为 r。
•
将反映两变量间曲线相关关系的统计指标称为非线性相 关系数、非线性判定系数;将反映多元线性相关关系的 统计指标称为复相关系数、复判定系数等。
7
二、相关关系的种类
1. 按相关的程度可分为完全相关、不完全相关和不相关
完全相关:当一个变量的变化完全由另一个变量所
决定时,称变量间的这种关系为为完全相关关系,这 种严格的依存关系实际上就是函数关系。
不相关:当两个变量的变化相互独立、互不影响时,
称这两个变量不相关(或零相关)。
不完全相关:当变量之间存在不严格的依存关系时,
4
2.相关关系
指变量之间保持着不确定的数量依存关系。即变量 间关系不能用函数关系精确表达,一个变量的取值 不能由另一个变量唯一确定,当变量x取某个值时, 变量y的取值可能有几个。
例:商品的消费量(y)与居民收入(x)之间的关系; 商品的消费量(y)与物价(x)之间的关系;
商品销售额(y)与广告费支出(x)之间的关系;
26
四、相关分析中应注意的问题
(一)相关系数是说明线性联系程度的,相关系数很小的变量间可能 存在非线性联系。 (二)相关系数不能解释两变量间的因果关系,警惕虚假相关导致的 错误结论。 有人曾对教师工资提高和酒价上涨的数据计算相关系数,得到的数值 比较大,这是否表明教师工资提高导致酒的消费量增加,从而导 致酒价上涨呢?经定性分析,事实是由于经济繁荣导致政府普遍 增加工资,其中教师工资也随之增加,同时人们收入提高增加了 酒的消费导致酒价的上涨,而教师工资增长和酒价之间并没有什 么直接关系。 (三)不要在相关关系据以成立的数据范围以外,推论这种相关关系 仍然保持。
13
【例】在研究我国人均消费水平的问题时,把全国人均 消费记为y,把人均国内生产总值(人均GDP)记为x。
我国人均国内生产总值与人均消费金额数据 单位:元
年份 1995 1996 1997 1998 1999 2000 2001 2002 2003
人均国内生产 人均消费金额 总值X Y
4854 5576 6054 6308 6551 7086 7651 8214 9101 2236 2641 2834 2972 3138 3397 3609 3818 4089
(1)变量之间是一一对应的确定关 系; y ( 2 )设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全 依赖于 x ,当变量 x 取某个 数值时, y 依确定的关系取相 应的值,则称 y 是 x 的函数, 记为 y = f (x),其中 x 称为自 变量,y 称为因变量; x (3)各观测点落在一条线上 .
粮食亩产量 (y) 与施肥量 (x1) 、降雨量 (x2) 、温度 (x3) 之间的关系;
收入水平(y)与受教育程度(x)之间的关系。
5
相关关系的特点: ( 1 )变量间关系不能用函数 关系精确表达; ( 2 )一个变量的取值不能由 另一个变量唯一确定; (3)当变量 x 取某个值时, 变量 y 的取值可能有几个; ( 4 )各观测点分布在直线周 围。
31
3、回归分析的种类
一个自变量
12
(一)相关表:将自变量x的数值按照从小到大的 顺序,并配合因变量y的数值一一对应而平行排 列的表。 (二)相关图(散点图) 识别变量间相关关系最简单的方法是散点图法。 所谓散点图法,就是将所研究变量的观察值以散 点的形式绘制在相应的坐标系中,通过它们呈现 出的特征,来判断变量之间是否存在相关关系, 以及相关的形式、相关的方向和相关的程度等。
18
1、由未分组资料计算相关系数公式:
2 xy r x y
2 ( x x ) 2 ( y y )
其中:x、y 和2 xy 分别为变量x、变量y的标准差及x与y的协方差。
x
n
y
n
xy
( x x )( y y ) n
r
( x x )( y y ) ( x x ) ( y y )
2 2
上述公式还可以变换为其它形式,如:
19
2 2 2 ( x x ) ( x 2 x x x )
x 2 2 x x nx 2 n x 2 x x nx 2 n x 2 nx 2
2
x2
( x ) 2 n
2
( y y)
例:某种商品的销售额(y)与销售量(x)之间的关系可表示为:
y = p x
(p 为单价)
圆的面积(S)与半径之间的关系可表示为:S = r2 企业的原材料消耗额 ( y) 与产量 ( x1) 、单位产量消耗 ( x2) 、原材料价格(x3)之间的关系可表示为:
y = x1 x2 x3
3
函数关系的特点:
27
第二节 一元线性回归分析
本节内容: 一、回归分析的概念及种类 二、一元线性回归模型 三、回归估计标标准误差 四、可线性化的常用曲线类型
28
一、回归分析的概念
1、什么是回归分析 “回归”一词是由英国生物学家F.Galton在研究人 体身高的遗传问题时首先提出的。 回归分析通过一个变量或一些变量的变化解释另 一变量的变化,即从一组样本数据出发,确定 变量之间的数学关系式。
从上表可以看出X和Y这两个变量之间存在什么样的相关关系? 将上表资料绘制散点图如下:
14
将上表资料绘制散点图如下:
所绘制的散点图呈现出从左至右的上升趋势,它表明x与y之间存在着 一定的正相关关系,即随着人均GDP的上升,人均消费金额也会增加。 有时也可通过表格来直接观察变量之间是否存大相关关系。
15
2
Leabharlann Baidu
y
( y ) 2 n
( x x )( y y )
x y xy n
20
r x 2
1 xy xy n 1 ( x ) 2 n y 2 1 ( y ) 2 n
r
nxy xy nx 2 (x) 2 ny 2 (y ) 2
23
j
3、相关系数取值及其意义 相关系数的值介于–1与+1之间,即–1≤r≤+1。
完全负相关
无线性相关
完全正相关
-1.0
-0.5
0
+0.5
正相关程度增加
+1.0
r
负相关程度增加
24
(1)当r>0时,表示两变量正相关,r<0时,两变量为负相关。 (2)当|r|=1时,表示两变量为完全线性相关,即为函数关系。
相关分析就是借助于图表和分析指标对变量之间的
依存关系的密切程度进行测定的过程。 是依据研究者的理论知识和实践经验,对 定性分析 客观现象之间是否存在相关关系,以及何 种关系作出判断。
在定性分析的基础上,通过编制相关表、 定量分析 绘制相关图、计算相关系数等方法,来判 断现象之间相关的方向、形态及密切程度。
第六章 相关分析与回归分析
本章内容 第一节 相关分析 第二节 一元线性回归分析
1
第一节 相关分析
本节内容 一、相关关系的概念 二、相关关系的种类 三、相关关系的测定 四、相关分析中应注意的问题
2
一、相关关系的概念
1.函数关系
当一个或几个变量取一定的值时,另一个变量有确 定值与之相对应,我们称这种关系为确定性的函数 关系。
(3)当r=0时,表示两变量间无线性相关关系,它并不意味着X 与Y之间不存在其他类型的关系。 。
( 4)当 0<|r|<1时,表示两变量存在一定程度的线性相关。且 |r|越接近1,两变量间线性关系越密切; |r|越接近于 0,表示两 变量的线性相关越弱。 (5)通常判断的标准是: |r|<0.3称为微弱相关; 0.3≤ |r|<0.5称为低度相关; 0.5≤ |r|<0.8称为显著相关 ; 0.8≤ |r|<1称为高度相关或强相关。
9
3、 按相关的形式可分为线性相关和非线性相关
线性相关:当变量之间的依存关系大致呈现为
线性形式,即当一个变量变动一个单位时,另一 个变量也按一个大致固定的增(减)量变动,就 称为线性相关。
非线性相关:当变量间的关系不按固定比例变
化时,就称之为非线性相关。
10
4. 按研究变量的多少可分为单相关、偏相关和复 相关