统计学 相关分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
Covxy =wenku.baidu.com
∑ ( x − x )( y − y )
i =1 i i
n −1
������������ � ������������
为什么协方差不能直接度量两个变量的相关 程度呢?
r= Covxy Sx ⋅ S y
∑ ( x − x )( y − y )
i =1 i i
n
=
n −1
2 − x x ( ) ∑ i n
统计学
郭晶 中国海洋大学经济学院金融系 Email: oucguojing@163.com
第八章 相关分析

§1 相关分析的意义和任务 §2 简单线性相关分析 §3 回归分析
学习目标

了解相关与回归分析的概念 掌握相关分析的主要方法,能够计算简单 相关系数

能够建立简单的回归模型,并对相关参数 进行估计
(二)一元线性回归分析 一元线性回归方程的确定
������������ = ������������ + ������������������������
斜率
被解释变量
解释变量 ������������ > ������������,正相关 ������������ < ������������,负相关
函数关系与相关关系的联系与区别
区别:
是否存在确定的数量 关系
联系:
函数关系与相关关系 的相互转化
(二)相关关系的类别
按涉及因素
单相关 复相关 线性相关 非线性相关 正相关 负相关 完全相关
按表现形态
相关关系
按变化方向
按相关程度
不完全相关 不相关
按涉及因素的多少,相关关系可分为:

单相关:两个因素之间的相关关系 复相关:多个因素之间的相关关系
2006 人均收入(百元) 现金类支出(百元) 2007 2008 2009 2010 2011 2012 2013
127 87
149 100
171 112
189 123
210 135
240 152
270 167
295 180
n∑ xy − ∑ x ∑ y b = 2 2 ( ) n x x − ∑ ∑ = y − bx a
其中,������������为样本数,������������������������ 和������������������������ 分别为两个变量的 变量值。
协方差
刻画两个随机变量相对于均值的同时偏差,反映了两个变 量共同变化的程度。 ������������̅ ������������
函数关系的示例


圆周与半径的关系: ������������ = 2������������������������

速度、时间与里程的关系: ������������ = ������������������������

需求量与价格的关系: ������������ = −������������������������ + ������������

能够检验回归模型的误差
什么是相关分析?
两个变量之间 是否存在相互 依存的关系?
如果存在依 存关系,如 何将这种关 系量化?
§1 相关分析的意义和任务
(一)什么是相关?
事物之间的 相互关系 • 相关关系
• 函数关系
函数关系
反应现象之间存在着严格的依 存关系,且这种关系可以用一 个数学表达式反映出来;这种 关系也被称为确定性关系。
������������ = 17.3808
������������:现金类支出;������������:人均收入
序 号 1 2 3 4 5 6 7 8 合 计
������������ = ������������ + ������������������������
127 149 171 189 210 240 270 295 1651
������������������������
� = 17.3898 + 0.5554������������ ������������
������������ = 0.5554
(三)估计标准误差
人均收入与现金支出回归方程的拟合曲线
� ������������ 残差������������������������ = ������������������������ − ������������

在多变量分析的情况下,剔除其他变量的影响, 只分析两个变量之间的相关关系,称为偏相关 分析。
按表现形态,相关关系可分为:

线性相关

非线性相关
按变化方向,相关关系可分为:

正相关:两变量的变化方向一致 负相关:两变量的变化方向相反

按相关程度,相关关系可分为:

完全相关:两变量之间的关系是完全确定的, 即存在函数关系
n∑ xy − ∑ x ∑ y ∑ ( x − x )( y − y ) = b = 2 2 2 − − n x ( x ) ( x x ) ∑ ∑ ∑ = y − bx a
Exercise 2
假设2006-2013年城镇居民人均收入与支出的数据 如下表所示,估计人均收入与现金支出的回归方 程。

回归分析是研究一个变量关于另一个(些) 变量的依赖关系的计算方法和理论。

其目的就是要给出一个描述两个变量之间关 系的数学方程,在已知自变量值的情况下, 可以预测相应的因变量的值。
“回归”一词的来历…… Francis Galton(1822-1911) 英国统计学家
19世纪末,Galton在研究父母与 子女身高之间的遗传关系时,发 现了“Regression to the mean”现 象。
������������
100 112 123 135 152 167 180 1056
������������
87
16129 22201 29241 35721 44100 57600 72900 87025 364917
������������ 2
11049 14900 19152 23247 28350 36480 45090 53100 231368
相关关系密切程度的评价标准:
0.3 ≤ ������������ < 0.5 0.5 ≤ ������������ < 0.8 0.8 ≤ ������������ < 1
0 < ������������ < 0.3
不存在线性相关 低度相关 显著相关 高度相关
§3 回归分析
(一)什么是回归分析?

相关的强弱程度;

样本的相关系数一般用������������表示,总体相关系 数一般用������������表示。
相关系数的计算

Pearson简单相关系数
r=
∑ ( x − x )( y − y )
i =1 i i 2 ( ) x x − ∑ i n 2 ( ) y y − ∑ i n
n
= i 1= i 1
相关关系的示例

商品消费量与居民收入之间的关系; 商品销售额与营销费用之间的关系; 收入水平与学历之间的关系; 父母身高与子女身高之间的关系⋯



在具有相互依存关系的两个变量中,作为根据的 变量称自变量,一般用������������表示;发生对应变化的 变量称因变量,一般用������������表示。
年份 1997 1998 1999 2000 2001 2002 2003 2004 产品产量(千吨) 生产费用(万元) 1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0 62 86 80 110 115 132 135 160
(二)散点图
定义

将相关表中的观测值在平面直角坐标系中用 坐标点描绘出来,以表明相关点的分布状况。


Exercise 1
鸟类通过急促喘息散发余热,我们想研究鸟的体温(℃)与 呼吸速率是否有线性关系。在不同的环境温度下,随机抽取 15只鸟,对每只鸟测量它的体温和每分钟的呼吸次数,测量 结果如表所示,计算两个变量之间的相关系数。
(∑ x ∑ y ) ∑ xy − n r= 2 2 ( ) ( ) x y ∑ ∑ 2 2 ∑x − n ⋅ ∑y − n 603.5 × 804 32733.515 = =0.871 603.52 8042 24301.79⋅ 5244615 15

回归方程:根据样本资料通过回归分析所得到 的反映一个变量对另一个或一组变量的回归关 系的数学表达式。 ������������ = ������������(������������1 , ������������2 , ⋯ , ������������������������ )
回归函数形式的选择是一个经验问题,通常需要基于某 一学科的特定理论。 常用的函数形式:线性函数,幂函数、二次多项式……
估计标准误差的概念

估计标准误差就是用来说明回归方程推算 结果准确程度的统计分析指标。
S yx =
2 ˆ y − y ( ) ∑
n−k

刻画了������������的实际观测值相对于回归直线的 偏差,或由������������来估计������������的不确定程度。
一元线性回归模型的估计标准误差
= i 1= i 1
标准差
n −1

2 − y y ( ) ∑ i
n
n −1
标准差
简单相关系数计算公式的简化:
(∑ x ∑ y ) ∑ xy − n r= 2 2 (∑ x ) (∑ y ) 2 2 ∑x − n ⋅ ∑y − n
简单相关系数的特点:

x与y的相关系数和y与x的相关系数是等价的 相关系数的取值范围[-1,1] 相关系数的正负取决于x,y偏差的变化方向

不相关:两变量各自独立,互不影响 不完全相关:两变量之间的关系介于完全相 关与不相关之间。

§2 简单线性相关分析 相 关 系 数
相 关 表
散 点 图
(一)相关表
定义

一种显示变量之间相关关系的统计表; 通常将两个变量的对应值平行排列,且其中 某一变量按其取值大小顺序排列。

某地区某企业近8年产品产量与生产费用的相关表
回归分析的要素
因变量


自变量:影响研究对象的 变量。它解释了研究对象 的变动,表现为方程所描 述因果关系中的因,也称 为解释变量,用������������表示。 因变量:作为研究对象的 变量,又称被解释变量, 表现为方程所描述的因果 关系中得果,用������������表示。
自变量
回归分析的要素(续)
截距/常数项
回归系数
(二)一元线性回归分析 参数估计
180 160 140 生 120 产 100 费 80 用 60 40 20 0
最小二乘法的原理:使 被解释变量的观测值与 估计值之差的平方和最 小。
0
5 产量
10
利用最小二乘法进行参数估计
2 ˆ 令= Q ∑ (Y − Y= )
∑ (Y − a − bX )
回归分析的分类
回归分析
按自变量 数量
按自变量与因 变量关系
一元回归
多元回归
线性回归
非线性回归
回归分析的一般步骤
Step 1 根据研究 目的,建 立回归方 程 Step 2 Step 3 Step 4 利用回归 方差进行 分析、评 价及预测
根据样本 估计标准 观察值对 误差 模型参数 进行估计, 求得回归 方程
2
∂Q =0 ∂a 求Q(a, b)的最小值, ∂Q = 0 ∂b
0 ∑ 2(Y − a − bX )(−1) = 0 ∑ 2(Y − a − bX )(− X ) =
= na + b∑ X ∑ Y 2 = XY a X + b X ∑ ∑ ∑

通过相关图,可以大致看出两个变量之间有 无相关关系以及相关的形态、方向和密切程 度。
某地区某企业近8年产品产量与生产费用的散点图
180 160 140
生 产 费 用
120 100 80 60 40 20 0 0 2 4 6 8 10
产量
(三)相关系数
定义

反映两个变量之间密切程度的指标; 以数值的方式精确地反映两个变量之间线性
产量与生产要素之间的关系: y = ������������������������������������ ������������������������
相关关系
反应现象之间存在不严格的数量依存关系;也 就是说两者之间不具有确定性的对应关系。

现象之间存在数量依存 关系;

一个变量的取值不能由 另一个变量唯一确定。
S yx =
2 ˆ y − y ( ) ∑
n−2
计算Exercise2回归模型的估 计标准误差 � = 17.3898 + 0.5554������������ ������������
相关文档
最新文档