第六章相关分析与线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。








x
3.
函数关系 (几个例子)

某种商品的销售额 y 与销售量 x 之间的关系可表示为
y = px (p 为单价)

圆的面积S与半径R之间的关系可表示为
S=R2

企业的原材料消耗额 y 与产量 x1 、单位产量消耗 x2 、原材料价格x3之间的关系可表示为
y = x1 x2 x3
相关关系 (correlation)
相关关系的描述与测度 (相关系数)
相关系数 (correlation coefficient)
1. 2. 3. 4. 度量变量之间关系强度的一个统计量 对两个变量之间线性相关强度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为总体相关 系数,记为 若相关系数是根据样本数据计算的,则称为样本相关系 数,简称为相关系数,记为 r
1. 变量间关系不能用函数关系精 确表达 y 一个变量的取值不能由另一个 变量唯一确定 当变量 x 取某个值时,变量 y 的 取值可能有几个 各观测点分布在直线周围
2.
3. 4.



x
相关关系 (几个例子)

父亲身高y与子女身高x之间的关系 收入水平y与受教育程度x之间的关系
为 (k-1) 阶偏相关系数,即清除了 X2 … X3 的影响
Y 与 X1 之间的相关系数,
1
x 2 … xk
后 Y 与 X1 之间的相关系数, ry1 ry 2 r12 ry1 2 2 1 ry22 1 r12 ry1 2 ry3 2 r13 2 ry1 23 2 1 ry23 2 1 r13 2
相关关系不等于因果关系,如何在多个变 量之间找因果关系?
案例
暑假期间双胞胎兄弟大明和小明参加勤工俭学,大明在 超级市场帮助卖冷饮,小明在游泳池收门票。每天晚上,二
人闲聊。昨天大明冷饮卖得多,小明门票也收得多,今天,
大明卖得少,小明门票也收得少。一个月下来,他们发现, 超级市场冷饮销售量和游泳人数呈正相关。是不是爱吃冷饮 的人想游泳?或爱游泳的人喜欢冷饮?爸爸是教统计学的, 将他们11天冷饮销售量(X1)、游泳人数(X2)以及当天的气温
SPSS软件使用说明
选项为Analyze-Correlate-Bivariate
相关系数的显著性检验 (需要注意的问题)
1. 即使统计检验表明相关系数在统计上是显著的,并不一 定意味着两个变量之间就存在重要的相关性 因为在大样本的情况下,几乎总是导致相关系数显著
2.

比如,r=0.1,在大样本的情况下,也可能使得r通 过检验,但实际上,一个变量取值的差异能由另一 个变量的取值来解释的比例只有10%,这实际上很 难说明两个变量之间就有实际意义上的显著关系
• • 变量之间是否存在关系? 如果存在关系,它们之间是什么样的关系?


变量之间的关系强度如何?
样本所反映的变量之间的关系能否代表总体变量之间的关系?
2.
为解决这些问题,在进行相关分析时,对总体有以下两 个主要假定
• • 两个变量之间是线性关系 两个变量都是随机变量
散点图 (scatter diagram)
暑假期间双胞胎兄弟大明和小明参加勤工俭学, 大明在超级市场帮助卖冷饮,小明在游泳池收门票。
1. 2. 3. 4. |r|0.8时,可视为两个变量之间高度相关 0.5|r|<0.8时,可视为中度相关 0.3|r|<0.5时,视为低度相关 |r|<0.3时,说明两个变量之间的相关程度极弱,可视为 不相关
5.
上述解释必须建立在对相关系数的显著性进行检验的基 础之上
相关系数 (例题分析)
散点图 (不良贷款对其他变量的散点图)
14 12
14 12
不良贷款
不良贷款
10 8 6 4 2 0 0 100 200 300 400 贷款余额 不良贷款与贷款余额的散点图
14 12
10 8 6 4 2 0 0 10 20 30 累计应收贷款 不良贷款与累计应收贷款的散点图
14 12
不良贷款
8 6 4 2 0 0 10 20 30 40 贷款项目个数
相关系数的显著性检验 (例题分析)
各相关系数检验的统计量
相关系数的显著性检验 (需要注意的问题)
1. 即使统计检验表明相关系数在统计上是显著的,并不一 定意味着两个变量之间就存在重要的相关性 因为在大样本的情况下,几乎总是导致相关系数显著
2.

比如,r=0.1,在大样本的情况下,也可能使得r通 过检验,但实际上,一个变量取值的差异能由另一 个变量的取值来解释的比例只有10%,这实际上很 难说明两个变量之间就有实际意义上的显著关系
t r 1 r
2
~ t ( n 2)

确定显著性水平,并作出决策 • 若t>t,拒绝H0 • 若t<t,不拒绝H0
相关系数的显著性检验 (例题分析)
对不良贷款与贷款余额之间的相关系数进行显著性检验 (0.05) 1. 提出假设:H0: ;H1: 0 2. 计算检验的统计量
不良贷款
10
10 8 6 4 2 0 0 50 100 150 200 固定资产投资额
不良贷款与贷款项目个数的散点图
不良贷款与固定资产投资额的散点图
散点图 (5个变量的散点图矩阵)
散点图 (5个变量的散点图矩阵)
不良贷款
贷款余额
累计应收贷款
贷款项目个数
固定自产投资
SPSS软件使用说明
选项为Graphs-Scatter
如果样本数据不是来源与正态分布,该如 何?
Spearman秩相关系数
Pearson线性相关系数必须假设数据是成对地从
正态分布中取得的,并且数据至少在逻辑范畴内必 须是等间距的数据。如果这两条件不符合,一种可
能就是采用Spearman秩相关系数来代替Pearson线
性相关系数。Spearman秩相关系数是一个非参数
计算公式
r12 , 3
r12 r13 r23 2 2 ( 1 r13 )( 1 r23 )
衡量偏相关程度用偏相关系数表示:
ryx
1
x2
为 1 阶偏相关系数,即清除了X2 的影响后 Y 与 X1
之间的相关系数,
ryx ryx
1
x 2 x3
为 2 阶偏相关系数,即清除了X2与 X3的影响后
性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于 描 述 非 线 性 关 系 。 这 意 味 着 , r=0 只 表 示 两 个 变 量之间不存在线性相关关系,并不说明变量之间没 有任何关系
性 质 5 : r 虽然是两个变量之间线性关系的一个度量 ,却 不 一定意味着x与y一定有因果关系
相关系数的经验解释











非线性相关
完全正线性相关
完全负线性相关



负线性相关

不相关
正线性相关
散点图 (例题分析)
【例】一家大型商业银行在多个地区设有分行,其业务主要 是进行基础设施建设、国家重点项目建设、固定资产投 资等项目的贷款。近年来,该银行的贷款额平稳增长, 但不良贷款额也有较大比例的增长,这给银行业务的发 展带来较大压力。为弄清不良贷款形成的原因,管理者 希望利用银行业务的有关数据进行定量分析,以便找出 控制不良贷款的办法。下面是该银行所属的 25 家分行 2002年的有关业务数据
第六章 相关分析与回归分析
1、一元相关分析 2、多元相关分析 3、一元线性回归分析 4、多元线性回归分析
第一节 一元相关分析
一、变量之间的两类关系
• 确定性关系(函数关系); • 非确定性关系(相关关系);
函数关系
1. 2. 是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依 赖于 x ,当变量 x 取某个数值 时, y 依确定的关系取相应的 值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量, y 称为因变量 各观测点落在一条线上 y
性质(与分布无关)的秩统计参数,由Spearman
在1904年提出.
Spearman秩相关系数
假设原始的数据xi,yi已经按从大到小的顺序排列,记x’i,y’i 为原xi,yi在排列后数据所在的位臵,则x’i,y’i称为变量x’i, y’i的秩次,则di=x’i-y’i为xi,yi的秩次之差。
取值介于-1~1之间

粮食单位面积产量 y与施肥量 x1 、降雨量 x2 、温度 x3之间的关系
商品的消费量y与居民收入x之间的关系 商品销售额y与广告费支出x之间的关系

相关关系 (类型)
相关关系
线性相关
非线性相关
完百度文库相关
不相关
正相关
负相关
正相关
负相关
相关关系的描述与测度 (散点图)
相关分析及其假定
1. 相关分析要解决的问题
• •
-1r<0,为负相关
0<r1,为正相关 |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱
相关系数的性质 (取值及其意义的图解)
完全负相关
无线性相关
完全正相关
-1.0
-0.5
0
+0.5
+1.0
r
负相关程度增加 正相关程度增加
相关系数的性质
性质 2 : r 具有对称性。即 x 与 y 之间的相关系数和 y 与 x 之间 的相关系数相等,即rxy= ryx 性质 3 : r 数值大小与 x 和 y 原点及尺度无关,即改变 x 和 y 的 数据原点及计量尺度,并不改变r数值大小
2
2
或化简为
r
n x 2 x n y 2 y
2
n xy x y
2
相关系数的性质
性质1:r 的取值范围是 [-1,1]
• • |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 r = 0,不存在线性相关关系

2.
当为较大的正值时,r 呈现左偏分布;当为较小的负 值时,r 呈现右偏分布。只有当接近于0,而样本容量 n很大时,才能认为r是接近于正态分布的随机变量
相关系数的显著性检验 (检验的步骤)
1. 2. 3. 4. 检验两个变量之间是否存在线性相关关系 等价于对回归系数 1的检验 采用R.A.Fisher提出的 t 检验(假设数据是成对地从正态 分布中取得的) 检验的步骤为 • 提出假设:H0: ;H1: 0 计算检验的统计量: n2
(X3)的记录汇集于下表。
表 冷饮销售量(元)
冷饮销售量、游泳人数与气温数据 游泳人数(人) 气温 ( C)
o
X1
267 397 451 528 618 655 690 740 780 889 996
X2
722 814 924 1066 1253 1369 1593 1761 1931 2231 2749
X3
29 30 31 32 33 34 35 36 37 38 39
结论:喜欢游泳的人都爱喝冷饮?Or 爱喝冷饮的人 都喜欢游泳?
偏相关系数(部分相关系数)
部分相关系数反映校正其它变量后某一变量与另一变量的
相关关系,校正的意思可以理解为假定其它变量都取值为 均数。 即扣除其他变量的影响后,变量Y与X的相关,称为Y与X的 偏相关系数。
相关系数的显著性检验
相关系数的显著性检验 ( r 的抽样分布)
1. r 的抽样分布随总体相关系数和样本容量的大小而变化
• 当样本数据来自正态总体时,随着n的增大,r 的 抽样分布趋于正态分布,尤其是在总体相关系数 很小或接近0时,趋于正态分布的趋势非常明显。 而当 远离 0 时,除非 n 非常大,否则 r 的抽样分布 呈现一定的偏态


也称为线性相关系数(linear correlation coefficient)
或 称 为 Pearson 相 关 系 数 (Pearson’s correlation coefficient)
相关系数 (计算公式)
样本相关系数的计算公式
r
( x x )( y y ) (x x) ( y y)
25 2 t 0.8436 7.5344 2 1 0.8436
3. 根 据 显 著 性 水 平 = 0.05 , 查 t 分 布 表 得 t(n2)=2.069 由于 t=7.5344>t(25-2)=2.069 ,拒绝 H0 ,不良贷 款与贷款余额之间存在着显著的正线性相关关系
相关文档
最新文档