第二章一元线性回归模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y
60 40 20
0 -20 -40 -60
-60 -40 -20 0 20 40 60 X
相关系数为: 4.24E-18
(四)相关分析的特征
⑴.两个变量是对等关系,不分彼此,不 反 映任何自变量和因变量的关系,互换顺序是 一样的,是双向的关系。
⑵. 相关系数的范围是 -1≤r≤1,其值大小反 映两变量间相关的密切程度,正负号表示正 相关或负相关,其值的大小与尺度无关。
英国著名统计学家卡尔·皮尔逊(Karl Pearson) 1890年设计了一个用于测定两个变量之间线性相关 程度和相关方向的指标—简单相关系数,也称为 Pearson相关系数。 (1)相关系数的定义 (2)相关系数的计算 (3)根据相关系数初步判定变量之间的关系 (4)简单相关系数的缺陷
(1)相关系数的定义
X 2 2X X X 2
X 2 2X X nX 2
X 2
2nXБайду номын сангаас
X
2
nX
n
X 2 2n X 2 n X 2
X 2 nX 2
n X 2 X 2
n
同理:
y2
2
Y Y
Y 2 nY 2 n
(3)简单相关系数只适用于两个变量之间的相 关关系,所以称为简单相关系数若变量为三个或 三个以上时,就要用复相关系数计算。
(4)偏相关系数
大千世界中复杂的、多种因素存在相互关联。为 了描述其间的关联,这里定义的相关系数虽然比 协方差指标优越,但是仍然存在不足之处:它裹 胁了其它变量的影响或者它们之间的关系乃是其 它变量的变化所致.
XY XY
X 2 X 2 Y2 Y2
rs
4.等级相关系数
也称为斯皮尔曼 (Spearman) 相关系数,用来度 量定序变量之间的线性相关关系,就是把有联系
的定量变量或定性变量的具体表现按等级次序排
列,形成两个定序数列,再测定标志等级与标志
等级间的相关程度的一种方法,等级相关法又称
顺位相关法.
2.按相关关系涉及的变量(或因素)的多少, 可分为单相关与复相关、偏相关;
3.按变量之间相关关系的表现形式来看,可 以分成为直线相关和曲线相关;
4.按相关的程度来分,可以分为不相关,不 完全相关和完全相关三类; 函数关系是相关关系的一种特殊情况。
(二)相关关系的度量
在相关分析中,通过绘制相关表和相关图,可以对 现象之间存在的相关关系的方向、形式和密切程度 作直观的、大致的判断。
(X X )(Y Y ) xy 0
缺点:
离差乘积之和 (X X )(Y Y ) xy提供了X和Y
之间的一个相关度量。但是,这样来度量 相关关系,只能表示相关方向,要表示具 体相关程度还有缺点:
① xy 受观测值数目n影响,观测值数目n
越多,xy 越大,相关程度越强;
亩产量Y之间的关系 。
函数关系与相关关系联系
两者虽有明显区别,但两者之间并无严格 的界限,由于存在测量误差等原因,函数 关系在实际中往往通过相关关系表现出来;
在研究相关关系时,若要找出现象间数量 的内在联系和表现形式,往往又需要借助 函数关系的形式来加以描述;
因此,可以说,相关关系是相关分析的研 究对象,函数关系是相关分析的工具。
2.相关图:
图2-1相关散点图 将变量之的关系,
通过图形来表示, 这种图形为相关图。 又称为散点图,通 过相关图,可以大 致看出两个变量之 间有无相关关系、 相关的形态、方向 及密切程度。
3.相关系数
通过线性相关图、表可以粗略地观察两个变量之间 相互关系的类型、方向以及相关的密切程度,但无 法确切地表明两个变量之间线性相关的程度。
二、相关分析
研究一个变量与另一个(组)变量之间 相关方向和相关密切程度的一种统计分析方 法。 相关分析目的: 明确变量之间有无关系, 确定相关关系的表现形式(曲线与直线), 判定相关关系的方向, 测定相关关系的密切程度等。
(一)、相关关系的分类
1.从变量之间相互关系的方向来看,可以成 为正相关与负相关;
⑶.两个变量都是随机变量,这也反映对等 关系。而且相关关系要以定性分析为前提, 不然就会出现“虚假相关”。
(五).简单相关系数的缺陷
(1)只能度量两个变量之间呈线性相关——比 例变化的关系,当|r|很小甚至等于0时,不一定 表明X与Y之间就不存在其他非线性类型的关系
(2)只能算出一个相关系数;r表明两变量之间 的线性关系,只表明协变的存在,不揭示变异的 原因,不能确定变量之间的因果关系。
1.相关表:将现象之间的相关关系,用表格来反映, 这种表称为相关表,分为简单相关表和分组相关表。 例如,某农场试验田在七次试验中,获得的小麦产 量与施肥量的观察资料
表2-1 施肥量与小麦产量的观察数据
试验顺序
12
3
4
5
67
X施肥量(斤/亩) 15 25 30 36 44 50 55
Y小麦产量(斤/亩) 380 420 410 430 450 470 490
Sxy消除了样本单位数多少的影响,但仍然 受观测值计量单位的影响;
为了克服第②缺点
给协方差除以X,Y各自的标准差:
Sx
(X X )2 n
x2 ,
n
Sy
(Y Y )2 n
y 2 n
这样便可消除变量计量量单位的影响。
标准差Sx和Sy的作用,在于对X,Y与各自 平均数的离差,分别用各自的标准差为尺
Y2 (
Y )2
n
相关系数简捷式
r SXY
xy
SX SY
x2 y2
nXY XY
n
n X 2 X 2 nY 2 (Y )2
n
n
n XY X Y
n X 2 ( X )2 nY 2 (Y )2
相关系数平均式 r
负相关(反比例)r<0. 3.根据相关系数的大小,判定:
①当r= 0时,称为不相关。或者不存在直线相关, 但可能存在其他类型的关系。
②当0 < |r| ≤ 0.3时, 称为微弱相关。 ③当0.3 < |r| ≤ 0.5时,称为低度相关。 ④当0.5 < |r| ≤ 0.8时,称为中度相关。 ⑤当0.8 < |r| < 1时,称为高度相关。 ⑥当 |r| =1,完全相关,即所有散点完全在一条直
度,加以标准化,然后再求标准差的协方
r 差,用符号 表示,即:
相关系数定义式
r
X
X Sx
Y Y Sy
n
皮尔逊相关系数的最简式
S XY
r x,y s sX Y
其中: S XY
( X X )(Y Y ) n
s X
1 n
X iX
离差 x X X y Y Y
在Ⅰ、Ⅲ象限:
X
( X X )(Y Y ) xy 0 Y
(x,y符号相同)
在Ⅱ、Ⅳ象限:
( X X )(Y Y ) xy 0
(x,y符号相反)
判断
如果所有的观测值落在Ⅰ、Ⅲ象限,离差之积 xy为
正,则X、Y为正相关,如果所有观测值在Ⅱ、Ⅳ
用rs表示。
6 D2
rs 1 n(n2 1)
式中,n为样本容量,D为序列等级之差,即d=X等 级-Y等级 。Spearman相关系数的适用范围较
Pearson相关系数要广得多。
(三)相关系数的范围
1.相关系数的绝对值不超过1,即|r|≤1 2.根据相关系数的符号,判定正相关(正比例)r >0、
线上,也就是函数关系。
正相关(我国人均消费函数)
Y
1200
1000
X为我国人均国民
收入,Y为我国人
800
均消费,
600
400
相关系数:0.98
200 0
500 1000 1500 2000 2500 X
负相关
Y
80
Y与X的相关系
70
数:-0.92
60
50
40
30
20
0
10
20
30
40
X
不相关(不排除存在曲线相关)
方差,X的总体标准差和Y的总体标准差。
由于总体未知,无法计算,我们可以利用 样本观测值的相关系数r给出 的一个估计, 即样本相关系数r是总体相关系数的估计值。
三、回归分析
回归分析的主要内容: (一).回归的含义及特点 (二).回归分析与相关分析的联系 (三).回归分析的基本概念 1.总体回归函数 2.总体回归模型 3.样本回归函数 4.样本回归模型
2
s Y
1 n
Y
iY
2
积差式
r2.相S关XY 系数的计算
SX SY
( X X )(Y Y ) / n
1 Y Y 2 1 X X 2
n
n
( X X )(Y Y )
( X X )2 (Y Y )2
xy x2 y2
第二章 一元线性回归模型
第一节 相关分析和回归分析
一.经济变量之间的相互关系:
经济变量之间的关系,大体可分为两类,一类 是函数关系;另一类是统计相关关系
函数关系是指变量之间存在着完全确定性的依存 关系 。例如,当价格不变时,销售量X与销售额 Y之间的关系。
相关关系是指现象之间客观存在的非确定性数量 对应依存关系 。例如,每亩耕地的施肥量X与
用高尔登的话说,这是“回归到中等”。
2.回归分析的现代含义:
现在回归分析法已远非高尔登的本意,而是研究 子女的平均身高如何随着其父亲身高的变化而变 化,即研究子女的平均身高对父亲身高的依赖性。 并探讨如何根据父亲的身高,来预测和估计子女 的平均身高。
对于“父亲身高”的每一水平,相应得到的是 “子女身高”的一个分布(这可以通过重复抽样 得到) 。而且,随着“父亲身高”的增加,子女 的平均身高也在增加,可用一条直线近似地似合 这些平均值点。如下图:
xy ( X X )(Y Y ) (XY XY Y X XY ) XY XY YX X Y XY n X Y n X Y n X Y XY n X Y nXY XY
n
x2 X X 2
1.“回归”一词的由来
“回归”——见1889年F.Gallton的论文《 普用回归定律》。
他在研究中发现;一群高个子的父亲的子 女的平均高度要低于其父辈的平均身高, 一群矮个子父亲的子女的平均身高要高于 其父辈的平均身高。
或者说,高个子父亲的子女的平均高度与 矮个子父亲的子女的平均高度都有“回归” 到全体父辈的平均高度的倾向(趋势),
要剔除其它变量的影响,只研究指定两个变量的 影响,必须再定义偏相关系数——令其它变量保 持不变,此时这两个变量的相关系数,称为偏相 关系数。
总体相关系数
两个变量X和Y之间真实的线性相关程度是 用总体相关系数表示的。总体相关系数为:
cov( X ,Y )
2 x
2 y
式中,cov( x, y), x , y分别是总体X和Y的协
② xy受X,Y计量单位的影响,如果将X和
Y的单位改为吨,则X,Y数值就更小,同 样观测值,相关度量结果不同。
为了克服第①个缺点
用观测值数目n除∑xy,即 叫做X和Y的协方差,
xy n
S xy
协方差不仅能直接显示X与Y是正相关还是 负相关;而且能反映X与Y两个变量的“共 变性”。
(一).回归的含义
回归分析的产生的历史 回归分析法最早由著名的英国生物学家、统计学
家高尔登(F.Gallton)——达尔文的表弟所创。 早年,加尔顿致力于化学和遗传学领域的研究。 1889年高尔登和他的朋友K.Pearson收集了上千 个家庭的身高、臂长和腿长的记录,企图寻找出 儿子们身高与父亲们身高之间关系的具体表现形 式,在研究父亲们的身高与儿子们的身高之间的 关系时,主要是想由此来探讨人口的平均身高具 有稳定性的原因,建立了回归分析法。
象限,离差之积 xy 为负,则X,Y为负相关,如果
所有的观测值散落在四个象限内,则正的和负的 乘积xy 趋于互相抵消,其乘积之和将趋于0。 如果所有变量值X和Y与其平均数的离差乘积之和 为正,则X和Y之间就是正相关。用符号表示为:
(X X )(Y Y ) xy 0
如果所有变量值X和Y与其平均数的离差乘积之和 为负,则和之间是负相关。用符号表示为: