第8章 相关与回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

r x y
2 xy
( x x )( y y ) ( x x) ( y y)
i i 2 i i
2
10
简单计算公式
r
n x x n y y
2 2 2
n xy x y
2
11
相关系数取值及其意义
1. 2.
r 的取值范围是 [-1,1] |r|=1,为完全相关
收入水平(y)与受教育程度(x)之间的关系
子女身高(y)与父亲身高(x)之间的关系
消费(y)与收入(x)之间的关系
6
一、相关的概念
相关关系是指自然界和社会中许 多现象之间存在的数量上的相互 联系、相互依存、相互制约的关 系。
7
二、相关关系的类型
按涉及的变量分为:简单相关和复相关。 按表现形态分为:直线相关和曲线相关。 直线相关按变化方向分为:正相关和负相 关。 按相关程度分为:完全相关、不完全相关、 不相关。
13
四、相关的密切程度
R= 0.3 — 0.5低度相关 R= 0.5 — 0.8显著相关 R= 0.8以上高度相关
14
五、相关系数的计算
1.手算实例。 X:-2,-1,0,1,2; Y:2,3,3,5,7 2.相关系数大小与样本数据多少的关系: 数据越多相关系数越准确。
15
第二节
一元线性回归模型
n n n i 1 i 1 i 1
37
求解正规方程得:

n 1 n xi yi ( xi )( yi ) Lxy i 1 n i1 ˆ i1 1 n 1 n Lxx 2 2 xi ( xi ) i 1 n i1 n
ˆ ˆ 0 y 1 x
第三节 回归方程系数的最小二乘估计
33
用样本数据估计系数 原则是使回归直线
0 、1 ,
很好的拟合样本数据,即使误差平方 和
ˆ ˆ ˆ y 0 1 x
ˆ x )2 ˆ Q ( yi yi ) ( yi 0 ˆ1 i
n 2 n i 1 i 1
16
一、什么是回归分析
回归分析是从一组变量(X,Y) 的样本数据出发,根据变量的相关 类型,确定变量之间相关关系的数 学表达式的统计分析方法。
17
回归一词的来历
回归这个术语是由英国著名统计学家 Francis Galton在19世纪末期研究孩子及他 们的父母的身高时提出来的。Galton发现身 材高的父母,他们的孩子也高。但这些孩子 平均起来并不像他们的父母的平均身高那样 高。对于比较矮的父母情形也类似:他们的 孩子比较矮,但这些孩子的平均身高要比他 们的父母的平均身高高。 Galton把这种孩子 的身高向中间值靠近的趋势称之为一种回归 效应,而他发展的研究两个数值变量之间关 系的方法称为回归分析。
41
特别当x等于时间t时,线 性方程
y 0 1t
可作为y 随时间变化的趋势模 型。
42
第四节 线性关系的显著性检验
43
一、样本决定系数 r 总离差平方和分解
SST ( yi y ) 2
i 1 n n
2
ˆ ˆ ( yi yi yi y ) 2
i 1 n
ˆ yi 0 1 xi
i 1,2,, n
回归分析的主要任务就是通过n组样
本观测值 ( xi , yi ) i 1,2,, n 对 0 , 1 ˆ ˆ 进行估计。一般用 , 分别表示 0 , 1
0 1
的估计值。则称
为y关于x的一元线性经验回归方程。
32
ˆ ˆ ˆi 0 1 xi y
3
变量间的关系
(函数关系)
函数关系的例子
某种商品的价格固定时,其销售额(y)与销 售量(x)之间的关系可表示为 y = p x (p 为单 价) 圆的面积(S)与半径之间的关系可表示为S = R2
企业的原材料消耗额(y)与产量(x1) 、单位产 量消耗(x2) 、原材料价格(x3)之间的关系可 表示为y = x1 x2 x3
20
185 180 175 170 165 160 155 145
155
165
175
185
21

x i =3376, i 1
i 1
n

n
y i =3407,
2 i
n=20
i 1 n
x =571728,
n
i 1
x i y i = 576161
i 1 n

y i2 =581081,
4
变量间的关系
(相关关系)
1.
2. 3.
4.
变量间关系不能用函数关 系精确表达 一个变量的取值不能由另 一个变量唯一确定 当变量 x 取某个值时,变 量 y 的取值可能有几个 各观测点分布在一条线的 周围
y



x
5
变量间的关系
(相关关系)
相关关系的例子
商品的需求量(y)与价格(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、 温度(x3)之间的关系
18
为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。用水平 轴X上的数代表父亲身高, 垂直轴Y上的数代表儿子 的身高,1078个点所形成 的图形是一个散点图。它 的形状象一块橄榄状的云, 中间的点密集,边沿的点 稀少,其主要部分是一个 椭圆。
达最小。
34
最小二乘法
(图示)
y

ei = yi^ -yi (xn , yn) (x2 , y2)
ˆ ˆ ˆ y 0 1 x

(x1 , y1)

(xi , yi)
x
35
ˆ 由二次函数极值理论, ˆ0 、1 应满足:

n Q ˆ ˆ 2 yi 0 1 xi 0 ˆ i 1 0
由于 是随机因素,通常就用 E ( y )作 为 y 的估计,故得:
E ( y ) 0 1 x
ˆ y 0 1 x (3)
的一元线性回归方程(回归直线)。
ˆ y表示 y 的估计,则(3)称为y关于x
31
对(2)式两边求数学期望得: E ( yi ) 0 1 xi i 1,2,, n 或者
其中, i 满足假设: 2 E ( i ) 0; D( i ) ; Cov( i , j ) 0, i j;
Cov ( i , xi ) 0
i ~ N (0, )
2
i 1, 2,...n
30
(1)称为总体回归模型,(2)称 为样本回归模型。(1)式两边求数学期 望:
5 3.5 3 2.7 2.4 2.5 2 1.5 1.2 1.2
24
Í ±±Ì ¼ í ê â 6 5 4 3 2 1 0 0 1 2 3 4 Ð Ç Á è ó ¿ Ï Ð (Ð Ç Á ) ß Ô è ó ¿
25
年度
GDP 年度 GDP 年度 GDP 1978 3645.2 1988 15042.8 1998 84402.3 1979 4062.6 1989 16992.3 1999 89677.1 1980 4545.6 1990 18667.8 2000 99214.6 1981 4891.6 1991 21781.5 2001 109655.2 1982 5323.4 1992 26923.5 2002 120332.7 1983 5962.7 1993 35333.9 2003 135822.8 1984 7208.1 1994 48197.9 2004 159878.3 1985 9016.0 1995 60793.7 2005 183084.8 1986 10275.2 1996 71176.6 2006 209407 1987 12058.6 1997 78973.0 2007 246619.0
19
父高X 150 153 155 158 161 164 165 167 168 169
子高Y 159 157 163 166 169 170 169 167 169 170
父高X 170 171 172 174 175 177 178 181 183 185
子高Y 173 170 170 176 178 174 173 178 176 180
26
图表标题 300000.0 250000.0 200000.0 150000.0 100000.0 50000.0 0.0 1970 1980 1990 2000 2010 GDP 指数 (GDP)
27
变量Y与X之间的关系可表示成
y f (x)
其中,
是一个误差项,它包含
1.模型中省略的变量 2.一些随机因素 3.测量(观测)误差 4.数学模型设定形式的误差
28
二、一元线性回归模型的建立 一元线性回归模型
y 0 1 x
其中,
() 1
0 称为回归常数;
1 称为回归系数;

是随机误差项。
29
将n组样本(x1,y1),…, (xn,yn)代入(1)得:
yi 0 1 xi i
i 1,2,, n (2)
ˆ i ) 2 ( yi y ) 2 ˆ ( yi y
i 1 i 1
n
总离差平方和=残差平方和+回归平方和
44
SSR SSE Lyy
离差平方和的分解
(图示)
y
( xi , y i ) yi y
{

} ˆ y y }
i
ˆ yi yi
ˆ ˆ ˆ yi 0 1 xi
38
记:
Lxx ( xi x )
i 1
n
2
Lyy ( yi y )
i 1
n i 1
n
2
Lxy ( xi x )( y i y )
39
或者公式:
40
为了表明 0、1 是用样本求 ˆ 得的最小二乘估计,我们用 0 、ˆ1 来表示,即由估计可得样本回归方 程: ˆ ˆ ˆ y 0 1 x


Q ˆ ˆ 2 yi 0 1 xi xi 0 ˆ 1 i 1
n
36


经整理后得正规方程:

ˆ ˆ n 0 ( xi ) 1 yi
n n i 1 i 1
ˆ ( x 2 ) x y ˆ ( xi ) 0 i 1 i i
8
相关关系的图示
ቤተ መጻሕፍቲ ባይዱ




非线性相关
完全正线性相关
正线性相关








负线性相关

不相关
9
完全负线性相关
三、相关系数的测定
相关系数计算公式
r =1,为完全正相关 r =-1,为完全负相关
3. 4.
5.
6.
r = 0,不存在线性相关关系 -1r<0,为负相关 0<r1,为正相关 |r|越趋于1表示关系越密切;|r|越趋于0表示关系 越不密切
12
完全负相关
无线性相关
完全正相关
-1.0
-0.5
0
+0.5
正相关程度增加
+1.0
r
负相关程度增加
第七章
相关与回归分析
1
第一节 相关分析
2
变量间的关系
(函数关系)
1.
2.
3.
是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完 y 全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上 x
22
r
576161 ( 3376)( 3407) / 20 [571728 ( 3376) / 20][581081 ( 3407) / 20]
2 2
0.9296
23
家庭对某种商品的需求量与该商 品价格之间的调查数据:
价格 Xi (元) 需求量 Yi (公斤)
1
2
2 2.3 2.5 2.6 2.8 3 3.3 3.5
y
离差分解图
x
45
回归平方和表示回归关系引起 的yi的波动
ˆi y )2 SSE ( y
i 1 n n
ˆ x ) x ]2 ˆ ˆ [( 0 ˆ1 i 0 1
相关文档
最新文档