定量分析方法之回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
一、一元线性回归模型的基本概念 • 若有两个变量x和y,其中x为非随机变量(即可控变 若有两个变量x 其中x为非随机变量( 量),y为随机变量。且x和y有相关关系,则可用数 ),y为随机变量。 有相关关系, 学模型 y=f(x)+e 近似地表示它们之间的关系。式 近似地表示它们之间的关系。 中e是随机变量。 是随机变量。 • 回归方程(回归模型) 回归方程(回归模型)
i
∑
−
n
2
i = 1
i
i = 1
=
∑
Y
i n
Y Y n
) )
2
i = 1
=
n
∑
2
− X n
i
∑
2
i = 1
i
i = 1
X
=
∑
n
i = 1
Y
=
∑
Y n
i = 1
i
8
总离差的分解
9
Y
SST = =
n
n
∑
i =1
(Y i − Y ) = ∑
2 n
n
i =1
) ) [ ( Y i − Y ) + ( Y − Y )] 2
L o g a r ith m ic : Y = b 0 + b1 ln ( X )
− ( b 0 + b1 X )
19
曲线估计案例
• SARS在2002年11月初在中国广东省的佛山市最早出现。由于 病者出现肺炎病征,所以当时将之归入非典型肺炎类别,中 国媒体普遍简称其为“非典”。其后,此病经由旅游、商贸、 移民人群迅速扩散到了香港,并由香港再扩散至越南、新加 坡、台湾及加拿大的多伦多。2003年5月间,北京和香港的 疫情最为严重。2003年夏季,染病人数日减,病情得以控制。
Y
i i
= =
a Y = 式
i
+ −
b X ( a
n
i
+ = 求
n
ε
b X
i i n
ε
+
2 i
) [ Y
i
S S E 对 ∂ S ∂ ∂ S ∂
n
∑
= = =
ε
i = 1
∑
( Y
−
( a 偏 b X a −
+ 导
i
b X 数 ) =
i
i = 1
i
) ]
2
上 S E a S E b Y
n i
分 − − n a = ( X
σb
小样本条件下: b−β ~ t ( n − 2) t= )
σb
σb =
)
S XY S XX
2
σb =
)
S XY 2 S XX
查表得临界值,并进行决策。 回归方程的解释能力( 回归方程的解释能力(回归方程的判定系数 R2 )
b 2 S XX S XY 2 S XX S XY 2 SSR R2 = = = × = 2 SST S YY S XX S YY S X X S YY R = S XY S X X S YY
n
别 2 2 + a
a 和
i
b 的 a − −
, 得 0 ) = 0
∑
− ( Y X
i
i = 1 n
∑
X
n
i = 1
i
b X
∑ ∑
b
b
n
i = 1
∑
i = 1
i n
X
i = 1
i n
Y
i
∑
−
X X
i
i = 1
i
+
i
b − )
2
∑
Y
X ) =
2 i
i = 1
= =
∑
i = 1
i
) ( Y − X
∑
a Y −
26
多元线性回归的基本假设
被解释变量与解释变量存在线性或近似线性关系; 被解释变量与解释变量存在线性或近似线性关系; 误差项满足“正态性”的假设; 误差项满足“正态性”的假设; 误差项满足同方差性的假设; 误差项满足同方差性的假设; 误差项满足无自相关的假设; 误差项满足无自相关的假设; 解释变量之间不存在线性相关的假设; 解释变量之间不存在线性相关的假设; 在公共管理研究中, 在公共管理研究中,总体的实际情况是否符合这 些基本假设还需要进一步检验。 些基本假设还需要进一步检验。
12
13
14
四、一元线性回归案例
15
16
第二节 曲线估计
17
曲线估计:是根据所给变量的数值,寻求一种最适合于变量的方 程来拟合所给变量,并根据拟合出的结果,预测变量值的过程。
线性模型、二次模型、复合模型、生长模型 对数模型、三次模型、S模型、指数模型 倒数模型、幂模型、逻辑模型
18
L in e a r : Y = b 0 + b1 X Q u a d r a tic : Y = b 0 + b1 X + b 2 X C u b ic : Y = b 0 + b1 X + b 2 X C o m p o u n d : Y = b 0 ( b1 ) G r o w th : Y = e S :Y = e
ˆ y = f ( x)
• 若一元回归方程是线性的,称为一元线性回归。其 若一元回归方程是线性的,称为一元线性回归。 数学模型为: 数学模型为:
yi =a+bx +ei i
5
• 这个回归模型中的随机误差,要求满足如下的高斯 这个回归模型中的随机误差, 基本假设: 基本假设:
6
二、一元线性回归模型的参数估计
20
21
22
23
24
第三节 多元线性回归分析
25
在公共管理研究中,很多情况下研究的变量是多个的, 在公共管理研究中,很多情况下研究的变量是多个的, 这就需要用多元的方法才能更好地描述变量间的关系。 这就需要用多元的方法才能更好地描述变量间的关系。 多元回归是研究多个自变量对因变量的估计和预测能力 的一种统计分析方法。 的一种统计分析方法。 就方法的实质来说,处理多元线性回归 就方法的实质来说,处理多元线性回归(multiple linear regression)的方法与处理一元线性回归的方法是基本相 的方法与处理一元线性回归的方法是基本相 同的,只是多元线性回归的方法复杂些,计算量大些。 同的,只是多元线性回归的方法复杂些,计算量大些。
( X X
S S
X X
Y X
i = 1
7
b
上式的进一步求解: 上式的进一步求解:
S
X Y
=
n
∑
X
i
( X
i = 1
i n
−
X X
) ( Y
n i
− Y
i
Y
)
= S
X
n
∑
X
Y
n
i = 1
i
− ( X (
∑
i
i = 1
∑
) )
i = 1
n −
n
=
∑
X
i n
X X n
2
i = 1
= S
n
∑
Y Y
2
− ( Y (
∑
i =1
) 2 (Yi − Y ) +
n
∑
) 2 (Y − Y ) = S S R + S S E
i =1
SST = SSR =
n
∑
n
i =1
(Y i − Y ) 2 = S Y Y
n ) 2 2 ( Y − Y ) = ∑ [( a + b X ) − ( a + b X )] i =1
∑
i =1
第一节 一元线性回归模型
3
回归分析主要是研究如何根据自变量X 回归分析主要是研究如何根据自变量X的已知值来估计或预 测因变量Y的值; 测因变量Y的值; 回归分析和相关分析都是对多个变量之间依存关系的分析。 回归分析和相关分析都是对多个变量之间依存关系的分析。 只有存在相关的变量才能进行回归分析,相关程度愈高, 只有存在相关的变量才能进行回归分析,相关程度愈高,回 归效果越好。 归效果越好。 相关分析与回归分析的不同点: 相关分析与回归分析的不同点: • 相关分析是研究变量之间的依存关系,但不区分哪个是自变 相关分析是研究变量之间的依存关系, 量,哪个是因变量;而回归分析不仅研究变量之间的依存关 哪个是因变量; 系,而且要根据研究对象和目的,确定哪个是自变量(解释 而且要根据研究对象和目的,确定哪个是自变量( 变量),哪个是因变量(被解释变量); 变量),哪个是因变量(被解释变量); ),哪个是因变量 • 相关分析主要是研究变量之间关系的密切程度和变化的方向; 相关分析主要是研究变量之间关系的密切程度和变化的方向; 而回归分析要通过建立回归模型和控制自变量来进行估计和 预测。 预测。
= b 2 ∑ ( X i − X ) 2 =b 2 S X X
i =1
10
回归方程的显著性检验
变差来源 回归 误差 总离差
平方和 SSR SSE
自由度 1 n-2 n-1
均方 MSR=SSR/1 MSE=SSE/(n-2)
统计量F F=MSR/MSE
11
回归系数的显著性检验 建立假设:H0:β =0; H1:β ≠ 0 构造检验统计量: 大样本条件下: b−β ~ N (0,1) Z = )
27
28
29
30
31
32
33
34
35
36
37
第四节 Logistic 回归
38
• 线性回归模型的局限性是要求因变量是定量变量(定距变量、 线性回归模型的局限性是要求因变量是定量变量(定距变量、 定比变量)而不能是定性变量(定序变量、定类变量)。但在 定比变量)而不能是定性变量(定序变量、定类变量)。但在 )。 实际问题中,经常出现因变量是定性变量(分类变量)的情况。 实际问题中,经常出现因变量是定性变量(分类变量)的情况。 • 用于处理分类因变量的统计分析方法:判别分别(Discriminant 用于处理分类因变量的统计分析方法:判别分别 analysis)、Probit 分析、Logistic 回归分析和对数线性模型等。 、 分析、 回归分析和对数线性模型等。 在公共管理研究,应用最多是Logistic回归分析。 回归分析。 在公共管理研究,应用最多是 回归分析 • Logistic 回归根据因变量取值类别不同,又可以分为 回归根据因变量取值类别不同,又可以分为Binary Logistic 回归分析和 回归分析和Multinomial Logistic 回归分析,Binary 回归分析, Logistic 回归模型中因变量只能取两个值 和0(虚拟因变量), 回归模型中因变量只能取两个值1和 (虚拟因变量), 而Multinomial Logistic 回归模型中因变量可以取多个值。
第3章
回归分析
1
• “回归”(regression)是由英国著名生物学家兼统计学家高尔 回归” 回归 ) 顿(Francis Galton)在研究人类遗传问题时提出来的。为了 )在研究人类遗传问题时提出来的。 研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其 研究父代与子代身高的关系,高尔顿搜集了 对父亲及其 儿子的身高数据,他发现这些数据的散点图大致呈直线状态, 儿子的身高数据,他发现这些数据的散点图大致呈直线状态, 也就是说,总的趋势是父亲的身高增加时, 也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾 向于增加。 向于增加。 • 高尔顿对试验数据进行了深入的分析,发现了一个很有趣的 高尔顿对试验数据进行了深入的分析, 现象—回归效应 当父亲高于平均身高时, 回归效应。 现象 回归效应。当父亲高于平均身高时,他们的儿子身高 比他更高的概率要小于比他更矮的概率; 比他更高的概率要小于比他更矮的概率;父亲矮于平均身高 他们的儿子身高比他更矮的概率要小于比他更高的概率。 时,他们的儿子身高比他更矮的概率要小于比他更高的概率。 它反映了一个规律,即这两种身高( 它反映了一个规律,即这两种身高(父亲的身高和儿子的身 有向他们父辈的平均身高回归的趋势。 高)有向他们父辈的平均身高回归的趋势。对于这个一般结 论的解释是:大自然具有一种约束力, 论的解释是:大自然具有一种约束力,使人类身高的分布相 对稳定而不产生两极分化,这就是所谓的回归效应。 对稳定而不产生两极分化,这就是所谓的回归效应。 2
39
40
41
42
43
44
45
46
47
48
49
50
51
52
2012-5-17
53
( b0 + b1 ) X b1 X ( b 0 + b1 X ) X 2 2 3
+ b3 X
E x p o n e n tia l : Y = b 0 e b1 In v e rse : Y = b0 + X P o w e r : Y = b 0 + X b1 L o g is tic : Y = 1 1 + e
一、一元线性回归模型的基本概念 • 若有两个变量x和y,其中x为非随机变量(即可控变 若有两个变量x 其中x为非随机变量( 量),y为随机变量。且x和y有相关关系,则可用数 ),y为随机变量。 有相关关系, 学模型 y=f(x)+e 近似地表示它们之间的关系。式 近似地表示它们之间的关系。 中e是随机变量。 是随机变量。 • 回归方程(回归模型) 回归方程(回归模型)
i
∑
−
n
2
i = 1
i
i = 1
=
∑
Y
i n
Y Y n
) )
2
i = 1
=
n
∑
2
− X n
i
∑
2
i = 1
i
i = 1
X
=
∑
n
i = 1
Y
=
∑
Y n
i = 1
i
8
总离差的分解
9
Y
SST = =
n
n
∑
i =1
(Y i − Y ) = ∑
2 n
n
i =1
) ) [ ( Y i − Y ) + ( Y − Y )] 2
L o g a r ith m ic : Y = b 0 + b1 ln ( X )
− ( b 0 + b1 X )
19
曲线估计案例
• SARS在2002年11月初在中国广东省的佛山市最早出现。由于 病者出现肺炎病征,所以当时将之归入非典型肺炎类别,中 国媒体普遍简称其为“非典”。其后,此病经由旅游、商贸、 移民人群迅速扩散到了香港,并由香港再扩散至越南、新加 坡、台湾及加拿大的多伦多。2003年5月间,北京和香港的 疫情最为严重。2003年夏季,染病人数日减,病情得以控制。
Y
i i
= =
a Y = 式
i
+ −
b X ( a
n
i
+ = 求
n
ε
b X
i i n
ε
+
2 i
) [ Y
i
S S E 对 ∂ S ∂ ∂ S ∂
n
∑
= = =
ε
i = 1
∑
( Y
−
( a 偏 b X a −
+ 导
i
b X 数 ) =
i
i = 1
i
) ]
2
上 S E a S E b Y
n i
分 − − n a = ( X
σb
小样本条件下: b−β ~ t ( n − 2) t= )
σb
σb =
)
S XY S XX
2
σb =
)
S XY 2 S XX
查表得临界值,并进行决策。 回归方程的解释能力( 回归方程的解释能力(回归方程的判定系数 R2 )
b 2 S XX S XY 2 S XX S XY 2 SSR R2 = = = × = 2 SST S YY S XX S YY S X X S YY R = S XY S X X S YY
n
别 2 2 + a
a 和
i
b 的 a − −
, 得 0 ) = 0
∑
− ( Y X
i
i = 1 n
∑
X
n
i = 1
i
b X
∑ ∑
b
b
n
i = 1
∑
i = 1
i n
X
i = 1
i n
Y
i
∑
−
X X
i
i = 1
i
+
i
b − )
2
∑
Y
X ) =
2 i
i = 1
= =
∑
i = 1
i
) ( Y − X
∑
a Y −
26
多元线性回归的基本假设
被解释变量与解释变量存在线性或近似线性关系; 被解释变量与解释变量存在线性或近似线性关系; 误差项满足“正态性”的假设; 误差项满足“正态性”的假设; 误差项满足同方差性的假设; 误差项满足同方差性的假设; 误差项满足无自相关的假设; 误差项满足无自相关的假设; 解释变量之间不存在线性相关的假设; 解释变量之间不存在线性相关的假设; 在公共管理研究中, 在公共管理研究中,总体的实际情况是否符合这 些基本假设还需要进一步检验。 些基本假设还需要进一步检验。
12
13
14
四、一元线性回归案例
15
16
第二节 曲线估计
17
曲线估计:是根据所给变量的数值,寻求一种最适合于变量的方 程来拟合所给变量,并根据拟合出的结果,预测变量值的过程。
线性模型、二次模型、复合模型、生长模型 对数模型、三次模型、S模型、指数模型 倒数模型、幂模型、逻辑模型
18
L in e a r : Y = b 0 + b1 X Q u a d r a tic : Y = b 0 + b1 X + b 2 X C u b ic : Y = b 0 + b1 X + b 2 X C o m p o u n d : Y = b 0 ( b1 ) G r o w th : Y = e S :Y = e
ˆ y = f ( x)
• 若一元回归方程是线性的,称为一元线性回归。其 若一元回归方程是线性的,称为一元线性回归。 数学模型为: 数学模型为:
yi =a+bx +ei i
5
• 这个回归模型中的随机误差,要求满足如下的高斯 这个回归模型中的随机误差, 基本假设: 基本假设:
6
二、一元线性回归模型的参数估计
20
21
22
23
24
第三节 多元线性回归分析
25
在公共管理研究中,很多情况下研究的变量是多个的, 在公共管理研究中,很多情况下研究的变量是多个的, 这就需要用多元的方法才能更好地描述变量间的关系。 这就需要用多元的方法才能更好地描述变量间的关系。 多元回归是研究多个自变量对因变量的估计和预测能力 的一种统计分析方法。 的一种统计分析方法。 就方法的实质来说,处理多元线性回归 就方法的实质来说,处理多元线性回归(multiple linear regression)的方法与处理一元线性回归的方法是基本相 的方法与处理一元线性回归的方法是基本相 同的,只是多元线性回归的方法复杂些,计算量大些。 同的,只是多元线性回归的方法复杂些,计算量大些。
( X X
S S
X X
Y X
i = 1
7
b
上式的进一步求解: 上式的进一步求解:
S
X Y
=
n
∑
X
i
( X
i = 1
i n
−
X X
) ( Y
n i
− Y
i
Y
)
= S
X
n
∑
X
Y
n
i = 1
i
− ( X (
∑
i
i = 1
∑
) )
i = 1
n −
n
=
∑
X
i n
X X n
2
i = 1
= S
n
∑
Y Y
2
− ( Y (
∑
i =1
) 2 (Yi − Y ) +
n
∑
) 2 (Y − Y ) = S S R + S S E
i =1
SST = SSR =
n
∑
n
i =1
(Y i − Y ) 2 = S Y Y
n ) 2 2 ( Y − Y ) = ∑ [( a + b X ) − ( a + b X )] i =1
∑
i =1
第一节 一元线性回归模型
3
回归分析主要是研究如何根据自变量X 回归分析主要是研究如何根据自变量X的已知值来估计或预 测因变量Y的值; 测因变量Y的值; 回归分析和相关分析都是对多个变量之间依存关系的分析。 回归分析和相关分析都是对多个变量之间依存关系的分析。 只有存在相关的变量才能进行回归分析,相关程度愈高, 只有存在相关的变量才能进行回归分析,相关程度愈高,回 归效果越好。 归效果越好。 相关分析与回归分析的不同点: 相关分析与回归分析的不同点: • 相关分析是研究变量之间的依存关系,但不区分哪个是自变 相关分析是研究变量之间的依存关系, 量,哪个是因变量;而回归分析不仅研究变量之间的依存关 哪个是因变量; 系,而且要根据研究对象和目的,确定哪个是自变量(解释 而且要根据研究对象和目的,确定哪个是自变量( 变量),哪个是因变量(被解释变量); 变量),哪个是因变量(被解释变量); ),哪个是因变量 • 相关分析主要是研究变量之间关系的密切程度和变化的方向; 相关分析主要是研究变量之间关系的密切程度和变化的方向; 而回归分析要通过建立回归模型和控制自变量来进行估计和 预测。 预测。
= b 2 ∑ ( X i − X ) 2 =b 2 S X X
i =1
10
回归方程的显著性检验
变差来源 回归 误差 总离差
平方和 SSR SSE
自由度 1 n-2 n-1
均方 MSR=SSR/1 MSE=SSE/(n-2)
统计量F F=MSR/MSE
11
回归系数的显著性检验 建立假设:H0:β =0; H1:β ≠ 0 构造检验统计量: 大样本条件下: b−β ~ N (0,1) Z = )
27
28
29
30
31
32
33
34
35
36
37
第四节 Logistic 回归
38
• 线性回归模型的局限性是要求因变量是定量变量(定距变量、 线性回归模型的局限性是要求因变量是定量变量(定距变量、 定比变量)而不能是定性变量(定序变量、定类变量)。但在 定比变量)而不能是定性变量(定序变量、定类变量)。但在 )。 实际问题中,经常出现因变量是定性变量(分类变量)的情况。 实际问题中,经常出现因变量是定性变量(分类变量)的情况。 • 用于处理分类因变量的统计分析方法:判别分别(Discriminant 用于处理分类因变量的统计分析方法:判别分别 analysis)、Probit 分析、Logistic 回归分析和对数线性模型等。 、 分析、 回归分析和对数线性模型等。 在公共管理研究,应用最多是Logistic回归分析。 回归分析。 在公共管理研究,应用最多是 回归分析 • Logistic 回归根据因变量取值类别不同,又可以分为 回归根据因变量取值类别不同,又可以分为Binary Logistic 回归分析和 回归分析和Multinomial Logistic 回归分析,Binary 回归分析, Logistic 回归模型中因变量只能取两个值 和0(虚拟因变量), 回归模型中因变量只能取两个值1和 (虚拟因变量), 而Multinomial Logistic 回归模型中因变量可以取多个值。
第3章
回归分析
1
• “回归”(regression)是由英国著名生物学家兼统计学家高尔 回归” 回归 ) 顿(Francis Galton)在研究人类遗传问题时提出来的。为了 )在研究人类遗传问题时提出来的。 研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其 研究父代与子代身高的关系,高尔顿搜集了 对父亲及其 儿子的身高数据,他发现这些数据的散点图大致呈直线状态, 儿子的身高数据,他发现这些数据的散点图大致呈直线状态, 也就是说,总的趋势是父亲的身高增加时, 也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾 向于增加。 向于增加。 • 高尔顿对试验数据进行了深入的分析,发现了一个很有趣的 高尔顿对试验数据进行了深入的分析, 现象—回归效应 当父亲高于平均身高时, 回归效应。 现象 回归效应。当父亲高于平均身高时,他们的儿子身高 比他更高的概率要小于比他更矮的概率; 比他更高的概率要小于比他更矮的概率;父亲矮于平均身高 他们的儿子身高比他更矮的概率要小于比他更高的概率。 时,他们的儿子身高比他更矮的概率要小于比他更高的概率。 它反映了一个规律,即这两种身高( 它反映了一个规律,即这两种身高(父亲的身高和儿子的身 有向他们父辈的平均身高回归的趋势。 高)有向他们父辈的平均身高回归的趋势。对于这个一般结 论的解释是:大自然具有一种约束力, 论的解释是:大自然具有一种约束力,使人类身高的分布相 对稳定而不产生两极分化,这就是所谓的回归效应。 对稳定而不产生两极分化,这就是所谓的回归效应。 2
39
40
41
42
43
44
45
46
47
48
49
50
51
52
2012-5-17
53
( b0 + b1 ) X b1 X ( b 0 + b1 X ) X 2 2 3
+ b3 X
E x p o n e n tia l : Y = b 0 e b1 In v e rse : Y = b0 + X P o w e r : Y = b 0 + X b1 L o g is tic : Y = 1 1 + e