第四章 简单回归模型及回归结果的检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中山大学南方学院 10
2011-1-24
第二节 估计参数的统计意义
• 算出参数方程之后,我们的任 务还没有完成。我们还要对上面的 回归进行分析。下一步我们要看估 计出来的方程中的每个参数是否有 统计意义(t Statistics)。
•
2011-1-24 中山大学南方学院 11
•
为了计算参数的“t Statistics”的值,我们还是从简 单模型说起。给定:
28
ˆ ˆ (Yi −Y) = ∑(Yi −Y) + (Yi −Yi ) ∑
2
[
]
2
ˆ −Y)2 + ∑(Y −Y )2 + 2∑(Y −Y)(Y −Y ) ˆ ˆ ˆ = ∑(Yi i i i i i
2011-1-24
中山大学南方学院
29
•
我们用TSS来表示这是方差总和 (Total Sum of Squares)
2011-1-24 中山大学南方学院 6
•
根据上面的数学模型,我们要 做的事情就是利用所得到的数据, 用最小二乘法来对模型中的参数进 行估计。
•
2011-1-24ห้องสมุดไป่ตู้
中山大学南方学院
7
•
我们以气温和冷饮料的销 售量的数据来进行分析。如果 我们能够通过一个模型来预测 由于气温的变化对市场销售量 的影响。
ˆ − Y )2 RSS = ∑ (Yi
2011-1-24 中山大学南方学院 31
•
第二项叫作未解释平方和(residual sum of squares),或叫误差平方和( error sum of squares),或叫残差平方和 是实际值与估计值之差的平方的总和 ,也就是其误差项平方的总和,用ESS 来表示:
中山大学南方学院 24
2011-1-24
•
那么如果参数的估计失误率小于 0.05,它们就是有统计意义的。上面的 结果表明,参数方程截距的估计失误率 约为0.27,大于0.05,那么我们就没有 充分把握说它不等于零;自变量“气温” 的估计失误率约为0.000,小于0.05,那 么我们就可以有充分的把握说它不等于 零。
2011-1-24
中山大学南方学院
38
RSS ESS R = = 1− TSS TSS ˆ − Y )2 ˆ )2 ∑ (Yi ∑ (Yi − Yi 2 R = = 1− 2 2 ∑ (Yi − Y ) ∑ (Yi − Y )
2
2011-1-24
中山大学南方学院
39
•
人们把R2当作回归估计模型对真实 模型解释的百分比。也就是说,根据 这个数值来评价模型回归估计结果的 好坏,认为这个值可以“告诉人们Y的 估计值与它的真实值相靠多近”。当 接近100%时,以前人们就认为这个回 归估计的结果很逼真。
REVIEW
2011-1-24
中山大学南方学院
1
• 假设检验 • 最小二乘法
2011-1-24
中山大学南方学院
2
第四章 简单回归模型及回 归结果的检验
2011-1-24
中山大学南方学院
3
本章重点
• 建立模型 • 估计参数的统计意义 • 回归结果的解释
2011-1-24
中山大学南方学院
4
分析思路
ˆ ) = ∑ e2 ESS = ∑ (Yi − Yi i
2011-1-24 中山大学南方学院 32
2
•
第三项就是剩余的部分,这部 分可以忽略不计,因为它小得几乎 等于零:
ˆ ˆ 2∑ (Yi − Y )(Yi − Yi ) ≈ 0
2011-1-24
中山大学南方学院
33
•
那么,方差总和是解释平方和 与未解释平方和的加总,即: TSS=RSS+ESS
ESS / df 2 Adj ( R ) = 1 − = 1− TSS / df 3 (Yi − Y ) 2 /( N − 1) ∑
2
ˆ (Yi − Yi ) 2 / df 2 ∑
在近些年来经济科学杂志上发表的文章中 一般将这个数值按传统的习惯保留在回归分析 结果的表格中,而不对此数值加以评价。
2011-1-24 中山大学南方学院 42
中山大学南方学院 40
2011-1-24
•
一般来说,用横截面数据时,判定 系数会低些;用时间序列数据时,它 的值会高些,特别是当我们增加自变 量的个数时,它的值就会随之提高。 现在计量经济学家对这个判定系数有 了不同的看法。认为这个判定系数不 可靠。
中山大学南方学院 41
2011-1-24
•
后来又有些计量经济学试图用不同的方法 来计算判定系数,如用调整过的R2
RSS K F= = ESS ( N − K − 1)
∑ (Yˆ − Y )
i
K
ˆ (Yi − Yi ) ( N − K − 1) ∑
• F=Explained Variance/Unexplained Variance • =Regression Variance/Residual Variance
22
所以我们就可以说,我们有95%把 握认定:估计出来的这个参数不等于 零,有其实际的统计意义。特别是自 变量“气温”的参数很有意义。 • 这样一来,批发商就可根据天气 预报来有计划的储备饮料的库存了。 •
2011-1-24
中山大学南方学院
23
• •
另外,参数的估计“失误率” (p-value)也很有用。我们在检验 统计意义时可以直接利用这个数据。 我们设定统计误差容许范围是在5 %,即显著性水平(第一误差)为 0.05.
2011-1-24
中山大学南方学院
8
•
通过简单的回归分析得出简 单的估计方程,我们的气温“自 变量”与销量“因变量”之间存 在着正相关的关系(自变量前面 的参数值大于零)。
2011-1-24
中山大学南方学院
9
•
也就是说,当温度增高时,销 量也会增高。那么,我们可以利用 这个估计方程来对未来进行预测。 我们可以确定,如果“温度”提高 一度,销量就会增加4.881单位, 也就是多销售48810瓶饮料。
2011-1-24 中山大学南方学院 27
•
Y 我们将上面这个等式的两边同时减去 , 得到:
ˆ ˆ Yi − Y = (Yi − Y ) + (Yi − Yi )
• 等式的右边是每个样本值与其平均值的 差,也就是真实误差。我们再将等式的两 边同时进行平方,再加总。我们得到:
2011-1-24
中山大学南方学院
2011-1-24 中山大学南方学院 36
•
我们可以用这个统计指标来对 模型的回归结果做从整体的假设检 验。我们假设“所有的估计参数都 同时等于零”。 • 进而我们通过F检验来得出我 们的结论。检验的过程和方法跟t 检验是一样的。
中山大学南方学院 37
2011-1-24
第四节 回归结果的解释
• 在模型回归估计结果的表格中 还有一个有意思的统计量,就是R2 。 有些翻译的英文教科书中把它译成 “判定系数”。这个数值是用下面 公式计算出来的:
•
2011-1-24
中山大学南方学院
34
解释平方和(ESS)的自由度被规定为 模型中自变量的个数,用K来表示,即: • df1=K • 未解释平方和(RSS)的自由度的被规 定为样本数减去自变量的个数再减去一, 即: • df2=N-K-1 • •
2011-1-24 中山大学南方学院 35
• F的检验值为:F=解释方差/未解释方差。即 :
s 2 ∑ X i2 N ∑ (X i − X )2
2
SE α =
sα
tα =
2011-1-24
ˆ α −0 SEα
19
中山大学南方学院
我们可以把参数的统计指标列 在估计方程的下面: • 销量=8.383+4.881(气温) • (1.128)(18.95) •
2011-1-24
中山大学南方学院
20
第五章 其他简单线性回归模型
• 有时我们从数据的图形来看,因 变量与自变量之间并不呈直线关系, 而是有明显的曲线关系。那么,我们 可能通过对变量的转换来使其变为直 线关系。通常我们可以用自然对数, 平方,立方,平方根,甚至更复杂的 指数形式来转换变量。
中山大学南方学院 43
2011-1-24
Log(Y) = α + βX Y = α + β * Log(X) Log(Y) = α + β * Log(X) Y = α + βX
2011-1-24
2
44
中山大学南方学院
1 Y = α + β( ) X 2 Y = α + βX Y
2
= α + βX
2 2
Log ( Y ) = α + β X LL
2011-1-24 中山大学南方学院
45
•
在应用计量经济学中,当我们的模 型中有“价格”,“收入”之类的变量 时,一般应该用自然对数的形式将变量 转换一下。这样可以避免在对变量进行 预测时出现负值的情况。
残差(未解释) df2=N-K-1 总和
2011-1-24
ESS TSS=RSS+ESS
中山大学南方学院
ESS/df2
df3=N-1
26
• 我们有如下模型:
Yi = α + βX Yˆ = α + β X e = Y − Yˆ
i i i
i i
+ ei
Y i = Yˆ i + e i Y i = Yˆ i + ( Y i − Yˆ i )
Yi = α + β X i + e
2011-1-24 中山大学南方学院 12
• 其模型的估计方差是:
s2 = ei2 ∑ N −2
• 或者: •
s
2
=
∑
( Y i − αˆ − βˆ X i ) N − 2
2011-1-24
中山大学南方学院
13
•
在这里我们要注意到这个 方差的自由度为N-2,因为我 们这里用到了两个确定的参数, 所以我们就失去了两个自由度。
中山大学南方学院 15
2011-1-24
n
βˆ =
∑
(X
n
i=1
i
- X )(Y
i
i
- Y )
2
∑
=β+
(X
− X )
i=1
1 (X i − X )2 ∑
i =1 n
n
∑(X
i =1
i
− X )u i
2011-1-24
中山大学南方学院
16
• 先计算其方差: • 标准误差:
s2 2 sβ = ( X i − X )2 ∑
• 建立模型 • 输入数据进行回归 • 对回归结果进行解释 • 现实的经济学意义
2011-1-24 中山大学南方学院 5
第一节 模型的建立
• 在我们深入讨论回归分析和其结果检验 之前,我们需要先讨论一下应用经济学 的研究方法。 • 我们还是从前面讲过的一个简单的回归 模型说起,给定下面的数模型:
Yi = α + βX i + e
SE β = s β
• 其统计检验值:
2
tβ =
2011-1-24
ˆ β −0 SE β
17
中山大学南方学院
ˆ • 常数 α 的方差可以根据:
ˆ ˆ α =Y −βX
• 的关系式进行计算,得出结果如下:
2011-1-24
中山大学南方学院
18
• 其方差为: • 标准误差: • 统计值:
2 2 sα = (∑ X i2 / N ) s β =
2011-1-24
中山大学南方学院
14
•
我们对方差开根号,得到s,这个 统计值很重要,它被叫做“估计的标 准误差”(standard error of estimate) 或“回归的标准误差”(standard error of regression)。 • 那么我们再来计算估计参数的标准 误差。
TSS =
∑
(Y
i
− Y )
2
2011-1-24
中山大学南方学院
30
•
这方差总和中有三项:第一项叫 做解释平方和(explained sum of squares)或者叫回归平方和( regression sum of squares),表示估计值 与实际平均值之差的平方的总和,用 RSS来表示:
中山大学南方学院 25
2011-1-24
第三节 估计参数方程的方差分析
• 对回归分析得出的结果做进一步的分析, 就是对估计参数方程的方差分析,英文叫 “Analysis of variance (ANOVA)”。如下表所 示:
自由度 模型(解释) 平方和 df1=K 平均平方和 RSS F检验值 检验值 RSS/df1 (RSS/df1 )/(ESS/df2 )
•
我们要对估计参数进行检验。 假设所有的参数都等于零,用t检 验来做。
2011-1-24
中山大学南方学院
21
•
如果我们将置信区间定为95%, 那么其误差容许范围就在5%的范围 内(也被称为显著性水平),即 a=0.05。那么我们可以从表格中查 到相关的数据进行比较。
2011-1-24
中山大学南方学院
Log (价格)=α+β(需求量)
2011-1-24
中山大学南方学院
46
•
在应用计量经济的过程中, 我们选择变量和处理变量时一 定要有经济学的理论作为基础 ,服从经济学的基本原理。举 例分析如下:
2011-1-24
第二节 估计参数的统计意义
• 算出参数方程之后,我们的任 务还没有完成。我们还要对上面的 回归进行分析。下一步我们要看估 计出来的方程中的每个参数是否有 统计意义(t Statistics)。
•
2011-1-24 中山大学南方学院 11
•
为了计算参数的“t Statistics”的值,我们还是从简 单模型说起。给定:
28
ˆ ˆ (Yi −Y) = ∑(Yi −Y) + (Yi −Yi ) ∑
2
[
]
2
ˆ −Y)2 + ∑(Y −Y )2 + 2∑(Y −Y)(Y −Y ) ˆ ˆ ˆ = ∑(Yi i i i i i
2011-1-24
中山大学南方学院
29
•
我们用TSS来表示这是方差总和 (Total Sum of Squares)
2011-1-24 中山大学南方学院 6
•
根据上面的数学模型,我们要 做的事情就是利用所得到的数据, 用最小二乘法来对模型中的参数进 行估计。
•
2011-1-24ห้องสมุดไป่ตู้
中山大学南方学院
7
•
我们以气温和冷饮料的销 售量的数据来进行分析。如果 我们能够通过一个模型来预测 由于气温的变化对市场销售量 的影响。
ˆ − Y )2 RSS = ∑ (Yi
2011-1-24 中山大学南方学院 31
•
第二项叫作未解释平方和(residual sum of squares),或叫误差平方和( error sum of squares),或叫残差平方和 是实际值与估计值之差的平方的总和 ,也就是其误差项平方的总和,用ESS 来表示:
中山大学南方学院 24
2011-1-24
•
那么如果参数的估计失误率小于 0.05,它们就是有统计意义的。上面的 结果表明,参数方程截距的估计失误率 约为0.27,大于0.05,那么我们就没有 充分把握说它不等于零;自变量“气温” 的估计失误率约为0.000,小于0.05,那 么我们就可以有充分的把握说它不等于 零。
2011-1-24
中山大学南方学院
38
RSS ESS R = = 1− TSS TSS ˆ − Y )2 ˆ )2 ∑ (Yi ∑ (Yi − Yi 2 R = = 1− 2 2 ∑ (Yi − Y ) ∑ (Yi − Y )
2
2011-1-24
中山大学南方学院
39
•
人们把R2当作回归估计模型对真实 模型解释的百分比。也就是说,根据 这个数值来评价模型回归估计结果的 好坏,认为这个值可以“告诉人们Y的 估计值与它的真实值相靠多近”。当 接近100%时,以前人们就认为这个回 归估计的结果很逼真。
REVIEW
2011-1-24
中山大学南方学院
1
• 假设检验 • 最小二乘法
2011-1-24
中山大学南方学院
2
第四章 简单回归模型及回 归结果的检验
2011-1-24
中山大学南方学院
3
本章重点
• 建立模型 • 估计参数的统计意义 • 回归结果的解释
2011-1-24
中山大学南方学院
4
分析思路
ˆ ) = ∑ e2 ESS = ∑ (Yi − Yi i
2011-1-24 中山大学南方学院 32
2
•
第三项就是剩余的部分,这部 分可以忽略不计,因为它小得几乎 等于零:
ˆ ˆ 2∑ (Yi − Y )(Yi − Yi ) ≈ 0
2011-1-24
中山大学南方学院
33
•
那么,方差总和是解释平方和 与未解释平方和的加总,即: TSS=RSS+ESS
ESS / df 2 Adj ( R ) = 1 − = 1− TSS / df 3 (Yi − Y ) 2 /( N − 1) ∑
2
ˆ (Yi − Yi ) 2 / df 2 ∑
在近些年来经济科学杂志上发表的文章中 一般将这个数值按传统的习惯保留在回归分析 结果的表格中,而不对此数值加以评价。
2011-1-24 中山大学南方学院 42
中山大学南方学院 40
2011-1-24
•
一般来说,用横截面数据时,判定 系数会低些;用时间序列数据时,它 的值会高些,特别是当我们增加自变 量的个数时,它的值就会随之提高。 现在计量经济学家对这个判定系数有 了不同的看法。认为这个判定系数不 可靠。
中山大学南方学院 41
2011-1-24
•
后来又有些计量经济学试图用不同的方法 来计算判定系数,如用调整过的R2
RSS K F= = ESS ( N − K − 1)
∑ (Yˆ − Y )
i
K
ˆ (Yi − Yi ) ( N − K − 1) ∑
• F=Explained Variance/Unexplained Variance • =Regression Variance/Residual Variance
22
所以我们就可以说,我们有95%把 握认定:估计出来的这个参数不等于 零,有其实际的统计意义。特别是自 变量“气温”的参数很有意义。 • 这样一来,批发商就可根据天气 预报来有计划的储备饮料的库存了。 •
2011-1-24
中山大学南方学院
23
• •
另外,参数的估计“失误率” (p-value)也很有用。我们在检验 统计意义时可以直接利用这个数据。 我们设定统计误差容许范围是在5 %,即显著性水平(第一误差)为 0.05.
2011-1-24
中山大学南方学院
8
•
通过简单的回归分析得出简 单的估计方程,我们的气温“自 变量”与销量“因变量”之间存 在着正相关的关系(自变量前面 的参数值大于零)。
2011-1-24
中山大学南方学院
9
•
也就是说,当温度增高时,销 量也会增高。那么,我们可以利用 这个估计方程来对未来进行预测。 我们可以确定,如果“温度”提高 一度,销量就会增加4.881单位, 也就是多销售48810瓶饮料。
2011-1-24 中山大学南方学院 27
•
Y 我们将上面这个等式的两边同时减去 , 得到:
ˆ ˆ Yi − Y = (Yi − Y ) + (Yi − Yi )
• 等式的右边是每个样本值与其平均值的 差,也就是真实误差。我们再将等式的两 边同时进行平方,再加总。我们得到:
2011-1-24
中山大学南方学院
2011-1-24 中山大学南方学院 36
•
我们可以用这个统计指标来对 模型的回归结果做从整体的假设检 验。我们假设“所有的估计参数都 同时等于零”。 • 进而我们通过F检验来得出我 们的结论。检验的过程和方法跟t 检验是一样的。
中山大学南方学院 37
2011-1-24
第四节 回归结果的解释
• 在模型回归估计结果的表格中 还有一个有意思的统计量,就是R2 。 有些翻译的英文教科书中把它译成 “判定系数”。这个数值是用下面 公式计算出来的:
•
2011-1-24
中山大学南方学院
34
解释平方和(ESS)的自由度被规定为 模型中自变量的个数,用K来表示,即: • df1=K • 未解释平方和(RSS)的自由度的被规 定为样本数减去自变量的个数再减去一, 即: • df2=N-K-1 • •
2011-1-24 中山大学南方学院 35
• F的检验值为:F=解释方差/未解释方差。即 :
s 2 ∑ X i2 N ∑ (X i − X )2
2
SE α =
sα
tα =
2011-1-24
ˆ α −0 SEα
19
中山大学南方学院
我们可以把参数的统计指标列 在估计方程的下面: • 销量=8.383+4.881(气温) • (1.128)(18.95) •
2011-1-24
中山大学南方学院
20
第五章 其他简单线性回归模型
• 有时我们从数据的图形来看,因 变量与自变量之间并不呈直线关系, 而是有明显的曲线关系。那么,我们 可能通过对变量的转换来使其变为直 线关系。通常我们可以用自然对数, 平方,立方,平方根,甚至更复杂的 指数形式来转换变量。
中山大学南方学院 43
2011-1-24
Log(Y) = α + βX Y = α + β * Log(X) Log(Y) = α + β * Log(X) Y = α + βX
2011-1-24
2
44
中山大学南方学院
1 Y = α + β( ) X 2 Y = α + βX Y
2
= α + βX
2 2
Log ( Y ) = α + β X LL
2011-1-24 中山大学南方学院
45
•
在应用计量经济学中,当我们的模 型中有“价格”,“收入”之类的变量 时,一般应该用自然对数的形式将变量 转换一下。这样可以避免在对变量进行 预测时出现负值的情况。
残差(未解释) df2=N-K-1 总和
2011-1-24
ESS TSS=RSS+ESS
中山大学南方学院
ESS/df2
df3=N-1
26
• 我们有如下模型:
Yi = α + βX Yˆ = α + β X e = Y − Yˆ
i i i
i i
+ ei
Y i = Yˆ i + e i Y i = Yˆ i + ( Y i − Yˆ i )
Yi = α + β X i + e
2011-1-24 中山大学南方学院 12
• 其模型的估计方差是:
s2 = ei2 ∑ N −2
• 或者: •
s
2
=
∑
( Y i − αˆ − βˆ X i ) N − 2
2011-1-24
中山大学南方学院
13
•
在这里我们要注意到这个 方差的自由度为N-2,因为我 们这里用到了两个确定的参数, 所以我们就失去了两个自由度。
中山大学南方学院 15
2011-1-24
n
βˆ =
∑
(X
n
i=1
i
- X )(Y
i
i
- Y )
2
∑
=β+
(X
− X )
i=1
1 (X i − X )2 ∑
i =1 n
n
∑(X
i =1
i
− X )u i
2011-1-24
中山大学南方学院
16
• 先计算其方差: • 标准误差:
s2 2 sβ = ( X i − X )2 ∑
• 建立模型 • 输入数据进行回归 • 对回归结果进行解释 • 现实的经济学意义
2011-1-24 中山大学南方学院 5
第一节 模型的建立
• 在我们深入讨论回归分析和其结果检验 之前,我们需要先讨论一下应用经济学 的研究方法。 • 我们还是从前面讲过的一个简单的回归 模型说起,给定下面的数模型:
Yi = α + βX i + e
SE β = s β
• 其统计检验值:
2
tβ =
2011-1-24
ˆ β −0 SE β
17
中山大学南方学院
ˆ • 常数 α 的方差可以根据:
ˆ ˆ α =Y −βX
• 的关系式进行计算,得出结果如下:
2011-1-24
中山大学南方学院
18
• 其方差为: • 标准误差: • 统计值:
2 2 sα = (∑ X i2 / N ) s β =
2011-1-24
中山大学南方学院
14
•
我们对方差开根号,得到s,这个 统计值很重要,它被叫做“估计的标 准误差”(standard error of estimate) 或“回归的标准误差”(standard error of regression)。 • 那么我们再来计算估计参数的标准 误差。
TSS =
∑
(Y
i
− Y )
2
2011-1-24
中山大学南方学院
30
•
这方差总和中有三项:第一项叫 做解释平方和(explained sum of squares)或者叫回归平方和( regression sum of squares),表示估计值 与实际平均值之差的平方的总和,用 RSS来表示:
中山大学南方学院 25
2011-1-24
第三节 估计参数方程的方差分析
• 对回归分析得出的结果做进一步的分析, 就是对估计参数方程的方差分析,英文叫 “Analysis of variance (ANOVA)”。如下表所 示:
自由度 模型(解释) 平方和 df1=K 平均平方和 RSS F检验值 检验值 RSS/df1 (RSS/df1 )/(ESS/df2 )
•
我们要对估计参数进行检验。 假设所有的参数都等于零,用t检 验来做。
2011-1-24
中山大学南方学院
21
•
如果我们将置信区间定为95%, 那么其误差容许范围就在5%的范围 内(也被称为显著性水平),即 a=0.05。那么我们可以从表格中查 到相关的数据进行比较。
2011-1-24
中山大学南方学院
Log (价格)=α+β(需求量)
2011-1-24
中山大学南方学院
46
•
在应用计量经济的过程中, 我们选择变量和处理变量时一 定要有经济学的理论作为基础 ,服从经济学的基本原理。举 例分析如下: