21____回归分析-2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解:首先根据10名学生的成绩建立由初一的 数学成绩估计初二数学成绩的回归方程;将另一 学生的初一数学成绩代入方程,估计其初二成绩
Y 1 .2 X 2 1 .3 4 1 2 .2 7 2 1 6 .3 4 7 2 .4 8
表21-1
序号
1 2
10个学生初一与初二数学成绩回归系数计算表
X
需要注意的是,只能根据回归方程由 自变量估计因变量,而不能由因变量估计 自变量。这两种估计需要根据两条不同的 回归线。
还应注意,应用回归方程由自变量的 值估计因变量的值时,数据范围不应超过 原来样本数据的范围。
无论由X估计Y还是由Y估计X都有误
差产生。这一误差用误差的标准差来表示。
SYX
2.对因变量真值的预测
利用回归方程由自变量的值在一定概率意义 上估计出因变量的所在区间,只反映了与某自变 量的值相对应的那些因变量的值在回归值上下的 变异。 用回归方程计算出的回归值,并不是因变量 的真值。要预测其真值还需要考虑到各样本回归 方程之间的变异。
⑴.由自变量估计因变量真值的 误差标准误
用r 2表示。
r2
YˆY YY
2 2
SSR SST
(21.5)
例3:10名学生初一对初二年级数学成 绩回归方程方差分析计算中得到:
SST=268.1 SSR=163.724
则回归方程的测定系数为
r2SSR 16.73240.61 SST 26.18
r20.72 80.608
三.一元线性回归方程的应用
Y 1 .2 X 2 1 .3 4 1 2 .2 7 2 1 6 .3 4 7 2 .4 8
计算
2
置信 Y ˆp 区 td f2 间 SYX 11 n X X p X X2
2.对回归系数的显著性检验
H0:βபைடு நூலகம்0
检验统计量为 t
t bYX SE b
(21.3)
公式中SEb为回归系数的标准误,其计算公式为
SE b
SY2X 2
MES
2
XX XX
(21.4)
上述公式中
XX2X2X2 n
因此检验统计量的计算公式可写为:
tSbYE bXbYX
X2X2/n
MES
衡量由某一Xp值估计预测相应Yp值
的真值Y0时所产生的误差指标,称为误差 标准误。它由两部分组成:一部分是对应
于Xp点的那些Yp值与回归值Yˆ p 的差异
即
S2 Yˆ p
;另一部分是各样本回归方程之间
的差异,即
S
2 YX
。
误差标准误可表示为
SYˆpY0 SY2XSY2ˆp
(21.7)
各回归值之间的标准差又可计算为
YYˆ 2 n2
当样本容量较大时,由X估计Y的误差
的标准差可改写为
SYXSY 1r2
(21.6)
而由Y估计X的误差的标准差则为
SXYSX 1r2
估计误差的标准差反映了实际Y值在其 回归值 Yˆ 上下波动的范围。由这一标准差 的值,可判断由回归值Yˆ 对实际Y值估计 的误差大小。
例4:根据10名学生初一和初二年级的数 学成绩。如果另有一名学生的初一数学成绩为 76,试估计他初二时的数学成绩会是多少?
2
SYˆp SYX 1nXXpXX2
(21.8)
将(21.8)式代入(21.7)式,则 估计误差标准误为:
2
SYˆpY0SYX 11 nXXp X X2
(21.9)
⑵.由自变量估计预测因变量真值 的置信区间
根据总体参数区间估计的原理,其真值的置 信区间应由公式(21.10)计算,计算公式为:
Y
X2
Y2
XY
74
76
5476 5776
5624
71
75
8041 5626
5325
3
72
71
5184 5041
5112
4
68
70
4624 4900
4760
5
76
76
5776 5776
5776
6
73
79
5329 6241
5767
7
67
65
4489 4225
4355
8
70
77
4900 5929
5390
9
2
置信 Y ˆp 区 td f间 SYX 2
11 n X X p X X2
dfn2
(21.10)
例5:根据10名学生初一和初二年级的数学 成绩。若另有一名学生的初一数学成绩为76, 试估计他初二时的数学成绩的真值是多少?
解:首先根据10名学生的成绩建立由初一的 数学成绩估计初二数学成绩的回归方程;然后根 据公式(21.10)估计其初二成绩的置信区间。
例1:10名学生初一对初二年级数学成绩的 回归方程,经计算,SST=268.1,SSR=163.724, 可算得:
S Y 2X ST n S S 2R S 2.6 1 1 1 8 0 2.6 73 2 14 .0 347
SYX 1.30473.612
可见回归方程的估计误差并不大。
dfn2
例2:对10名学生初一对初二年级数学成绩 的回归系数进行显著性检验,检验过程为
H0:β=0 H1:β≠0
统计量计算
tSbYE bXbYX
X2X2/n
MES
1.22 50527012/0103.542 1.3047
二.一元线性回归方程的评价 ──测定系数
一元线性回归方程中,总平方和等于回归平 方和与误差平方和之和:
回归方程主要是由自变量的值估计和预 测因变量的值。这里的估计预测包含两个 方面:一方面是用样本的回归方程推算因
变量的回归Yˆ值 ;另一方面是根据样本的
回归Yˆ 值 估计预测因变量的真值Y。
1. 由样本回归方程 推算因变量的回归值
根据样本数据建立的回归方程经检验显 著,表明两个变量之间存在线性关系,这 时可将已知自变量的值代入回归方程式, 推算出因变量的估计值(回归值)。
Y Y 2 Y ˆ Y 2 Y Y ˆ2
两边同除以总平方和,得到 :
YˆY2 YYˆ2
1
2
2
YY YY
由回归造成的平方和在总平方和中所占的 比例越大,该回归方程的回归效率就越高。
回归平方和在总平方和中所占的比例,称
为测定系数(coefficient of determination) ,
54
62
4225 3844
4030
10
74
72
5476 5184
5328
合计
710
723 50520 52541
51467
问题思考:
从表中可看到,X=76时,Y=76
而由回归方程计算得到的回归值为
Y
78.4
怎样解释回归值与实际Y值不同?
怎样理解估计误差的标准差?
SYX 1.30473.612
Y 1 .2 X 2 1 .3 4 1 2 .2 7 2 1 6 .3 4 7 2 .4 8
表21-1
序号
1 2
10个学生初一与初二数学成绩回归系数计算表
X
需要注意的是,只能根据回归方程由 自变量估计因变量,而不能由因变量估计 自变量。这两种估计需要根据两条不同的 回归线。
还应注意,应用回归方程由自变量的 值估计因变量的值时,数据范围不应超过 原来样本数据的范围。
无论由X估计Y还是由Y估计X都有误
差产生。这一误差用误差的标准差来表示。
SYX
2.对因变量真值的预测
利用回归方程由自变量的值在一定概率意义 上估计出因变量的所在区间,只反映了与某自变 量的值相对应的那些因变量的值在回归值上下的 变异。 用回归方程计算出的回归值,并不是因变量 的真值。要预测其真值还需要考虑到各样本回归 方程之间的变异。
⑴.由自变量估计因变量真值的 误差标准误
用r 2表示。
r2
YˆY YY
2 2
SSR SST
(21.5)
例3:10名学生初一对初二年级数学成 绩回归方程方差分析计算中得到:
SST=268.1 SSR=163.724
则回归方程的测定系数为
r2SSR 16.73240.61 SST 26.18
r20.72 80.608
三.一元线性回归方程的应用
Y 1 .2 X 2 1 .3 4 1 2 .2 7 2 1 6 .3 4 7 2 .4 8
计算
2
置信 Y ˆp 区 td f2 间 SYX 11 n X X p X X2
2.对回归系数的显著性检验
H0:βபைடு நூலகம்0
检验统计量为 t
t bYX SE b
(21.3)
公式中SEb为回归系数的标准误,其计算公式为
SE b
SY2X 2
MES
2
XX XX
(21.4)
上述公式中
XX2X2X2 n
因此检验统计量的计算公式可写为:
tSbYE bXbYX
X2X2/n
MES
衡量由某一Xp值估计预测相应Yp值
的真值Y0时所产生的误差指标,称为误差 标准误。它由两部分组成:一部分是对应
于Xp点的那些Yp值与回归值Yˆ p 的差异
即
S2 Yˆ p
;另一部分是各样本回归方程之间
的差异,即
S
2 YX
。
误差标准误可表示为
SYˆpY0 SY2XSY2ˆp
(21.7)
各回归值之间的标准差又可计算为
YYˆ 2 n2
当样本容量较大时,由X估计Y的误差
的标准差可改写为
SYXSY 1r2
(21.6)
而由Y估计X的误差的标准差则为
SXYSX 1r2
估计误差的标准差反映了实际Y值在其 回归值 Yˆ 上下波动的范围。由这一标准差 的值,可判断由回归值Yˆ 对实际Y值估计 的误差大小。
例4:根据10名学生初一和初二年级的数 学成绩。如果另有一名学生的初一数学成绩为 76,试估计他初二时的数学成绩会是多少?
2
SYˆp SYX 1nXXpXX2
(21.8)
将(21.8)式代入(21.7)式,则 估计误差标准误为:
2
SYˆpY0SYX 11 nXXp X X2
(21.9)
⑵.由自变量估计预测因变量真值 的置信区间
根据总体参数区间估计的原理,其真值的置 信区间应由公式(21.10)计算,计算公式为:
Y
X2
Y2
XY
74
76
5476 5776
5624
71
75
8041 5626
5325
3
72
71
5184 5041
5112
4
68
70
4624 4900
4760
5
76
76
5776 5776
5776
6
73
79
5329 6241
5767
7
67
65
4489 4225
4355
8
70
77
4900 5929
5390
9
2
置信 Y ˆp 区 td f间 SYX 2
11 n X X p X X2
dfn2
(21.10)
例5:根据10名学生初一和初二年级的数学 成绩。若另有一名学生的初一数学成绩为76, 试估计他初二时的数学成绩的真值是多少?
解:首先根据10名学生的成绩建立由初一的 数学成绩估计初二数学成绩的回归方程;然后根 据公式(21.10)估计其初二成绩的置信区间。
例1:10名学生初一对初二年级数学成绩的 回归方程,经计算,SST=268.1,SSR=163.724, 可算得:
S Y 2X ST n S S 2R S 2.6 1 1 1 8 0 2.6 73 2 14 .0 347
SYX 1.30473.612
可见回归方程的估计误差并不大。
dfn2
例2:对10名学生初一对初二年级数学成绩 的回归系数进行显著性检验,检验过程为
H0:β=0 H1:β≠0
统计量计算
tSbYE bXbYX
X2X2/n
MES
1.22 50527012/0103.542 1.3047
二.一元线性回归方程的评价 ──测定系数
一元线性回归方程中,总平方和等于回归平 方和与误差平方和之和:
回归方程主要是由自变量的值估计和预 测因变量的值。这里的估计预测包含两个 方面:一方面是用样本的回归方程推算因
变量的回归Yˆ值 ;另一方面是根据样本的
回归Yˆ 值 估计预测因变量的真值Y。
1. 由样本回归方程 推算因变量的回归值
根据样本数据建立的回归方程经检验显 著,表明两个变量之间存在线性关系,这 时可将已知自变量的值代入回归方程式, 推算出因变量的估计值(回归值)。
Y Y 2 Y ˆ Y 2 Y Y ˆ2
两边同除以总平方和,得到 :
YˆY2 YYˆ2
1
2
2
YY YY
由回归造成的平方和在总平方和中所占的 比例越大,该回归方程的回归效率就越高。
回归平方和在总平方和中所占的比例,称
为测定系数(coefficient of determination) ,
54
62
4225 3844
4030
10
74
72
5476 5184
5328
合计
710
723 50520 52541
51467
问题思考:
从表中可看到,X=76时,Y=76
而由回归方程计算得到的回归值为
Y
78.4
怎样解释回归值与实际Y值不同?
怎样理解估计误差的标准差?
SYX 1.30473.612