第三节 线性回归的显著性检验及回归预测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
能源消耗量为73十万吨时,其工业总产值的
预测区间在45.9345亿元与57.2677亿元之间.
2
预测区间估计(大样本)
1. y0在1-置信水平下的预测区间为
yc Z 2 Se
y0 yc 特别:P{ 1} 68.27% Se y0 yc P{ 2} 95.45% Se y0 yc P{ 3} 99.73% Se
0.7961 16.6548 0.0478
2. 计算检验的统计量
t 0.7961 2.457 1 2645
(x
百度文库 x)
2
3.t 2 ( n 2) t0.025 (14) 2.1448 16.6548, 所以拒绝原假 设,表示Y 与X 之间存在显著的线性关系,即能源消耗量 与工业总产值之间存在显著的线性相关关系.
2
x
i 1
n
i
x
2
式中:se为回归估计标准差
置信区间估计(例题分析)
【例】求出工业总产值的点估计为100亿元时, 工业总产值95%置信水平下的置信区间. yc 100 解:根据前面的计算结果,已知n=16, • se=2.457,t(16-2)=2.1448 • 置信区间为 1 (73 57.25)2
① 提出原假设与备择假设:
H0 : 0;
H1 : 0
b ~ t ( n 2) ② 构造检验统计量 t S (b)
其中,S (b) Se 1
(x
2 x
i
x)
2
为b的样本方差,
n 给定显著性水平α,这是t分布的双侧检验,查 表计算出临界值 t 2 (n 2),得出拒绝域;
H1 : 0
SS yi 2 ( yi )2 n 26175 (625)2 16 1760.9375
nS xy xi yi ( xi yi ) n 37887 (916 625) 16 2105.75 SS R bnS xy 0.7961 2105.75 1676.3876 SS E SS SS R 84.5499 SS R 1676.3876 F 277.5808 SS E ( n 2) 84.5499 14
给定显著性水平α,查表计算出临界值 F (1, n , 2) 得出拒绝域 (F (1, n 2), ).
③根据已知条件实际计算统计量F的值; ④ 比较②与③中的计算结果,得到结论.
7
方差分析——把总离差平方和及其自由度进行分 解,利用F统计量检验两变量间线性相关显著性的 方法称为方差分析.方差分析的结果归纳如下:
二.回归方程的显著性检验(方差分析(F检验))
检验两变量是否线性相关的另一种方法是方差分 析,它是建立在对总离差平方和如下分解的基础上:
y
i
y yi yci yci y ,即:
2 2 2 2
SS yi y nS y 2 yi 2 ( yi )2 n SS E SS bnS xy SS b[ xi yi SS R SS SS E bnS xy
i
xy
i
n
]
2 b x i x i yi a x i 0 SS , SS E , SS R依赖: a y bx
5
注意:三个平方和SS , SS E , SS R的自由度分别记为 f , f E , f R , 则它们之间也有等式成立: f fE fR 且:f n-1, f E n 2, 则f R f f E 1.
① 提出原假设与备择假设:
H0 : 0; H1 : 0
② 构造检验统计量
i .构造 2分布统计量: SS R ~ (1),
2
2
SS E
2
~ 2 ( n 2),
ii .构造统F分布计量: SS R 1 2 SS R F ~ F (1, n 2) SS E SS E ( n 2) 2 ( n 2)
y 的平均值的点估计
个给定值 x0, 求出因变量 y 的平均值的一个 估计值E(y0) ,就是平均值的点估计
利用估计的回归方程,对于自变量x 的一
– 在能源消耗量与工业总产值的例子中, 假如我们要估计能源消耗量为 78 十万吨 的平均工业总产值,那么将 78 十万吨代 入估计的回归方程,就得到了工业总产 值的点估计:
预测区间估计(例题分析)
【例】求出能源消耗量为73十万吨时,工业总产值
95% 置信水平下的置信区间 解:根据前面的计算结果,已知 n=16, se=2.457, t(14)=2.1448 yc 6.5142 0.7961 73 51.6011(亿元) • 置信区间为
1 (73 57.25) 51.6011 2.1448 1.457 1 16 2645 45.9345 y0 57.2677
E( y0 ) 6.5142 0.7961 78 55.5816(亿元)
y 的个别值的点估计
• 利用估计的回归方程 , 对于自变量 x 的
一个给定值 x0, 求出因变量 y 的一个个别 值的估计值 yc ,就是个别值的点估计.
– 例如,如果我们只是想知道能源消耗量为 80万吨的工业总产值是多少,则属于个别 值的点估计 。根据估计的回归方程得
SSE 84.5499
F 277.5808
SS 2105.75
三、利用回归方程进行估计和预测
点估计 1. 对于自变量 x 的一个给定值 x0, 根据回归 方程得到因变量 y 的一个估计值 yc
2. 点估计值有
y 的平均值的点估计 y 的个别值的点估计
3. 在点估计条件下,平均值的点估计和个别 值的的点估计是一样的,但在区间估计中 则不同
一元线性回归的方差分析表
离差来源 平方和 自由度 F值 SS R 回 归 SS y y 2 1 F R ci SS E 2 剩余 n-2
SS E yi yci
( n 2)
总计
SS yi y
2
n-1
8
线性关系的检验(例题分析)
1. 提出假设 H0 : 0; 2. 计算检验统计量F
yc a bx
b0
23
作业:P223 1、4、6、7
24
第三节 线性回归的显著性 检验及回归预测
在回归分析中,要检验因变量Y与自变量 X之间到底有无真正的线性关系,可以通过 回归系数的显著性检验(t检验)或回归方程 的显著性检验(F检验)来判断.
1
一、回归系数的显著性检验
回归系数显著性检验的目的是通过检验回 归系数β的值与0是否有显著性差异,来判断Y 与X之间是否有显著的线性关系.若β=0,则总体 回归方程中不含X项(即Y不随X变动而变动),因 此,变量Y与X之间并不存在线性关系;若β≠0,说 明变量Y与X之间存在显著的线性关系.
i
(x
x ) nS xi
2 2
( xi )
2
③根据已知条件实际计算统计量t的值; ④ 比较②与③中的计算结果,得到结论.
3
回归系数的检验 (例题分析)
•
1. 提出假设
b Se 1
对例题的回归系数进行显著性检验(=0.05)
H0 : 0;
i
H1 : 0
yc t 2 ( n 2) Se
注意!
1 1 n
x0 x
2
x
i 1
n
i
x
2
置信区间、预测区间、回归方程
y
b0
yc a bx
x
x0
x
影响区间宽度的因素
1. 置信水平 (1 - ) – 区间宽度随置信水平的增大而增大 2. 数据的离散程度Se – 区间宽度随离程度的增大而增大 • 3. 样本容量 – 区间宽度随样本容量的增大而减小 • 4. 用于预测的 x0与x的差异程度 – 区间宽度随 x0 与 x 的差异程度的增大 而增大
100 2.1448 2.457
97.9167 E( y0 ) 102.0833
16
2645
当工业总产值的点估计为100亿元时,工业总产值 的平均值在97.9167亿元到102.0833亿元之间 .
预测区间估计
1. 利用估计的回归方程,对于自变量 x 的一 个给定值 x0 ,求出因变量 y 的一个个别 值的估计区间,这一区间称为预测区间 (prediction interval) 2. y0在1-置信水平下的预测区间为
置信区间估计
1. 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平 均值的估计区间 ,这一估计区间称为 置信区间(confidence interval) 2. E(y0) 在1-置信水平下的置信区间为
yc t 2 ( n 2) se 1 n
x0 x
yc 6.5142 0.7961 80 57.1738(亿元)
区间估计
区间估计
1. 点估计不能给出估计的精度,点估计值与 实际值之间是有误差的,因此需要进行区 间估计 2. 对于自变量 x 的一个给定值 x0,根据回归 方程得到因变量 y 的一个估计区间 3. 区间估计有两种类型 – 置信区间估计(confidence interval estimate) – 预测区间估计(prediction interval estimate)
3. 确定显著性水平=0.05,并根据分子自由 度1和分母自由度14找出临界值F =4.60 4. 作出决策:若F >F , 拒绝H0,认为能源 消耗量与工业总产值两变量间的线性相关 关系是显著的.
离差来源 回 归 剩余 总计 平方和 自由度 1 14 15
10
F值
SSR 1676.3876
预测区间在45.9345亿元与57.2677亿元之间.
2
预测区间估计(大样本)
1. y0在1-置信水平下的预测区间为
yc Z 2 Se
y0 yc 特别:P{ 1} 68.27% Se y0 yc P{ 2} 95.45% Se y0 yc P{ 3} 99.73% Se
0.7961 16.6548 0.0478
2. 计算检验的统计量
t 0.7961 2.457 1 2645
(x
百度文库 x)
2
3.t 2 ( n 2) t0.025 (14) 2.1448 16.6548, 所以拒绝原假 设,表示Y 与X 之间存在显著的线性关系,即能源消耗量 与工业总产值之间存在显著的线性相关关系.
2
x
i 1
n
i
x
2
式中:se为回归估计标准差
置信区间估计(例题分析)
【例】求出工业总产值的点估计为100亿元时, 工业总产值95%置信水平下的置信区间. yc 100 解:根据前面的计算结果,已知n=16, • se=2.457,t(16-2)=2.1448 • 置信区间为 1 (73 57.25)2
① 提出原假设与备择假设:
H0 : 0;
H1 : 0
b ~ t ( n 2) ② 构造检验统计量 t S (b)
其中,S (b) Se 1
(x
2 x
i
x)
2
为b的样本方差,
n 给定显著性水平α,这是t分布的双侧检验,查 表计算出临界值 t 2 (n 2),得出拒绝域;
H1 : 0
SS yi 2 ( yi )2 n 26175 (625)2 16 1760.9375
nS xy xi yi ( xi yi ) n 37887 (916 625) 16 2105.75 SS R bnS xy 0.7961 2105.75 1676.3876 SS E SS SS R 84.5499 SS R 1676.3876 F 277.5808 SS E ( n 2) 84.5499 14
给定显著性水平α,查表计算出临界值 F (1, n , 2) 得出拒绝域 (F (1, n 2), ).
③根据已知条件实际计算统计量F的值; ④ 比较②与③中的计算结果,得到结论.
7
方差分析——把总离差平方和及其自由度进行分 解,利用F统计量检验两变量间线性相关显著性的 方法称为方差分析.方差分析的结果归纳如下:
二.回归方程的显著性检验(方差分析(F检验))
检验两变量是否线性相关的另一种方法是方差分 析,它是建立在对总离差平方和如下分解的基础上:
y
i
y yi yci yci y ,即:
2 2 2 2
SS yi y nS y 2 yi 2 ( yi )2 n SS E SS bnS xy SS b[ xi yi SS R SS SS E bnS xy
i
xy
i
n
]
2 b x i x i yi a x i 0 SS , SS E , SS R依赖: a y bx
5
注意:三个平方和SS , SS E , SS R的自由度分别记为 f , f E , f R , 则它们之间也有等式成立: f fE fR 且:f n-1, f E n 2, 则f R f f E 1.
① 提出原假设与备择假设:
H0 : 0; H1 : 0
② 构造检验统计量
i .构造 2分布统计量: SS R ~ (1),
2
2
SS E
2
~ 2 ( n 2),
ii .构造统F分布计量: SS R 1 2 SS R F ~ F (1, n 2) SS E SS E ( n 2) 2 ( n 2)
y 的平均值的点估计
个给定值 x0, 求出因变量 y 的平均值的一个 估计值E(y0) ,就是平均值的点估计
利用估计的回归方程,对于自变量x 的一
– 在能源消耗量与工业总产值的例子中, 假如我们要估计能源消耗量为 78 十万吨 的平均工业总产值,那么将 78 十万吨代 入估计的回归方程,就得到了工业总产 值的点估计:
预测区间估计(例题分析)
【例】求出能源消耗量为73十万吨时,工业总产值
95% 置信水平下的置信区间 解:根据前面的计算结果,已知 n=16, se=2.457, t(14)=2.1448 yc 6.5142 0.7961 73 51.6011(亿元) • 置信区间为
1 (73 57.25) 51.6011 2.1448 1.457 1 16 2645 45.9345 y0 57.2677
E( y0 ) 6.5142 0.7961 78 55.5816(亿元)
y 的个别值的点估计
• 利用估计的回归方程 , 对于自变量 x 的
一个给定值 x0, 求出因变量 y 的一个个别 值的估计值 yc ,就是个别值的点估计.
– 例如,如果我们只是想知道能源消耗量为 80万吨的工业总产值是多少,则属于个别 值的点估计 。根据估计的回归方程得
SSE 84.5499
F 277.5808
SS 2105.75
三、利用回归方程进行估计和预测
点估计 1. 对于自变量 x 的一个给定值 x0, 根据回归 方程得到因变量 y 的一个估计值 yc
2. 点估计值有
y 的平均值的点估计 y 的个别值的点估计
3. 在点估计条件下,平均值的点估计和个别 值的的点估计是一样的,但在区间估计中 则不同
一元线性回归的方差分析表
离差来源 平方和 自由度 F值 SS R 回 归 SS y y 2 1 F R ci SS E 2 剩余 n-2
SS E yi yci
( n 2)
总计
SS yi y
2
n-1
8
线性关系的检验(例题分析)
1. 提出假设 H0 : 0; 2. 计算检验统计量F
yc a bx
b0
23
作业:P223 1、4、6、7
24
第三节 线性回归的显著性 检验及回归预测
在回归分析中,要检验因变量Y与自变量 X之间到底有无真正的线性关系,可以通过 回归系数的显著性检验(t检验)或回归方程 的显著性检验(F检验)来判断.
1
一、回归系数的显著性检验
回归系数显著性检验的目的是通过检验回 归系数β的值与0是否有显著性差异,来判断Y 与X之间是否有显著的线性关系.若β=0,则总体 回归方程中不含X项(即Y不随X变动而变动),因 此,变量Y与X之间并不存在线性关系;若β≠0,说 明变量Y与X之间存在显著的线性关系.
i
(x
x ) nS xi
2 2
( xi )
2
③根据已知条件实际计算统计量t的值; ④ 比较②与③中的计算结果,得到结论.
3
回归系数的检验 (例题分析)
•
1. 提出假设
b Se 1
对例题的回归系数进行显著性检验(=0.05)
H0 : 0;
i
H1 : 0
yc t 2 ( n 2) Se
注意!
1 1 n
x0 x
2
x
i 1
n
i
x
2
置信区间、预测区间、回归方程
y
b0
yc a bx
x
x0
x
影响区间宽度的因素
1. 置信水平 (1 - ) – 区间宽度随置信水平的增大而增大 2. 数据的离散程度Se – 区间宽度随离程度的增大而增大 • 3. 样本容量 – 区间宽度随样本容量的增大而减小 • 4. 用于预测的 x0与x的差异程度 – 区间宽度随 x0 与 x 的差异程度的增大 而增大
100 2.1448 2.457
97.9167 E( y0 ) 102.0833
16
2645
当工业总产值的点估计为100亿元时,工业总产值 的平均值在97.9167亿元到102.0833亿元之间 .
预测区间估计
1. 利用估计的回归方程,对于自变量 x 的一 个给定值 x0 ,求出因变量 y 的一个个别 值的估计区间,这一区间称为预测区间 (prediction interval) 2. y0在1-置信水平下的预测区间为
置信区间估计
1. 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平 均值的估计区间 ,这一估计区间称为 置信区间(confidence interval) 2. E(y0) 在1-置信水平下的置信区间为
yc t 2 ( n 2) se 1 n
x0 x
yc 6.5142 0.7961 80 57.1738(亿元)
区间估计
区间估计
1. 点估计不能给出估计的精度,点估计值与 实际值之间是有误差的,因此需要进行区 间估计 2. 对于自变量 x 的一个给定值 x0,根据回归 方程得到因变量 y 的一个估计区间 3. 区间估计有两种类型 – 置信区间估计(confidence interval estimate) – 预测区间估计(prediction interval estimate)
3. 确定显著性水平=0.05,并根据分子自由 度1和分母自由度14找出临界值F =4.60 4. 作出决策:若F >F , 拒绝H0,认为能源 消耗量与工业总产值两变量间的线性相关 关系是显著的.
离差来源 回 归 剩余 总计 平方和 自由度 1 14 15
10
F值
SSR 1676.3876