统计学一元线性回归课后习题答案演示课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
=734.6928
y = 734.6928 + 0.308683x
回归系数的含义:人均GDP每增加1元,
18
人均消费增加0.309元。
(4)计算判定系数,并解释其意义。
n
n
R2
SSR
yˆi
i1
y2
yi
1i1
yˆ2
SST
n
yi y2
n
yˆi y2
i1
i1
=81444968.68=0.9963 81750763.71
6.0 5.0 4.0 3.0 2.0 1.0 0.0
0
200
400
600
800 1000 1200 1400 1600
运送距离(公里)
根据图表显示,二者可能存在正线性相关关系
12
(2)计算线性相关系数,说明两个变量之间的关系强度
运送距离x 运送时间y
运送距离x
1
运送时间y 0.94894
1
x与y的简单相关系数是0.9489,两 变量之间呈现高度正相关关系
0 .9 9 8 1 2 3
7 * 1 9 0 4 9 1 8 8 6 7 8 5 7 3 9 2 7 * 1 3 4 6 9 0 0 7 6 6 3 1 6 0 9 2
说明两个变量之间高度相关
17
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际 意义。
n
n
xiyi n
xi n
人均GDP为5 000元时,人均消费水平95%的
置信区间为[1990.74915,2565.46399]
22
解:根据前面的计算结果,已知n=7,t(7-2)=2.5706
n
se
yiy ˆi2
i 1
SSE305795.034361159.007
n2 n2
5
预测区间为
2 2 7 8 .1 0 7 8 2 .5 7 0 6 * 6 1 1 5 9 .0 0 71 + 1 5 0 0 0 4 5 1 5 .5 7 1 4 2
运送时间y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形 态 (2)计算线性相关系数,说明两个变量之间的关系强度。 (3)利用最小二乘法求出估计的回归方程,并解释回归系数的实 际意义。
11
运送时间(天)
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态
n x2 x2 n y2 y2
r 1 2 ( 4 0 * 1 3 0 4 2 * 1 5 0 . . . 1 4 0 * 1 8 5 ) ( 4 0 4 2 . . . 1 4 0 ) * ( 1 3 0 1 5 0 . . . 1 8 5 )
1 2 * ( 4 0 2 4 2 2 . . . 1 4 0 2 ) 2 0 1 6 2 2 2 1 2 * ( 1 3 0 2 1 5 0 2 . . . 1 8 5 ) ( 1 3 0 1 5 0 . . . 1 8 5 ) 2
i1
n2
SSE 4 0.5 182 16
表示实际值与估计值之间的差异程度是0.5
10
11.5一家物流公司的管理人员想研究货物的运输距离和运输时 间的关系,为此,他抽出了公司最近10个卡车的运货记录的随 机样本,得到运送距离(单位:km)和运送时间(单位:天) 的数据如下表:
运送距离x 825 215 1070 550 480 920 1350 325 670 1215
yi
ˆ 1
i1
i1 i1
n
n
xi2
n
2
xi
i1
i1
ˆ0 yˆ1x
ˆ17 7 * * 6 1 5 9 1 0 0 4 0 9 7 1 4 8 2 8 1 6 7 2 7 1 8 0 5 1 7 2 3 4 9 0 5 21= 0 .3 0 8 6 8 3
ˆ 0 4 5 1 5 .5 7 1 4 2 9 0 .3 0 8 6 8 3 * 1 2 2 4 8 .4 2 8
r=0.9202
4
(3)对相关系数的显著性进行检验( =0.05),并说明二者之
间的关系强度。
1、提出假设:H0: ;H1: 0
2、计算检验的统计量
t r
n2 1r2
~t(n2)
t0.9202 122 7.435453 10.92022
t(12-2)=2.2281
根据显著性水平=0.05,查t分布表得t(n2)=2.2281由于t=7.435453>t(12-2)=2.2281, 拒绝H0,产量与生产费用之间存在着显著的正线性
9
11.4 设SSR=36,SSE=4,n=18 要求:1)计算判定系数R^2并解释其意义
R 2SSR SSR 360.9 SST SSTSSE 40
回归直线对观测值的拟合程度为0.9,说明变量Y的 变异性中有90%是由自变量x引起的。
2)计算估计标准误差s e 并解释其意义
n
se
yi yˆi2
7 1 3 6 2 5 1 2 7 .2 9
1 5 8 0 .4 6 3 1 5 E ( y 0 ) 2 9 7 5 .7 4 9 9 9
人均GDP为5 000元时,人均消费水平95%的预 测区间为[1580.46315,2975.74999]。
23
11.7随机抽取10家航空 公司,对其近一年的航 班正点率和顾客投诉次 数进行调查,所得数据 如下
相关关系
5
11.2 学生在期末考试之前用于复习的时间(单位:小时)和考 试分数(单位:分)之间是否有关系?为研究这一问题,一位 研究者抽取了由8名学生构成的一个随机样本,取得的数据如 下:
复习 时间X
考试 分数Y
20 16 34 23 27 32 18 22 64 61 84 70 88 92 72 77
y关于x的回归方程为y=0.118129 +
0.003585x表示运输距离每增加1公里,
运送时间平均增加 0.003585天。
14
• 11.6 下面是7个地区2000年的人均国内生产总值 (GDP)和人均消费水平的统计数据:
地区
北京 辽宁 上海 江西 河南 贵州 陕西
人均GDP(元)
22 460 11 226 34 547 4 851 5 444 2 662 4 549
13
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义
最小二乘估计:y^= ^0+ ^1 x
n
n
xiyi n
n xi
yi
ˆ
1
i1
i1 i1
n
n
xi2 n
2 xi
i1
i1
ˆ0 yˆ1x
{ 将表中数据代入公式得:
=0.003585
=0.118129
∴y=0.118129 + 0.003585x
r=0.8621
8
11.3、根据一组数据建立的线性回归方程 要求:
ˆ 11) )解解释释截斜距 率0 的 意ˆ 1 义的。意义。
2)当=6时的E(y)
yˆ100.5xˆ
1)表示在没有自变量X的影响时其他各种因素对因变 量Y的影响为10 2)斜率的意义在于:自变量X变化对Y影响程度。回 归方程中,当x增加一个单位时,y将减少0.5个单位。 3)x=6时,代入方程,则,y=10-0.5 6=7
r
n x y x y
n x2 x2 n y2 y2
r 8 ( 2 0 * 6 4 1 6 * 6 1 . . . 2 2 * 7 7 ) ( 2 0 1 6 . . . 2 2 ) * ( 6 4 6 1 . . . 7 7 )
8 * ( 2 0 2 1 6 2 . . . 2 2 2 ) 2 0 1 6 . . . 2 2 2 8 * ( 6 4 2 6 1 2 . . . 7 7 2 ) ( 6 4 6 1 . . . 7 7 )
yˆ=429.897-4.7*x
回归系数 ˆ 1 =-4.7表示航班正点率 每增加1%顾客投诉次数平均下降 4.7次。
26
3)检验回归系数的显著性(a=0.05)
提出假设 H0:b1 = 0 H1:b1 0
计算检验的统计量
n
se
yi yˆi2
i1
n2
SSE 3035.96519.449
n2
8
某地区的人均GDP为5 000元,预测其人均消费 水平为2278.1078元。
21
(7)求人均GDP为5 000元时,人均消费水平95%的置信区 间和预测区间。
解:已知n=7,t(7-2)=2.5706
n
se
yiy ˆi2
i 1
SSE305795.034361159.007
n2 n2
5
置信区间为
人均消费水平(元)
7 326 4 490 11 546 2 396 2 208 1 608 2 035
15
要求: (1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并
说明二者之间的关系形态。
人均消费水平
14000 12000 10000
8000 6000 4000 2000
0 0
系列1
10000
140
185
2
(1)绘制产量与生产费用的散点图,判断二者之间的关系形态。
费用
产量与生产费用
200 180 160 140 120 100 80 60 40 20
0 0
20
40
60
80
100
120
140
产量
产量和费用存在正的线性相关系数
系列1 160
3
2)计算产量与生产费用之间的线性相关系数。
r
n x y x y
航空公司 航班正点 顾客投诉
编号
率
次数
1
81.1
21
2
76.6
58
3
76.6
85
4
75.7
68
5
73.8
74
6
72.2
93
7
71.2
72
8
70.8
122
9
91.4
18
10
68.5
125
24
1)绘制散点图,说明二者之间的股息形态
顾客投诉次数
140 120 100
80 60 40 20
0 0
20
40
60
航班正点率
二者之间为负的线性相关关系
系列
80
100
25
2)用航班正点率作自变量,建立估计的回归方程,并解释 回归系数的意义
Intercept 航班正点率
Coefficient s
429.8986352
-4.7011299
标准误差 t Stat P-value
74.97337331 5.734018 0.000437 0.985891202 -4.76841 0.001411
yˆ0 t2(n2)se
1 n
x0 x2
n
xi x2
i1
2 2 7 8 .1 0 7 8 2 .5 7 0 6 * 6 1 1 5 9 .0 0 71 5 0 0 0 4 5 1 5 .5 7 1 4 2
7 1 3 6 2 5 1 2 7 .2 9
1990.74915<E(y)2565.46399
一元线性回归课后习题讲解
--------第九组
1
11.1 从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下:
企业编号 产量(台) 生产费用
1
40
130
2
42
150
3
50
155
4
55
140
5
65
150
6
78
154
7
84
165
8
100
170
9
116
167
10
125
180
11
130
175
12
确定显著性水平=0.05,并根据分子自由度1和分母自 由度7-2找出临界值F =6.61
作出决策:若F>F ,拒绝H0,线性关系显著
20
(6)如果某地区的人均GDP为5 000元,预测其人均消费水平。
y = 7 3 4 .6 9 2 8 + 0 .3 0 8 6 8 3x
y = 7 3 4 . 6 9 2 8 + 0 . 3 0 8 6 8 3 * 5 0 0 0 = 2 2 7 8 . 1 0 7 8
人均GDP对人均消费的影响达到99.6%。
19
(5)检验回归方程线性关系的显著性(a=0.05)。
提出假设
H0:1=0 人均消费水平与人均GDP之间的
线性关系不显著 计算检验统计量F F S S R 1 8 1 4 4 4 9 6 8 .6 81 1 3 3 1 .6 9 2 1
S S E (n 2 ) 3 0 5 7 9 5 .0 3(7 2 )
6
要求:(1)绘制复习时间和考试分数的散点图,判断二者之 间的关系形态。
分数
100 90 80 70 60 50 40 30 20 10 0
0
复
习
时
间
和
考
试
分
数
存
在
来自百度文库
正
的
线
性
5
10 15
20 相 25
30 35
复习时间关关
系
复习时间和考试分数存在正的线性相关关系
系列1 40
7
(2)计算相关系数,说明两个变量之间的关系强度。
sˆ1
se
19.449
0.98589
i n1xi21 n i n1xi 2
20000 人均GDP
30000
40000
产量和生产费用之间存在着正的线性相关关系
16
(2)计算两个变量之间的线性相关系数,说明两个变量之 间的关系强度。
r
n x y x y
n x2 x2 n y2 y2
7 * 6 5 1 0 0 7 4 2 1 2 7 1 0 1 2 4 0 5 1
y = 734.6928 + 0.308683x
回归系数的含义:人均GDP每增加1元,
18
人均消费增加0.309元。
(4)计算判定系数,并解释其意义。
n
n
R2
SSR
yˆi
i1
y2
yi
1i1
yˆ2
SST
n
yi y2
n
yˆi y2
i1
i1
=81444968.68=0.9963 81750763.71
6.0 5.0 4.0 3.0 2.0 1.0 0.0
0
200
400
600
800 1000 1200 1400 1600
运送距离(公里)
根据图表显示,二者可能存在正线性相关关系
12
(2)计算线性相关系数,说明两个变量之间的关系强度
运送距离x 运送时间y
运送距离x
1
运送时间y 0.94894
1
x与y的简单相关系数是0.9489,两 变量之间呈现高度正相关关系
0 .9 9 8 1 2 3
7 * 1 9 0 4 9 1 8 8 6 7 8 5 7 3 9 2 7 * 1 3 4 6 9 0 0 7 6 6 3 1 6 0 9 2
说明两个变量之间高度相关
17
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际 意义。
n
n
xiyi n
xi n
人均GDP为5 000元时,人均消费水平95%的
置信区间为[1990.74915,2565.46399]
22
解:根据前面的计算结果,已知n=7,t(7-2)=2.5706
n
se
yiy ˆi2
i 1
SSE305795.034361159.007
n2 n2
5
预测区间为
2 2 7 8 .1 0 7 8 2 .5 7 0 6 * 6 1 1 5 9 .0 0 71 + 1 5 0 0 0 4 5 1 5 .5 7 1 4 2
运送时间y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形 态 (2)计算线性相关系数,说明两个变量之间的关系强度。 (3)利用最小二乘法求出估计的回归方程,并解释回归系数的实 际意义。
11
运送时间(天)
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态
n x2 x2 n y2 y2
r 1 2 ( 4 0 * 1 3 0 4 2 * 1 5 0 . . . 1 4 0 * 1 8 5 ) ( 4 0 4 2 . . . 1 4 0 ) * ( 1 3 0 1 5 0 . . . 1 8 5 )
1 2 * ( 4 0 2 4 2 2 . . . 1 4 0 2 ) 2 0 1 6 2 2 2 1 2 * ( 1 3 0 2 1 5 0 2 . . . 1 8 5 ) ( 1 3 0 1 5 0 . . . 1 8 5 ) 2
i1
n2
SSE 4 0.5 182 16
表示实际值与估计值之间的差异程度是0.5
10
11.5一家物流公司的管理人员想研究货物的运输距离和运输时 间的关系,为此,他抽出了公司最近10个卡车的运货记录的随 机样本,得到运送距离(单位:km)和运送时间(单位:天) 的数据如下表:
运送距离x 825 215 1070 550 480 920 1350 325 670 1215
yi
ˆ 1
i1
i1 i1
n
n
xi2
n
2
xi
i1
i1
ˆ0 yˆ1x
ˆ17 7 * * 6 1 5 9 1 0 0 4 0 9 7 1 4 8 2 8 1 6 7 2 7 1 8 0 5 1 7 2 3 4 9 0 5 21= 0 .3 0 8 6 8 3
ˆ 0 4 5 1 5 .5 7 1 4 2 9 0 .3 0 8 6 8 3 * 1 2 2 4 8 .4 2 8
r=0.9202
4
(3)对相关系数的显著性进行检验( =0.05),并说明二者之
间的关系强度。
1、提出假设:H0: ;H1: 0
2、计算检验的统计量
t r
n2 1r2
~t(n2)
t0.9202 122 7.435453 10.92022
t(12-2)=2.2281
根据显著性水平=0.05,查t分布表得t(n2)=2.2281由于t=7.435453>t(12-2)=2.2281, 拒绝H0,产量与生产费用之间存在着显著的正线性
9
11.4 设SSR=36,SSE=4,n=18 要求:1)计算判定系数R^2并解释其意义
R 2SSR SSR 360.9 SST SSTSSE 40
回归直线对观测值的拟合程度为0.9,说明变量Y的 变异性中有90%是由自变量x引起的。
2)计算估计标准误差s e 并解释其意义
n
se
yi yˆi2
7 1 3 6 2 5 1 2 7 .2 9
1 5 8 0 .4 6 3 1 5 E ( y 0 ) 2 9 7 5 .7 4 9 9 9
人均GDP为5 000元时,人均消费水平95%的预 测区间为[1580.46315,2975.74999]。
23
11.7随机抽取10家航空 公司,对其近一年的航 班正点率和顾客投诉次 数进行调查,所得数据 如下
相关关系
5
11.2 学生在期末考试之前用于复习的时间(单位:小时)和考 试分数(单位:分)之间是否有关系?为研究这一问题,一位 研究者抽取了由8名学生构成的一个随机样本,取得的数据如 下:
复习 时间X
考试 分数Y
20 16 34 23 27 32 18 22 64 61 84 70 88 92 72 77
y关于x的回归方程为y=0.118129 +
0.003585x表示运输距离每增加1公里,
运送时间平均增加 0.003585天。
14
• 11.6 下面是7个地区2000年的人均国内生产总值 (GDP)和人均消费水平的统计数据:
地区
北京 辽宁 上海 江西 河南 贵州 陕西
人均GDP(元)
22 460 11 226 34 547 4 851 5 444 2 662 4 549
13
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义
最小二乘估计:y^= ^0+ ^1 x
n
n
xiyi n
n xi
yi
ˆ
1
i1
i1 i1
n
n
xi2 n
2 xi
i1
i1
ˆ0 yˆ1x
{ 将表中数据代入公式得:
=0.003585
=0.118129
∴y=0.118129 + 0.003585x
r=0.8621
8
11.3、根据一组数据建立的线性回归方程 要求:
ˆ 11) )解解释释截斜距 率0 的 意ˆ 1 义的。意义。
2)当=6时的E(y)
yˆ100.5xˆ
1)表示在没有自变量X的影响时其他各种因素对因变 量Y的影响为10 2)斜率的意义在于:自变量X变化对Y影响程度。回 归方程中,当x增加一个单位时,y将减少0.5个单位。 3)x=6时,代入方程,则,y=10-0.5 6=7
r
n x y x y
n x2 x2 n y2 y2
r 8 ( 2 0 * 6 4 1 6 * 6 1 . . . 2 2 * 7 7 ) ( 2 0 1 6 . . . 2 2 ) * ( 6 4 6 1 . . . 7 7 )
8 * ( 2 0 2 1 6 2 . . . 2 2 2 ) 2 0 1 6 . . . 2 2 2 8 * ( 6 4 2 6 1 2 . . . 7 7 2 ) ( 6 4 6 1 . . . 7 7 )
yˆ=429.897-4.7*x
回归系数 ˆ 1 =-4.7表示航班正点率 每增加1%顾客投诉次数平均下降 4.7次。
26
3)检验回归系数的显著性(a=0.05)
提出假设 H0:b1 = 0 H1:b1 0
计算检验的统计量
n
se
yi yˆi2
i1
n2
SSE 3035.96519.449
n2
8
某地区的人均GDP为5 000元,预测其人均消费 水平为2278.1078元。
21
(7)求人均GDP为5 000元时,人均消费水平95%的置信区 间和预测区间。
解:已知n=7,t(7-2)=2.5706
n
se
yiy ˆi2
i 1
SSE305795.034361159.007
n2 n2
5
置信区间为
人均消费水平(元)
7 326 4 490 11 546 2 396 2 208 1 608 2 035
15
要求: (1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并
说明二者之间的关系形态。
人均消费水平
14000 12000 10000
8000 6000 4000 2000
0 0
系列1
10000
140
185
2
(1)绘制产量与生产费用的散点图,判断二者之间的关系形态。
费用
产量与生产费用
200 180 160 140 120 100 80 60 40 20
0 0
20
40
60
80
100
120
140
产量
产量和费用存在正的线性相关系数
系列1 160
3
2)计算产量与生产费用之间的线性相关系数。
r
n x y x y
航空公司 航班正点 顾客投诉
编号
率
次数
1
81.1
21
2
76.6
58
3
76.6
85
4
75.7
68
5
73.8
74
6
72.2
93
7
71.2
72
8
70.8
122
9
91.4
18
10
68.5
125
24
1)绘制散点图,说明二者之间的股息形态
顾客投诉次数
140 120 100
80 60 40 20
0 0
20
40
60
航班正点率
二者之间为负的线性相关关系
系列
80
100
25
2)用航班正点率作自变量,建立估计的回归方程,并解释 回归系数的意义
Intercept 航班正点率
Coefficient s
429.8986352
-4.7011299
标准误差 t Stat P-value
74.97337331 5.734018 0.000437 0.985891202 -4.76841 0.001411
yˆ0 t2(n2)se
1 n
x0 x2
n
xi x2
i1
2 2 7 8 .1 0 7 8 2 .5 7 0 6 * 6 1 1 5 9 .0 0 71 5 0 0 0 4 5 1 5 .5 7 1 4 2
7 1 3 6 2 5 1 2 7 .2 9
1990.74915<E(y)2565.46399
一元线性回归课后习题讲解
--------第九组
1
11.1 从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下:
企业编号 产量(台) 生产费用
1
40
130
2
42
150
3
50
155
4
55
140
5
65
150
6
78
154
7
84
165
8
100
170
9
116
167
10
125
180
11
130
175
12
确定显著性水平=0.05,并根据分子自由度1和分母自 由度7-2找出临界值F =6.61
作出决策:若F>F ,拒绝H0,线性关系显著
20
(6)如果某地区的人均GDP为5 000元,预测其人均消费水平。
y = 7 3 4 .6 9 2 8 + 0 .3 0 8 6 8 3x
y = 7 3 4 . 6 9 2 8 + 0 . 3 0 8 6 8 3 * 5 0 0 0 = 2 2 7 8 . 1 0 7 8
人均GDP对人均消费的影响达到99.6%。
19
(5)检验回归方程线性关系的显著性(a=0.05)。
提出假设
H0:1=0 人均消费水平与人均GDP之间的
线性关系不显著 计算检验统计量F F S S R 1 8 1 4 4 4 9 6 8 .6 81 1 3 3 1 .6 9 2 1
S S E (n 2 ) 3 0 5 7 9 5 .0 3(7 2 )
6
要求:(1)绘制复习时间和考试分数的散点图,判断二者之 间的关系形态。
分数
100 90 80 70 60 50 40 30 20 10 0
0
复
习
时
间
和
考
试
分
数
存
在
来自百度文库
正
的
线
性
5
10 15
20 相 25
30 35
复习时间关关
系
复习时间和考试分数存在正的线性相关关系
系列1 40
7
(2)计算相关系数,说明两个变量之间的关系强度。
sˆ1
se
19.449
0.98589
i n1xi21 n i n1xi 2
20000 人均GDP
30000
40000
产量和生产费用之间存在着正的线性相关关系
16
(2)计算两个变量之间的线性相关系数,说明两个变量之 间的关系强度。
r
n x y x y
n x2 x2 n y2 y2
7 * 6 5 1 0 0 7 4 2 1 2 7 1 0 1 2 4 0 5 1