一元线性回归模型及其应用 高中数学例题课后习题详解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章成对数据的统计分析
8.2
一元线性回归模型及其应用
8.2.1一元线性回归模型
练习
1.说明函数模型与回归模型的区别,并分别举出两个应用函数模型和回归模型的例子.
2.在一元线性回归模型(1)中,参数b 的含义是什么?
3.将图8.2-1中的点按父亲身高的大小次序用折线连起来,所得到的图象是一个折线图,可以用这条折线表示儿子身高和父亲身高之间的关系吗?
8.2.2一元线性回归模型参数的最小二乘估计
练习
1.对一元线性回归模型参数a 和b 的估计中,有人认为:“估计方法不止一种,根据不同的样本观测数据到直线‘整体接近程度’的定义,可以得到参数a 和b 不同的估计,只要‘整体接近程度’定义合理即可.”你觉得这个说法对吗?
2.假如女儿身高y (单位:cm )关于父亲身高x (单位:cm )的经验回归方程为
ˆ0.8125.82y
x =+.已知父亲身高为175cm ,请估计女儿的身高.3.根据8.1.1节表8.1-1中的数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
4.计算表8.2-2中的所有残差之和,你能发现什么规律?
5.假设变量x 与变量Y 的n 对观测数据为()11,x y ,(
)
22,x y ,…,(),n n x y ,两个变量满足一元线性回归模型2()0,()Y bx e
E e D e σ=+⎧⎨==⎩
.请写出参数b 的最小二乘估计.
例
经验表明,一般树的胸径(树的主干在地面以上1.3m 处的直径)越大,树就越高.由于
测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表8.2-3),试根据这些数据建立树高关于胸径的经验回归方程.表8.2-3编号
1
2
3
4
5
6
胸径/cm18.120.122.224.426.028.3
树高/m18.819.221.02L022.122.1
编号789101112
胸径/cm29.632.433.735.738.340.2
树高/m22.422.623.024.3;23.924.7
分析:因为要由胸径预测树高,所以要以成对样本数据的胸径为横坐标、树高为纵坐标描出散点,进而得到散点图,再根据散点图判断树高与胸径是否线性相关.如果是,再利用公式(2)计算出b , a即可.
解:以胸径为横坐标、树高为纵坐标作散点图,得到图8.2-9.
图8.2-9
在图8.2-9中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径,h表示树高,根据最小二乘法,计算可得经验回归方程为
ˆ0.249314.84
=+,
h d
相应的经验回归直线如图8.2-10所示.
图8.2-10
根据经验回归方程,由表8.2-3中胸径的数据可以计算出树高的预测值(精确到0.1)以及
相应的残差,如表8.2-4所示.
表8.2-4
编号胸径/cm树高观测值/m树高预测值/m残差/m
118.118.819.4-0.6
220.119.219.9-0.7
322.221.020.40.6
424.421.020.90.1
526.022.121.30.8
628.322.121.90.2
729.622.422.20.2
832.422.622.9-0.3
933.723.023.2-0.2
1035.724.323.70.6
1138.323.9244-0.5
1240.224.724.90.2
以胸径为横坐标,残差为纵坐标,作残差图,得到图8.2-11.
图8.2-11
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
练习
1.在回归分析中,分析残差能够帮助我们解决哪些问题?
2.1997~2006年中国的国内生产总值(GDP)的数据如下:
年份GDP/亿元年份GDP/亿元
199779715.020********.4
199885195.52003137422.0
199990564.42004161840.2
2000100280.12005187318.9
2001110863.12006219438.5
(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;
(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP 的误差是多少;
(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由
(5)随着时间的发展,又收集到2007~2016年的GDP数据如下:
年份GDP/亿元年份GDP/亿元
2007270232.32012540367.4
2008319515.52013595244.4
2009349081.42014643974.0
2010413030.32015689052.1
2011489300.62016744127.2
建立年份(1997~2016)为解释变量,GDP为响应变量的经验回归方程,并预测2017年的GDP,与实际的GDP误差是多少?你能发现什么?
习题8.2
复习巩固
1.如果散点图中所有的散点都落在一条斜率为非0的直线上,请回答下列问题:(1)解释变量和响应变量的关系是什么?(2)2R 是多少?
【答案】(1)线性函数关系(2)1【解析】
【分析】(1)根据题意得到解释变量和响应变量的关系是线性函数关系;(2)由(1)知:21R =【小问1详解】
因为散点图中所有的散点都落在一条斜率为非0的直线上,所以解释变量和响应变量的关系是线性函数关系.【小问2详解】由(1)知:21
R =2.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下表所示.零件数x 个102030405060708090100加工时间y min
62
68
75
81
89
95
102
108
115
122
(1)画出散点图;
(2)建立加工时间关于零件数的一元线性回归模型(精确到0.001);(3)关于加工零件的个数与加工时间,你能得出什么结论?【答案】(1)散点图见解析(2) 0.66854.933
y x =+(3)每多加工1个零件,需要增加0.668分钟加工时间.【解析】
【分析】(1)根据表格提供数据画出散点图.
(2)根据回归直线方程计算公式,计算出回归直线方程.(3)根据回归直线方程作出判断.
【小问1详解】画出散点图如下图所示:
【小问
2详解】
55,91.7x y ==,
()()
(
)
10
1
10
2
1
5515
0.6688250
i
i
i i i x x y y b
x x
==--==
≈-∑∑ , 551591.75554.9338250a
y b x =-⋅=-⨯≈ ,所以 0.66854.933y x =+.【小问3详解】
根据回归直线方程可知:每多加工1个零件,需要增加0.668分钟加工时间.
综合运用
3.人口问题是关乎国计民生的大问题.下表是1949~2016年中国的人口总数(摘自《中国统计年鉴2017》).年份总人口/万人年份总人口万人年份总人口万人194954167198210165420001267431950
55196
1983
103008
2001
127627
19515630019841043572002128453195561465198510585120031292271960662071986107507200129988196572538198710930020051307561970829921988111026200613144819718522919891127042007132129197287177199011433320081328021973892111991115823200913345019749085919921171712010134091197592420199311851720111347351976937171994119850201213540419779497419951211212013136072197896259199612238920141367821979975421997123626201513746219809870519981247612016
138271
1981
100072
1999
125786
(1)画出散点图;
(2)建立总人口数关于年份的一元线性回归模型;
(3)直接用上面建立的回归模型预测2020年的中国人口总数,得到的结果合理吗?为什么?
【答案】(1)散点图见解析
(2)ˆ1313.472502861.59y x =-,(单位:万人).
(3)答案见解析.【解析】
【分析】(1)描点可作出散点图;
(2)根据线性回归方程的计算公式计算可得答案;
(3)将2020x =代入(2)中的线性回归方程,计算可得答案.【小问1详解】
解:散点图如下图所示:
.
【小问2详解】
解:由表中数据和相关系数()()
n
i
i
x x y y r --=∑54
1
1988.70
54
i
i x
x ==
=∑,
54
1
109231.21
54
i
i y
y ==
=∑,
再代入数据得54
1
()(21715781.32i i i x x y y =--=∑,
21899644==,
因此0.9916r =,是有很强的正相关关系的,
因此设回归直线为ˆˆy
bx a =+,由1
2
1
()()
ˆ()n
i
i i n
i
i x
x y y b x
x ==--=-∑∑, a
y bx =- ,计算得1313.472502861.5ˆˆ9b
a ⎧=⎪⎨=-⎪⎩,因此该回归模型为ˆ1313.472502861.59y x =-,(单位:
万人).【小问3详解】
解:当2020x =时,ˆ1313.4720202582861.57150347.83y =⨯-=(单位:万人),结果计算出来届时我国人口总数为15亿,的确保证了是增长型,但是由于这只是预测,并没有考虑到2020年出现的疫情和相应的政策等,因此难免会有所误差.4.在某地区的一段时间内观测到的不小于某震级x 的地震数N 的数据如下表:震级x 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0地震数N 28381203801479510695764155023842269819191356973
震级x 5.2 5.4 5.6 5.8 6.0 6.2 6.4 6.6 6.87.0地震数N
746
604
435
274
206
148
98
57
41
25
试建立经验回归方程表示二者之间的关系,该模型对预测地震有帮助吗?( a 、b 精确到整数,相关系数精确到0.001)
【答案】 489929296N x =-+,该模型对预测地震有帮助.【解析】
【分析】根据回归直线方程计算公式,计算出回归直线方程,并作出判断.【详解】5,4801x N =≈,
()()
()
21
1
212
1
150886.6
489930.8
i i
i i
i x x N
N
b
x x ==---==
≈--∑∑ ,
150886.6480152929630.8
a
N b x -=-⋅=-⨯≈ ,
所以 489929296N
x =-+.该模型对预测地震是有帮助:①
回归直线方程显示,当x 增大时, N 减小,与表格提供的实际数据的变化趋势相同,所以该模型对预测地震有帮助.
②()()
21
0.789i
i
x x N
N
r --=
-∑,0.75r
>,这表
明x 与N 有很强的线性相关关系,从而也表明建立的回归模型是有意义的、有帮助的.
拓广探索
5.生活中有许多变量之间的关系是值得我们去研究的.例如,数学成绩、物理成绩和化学成绩两两之间是相关的吗?哪两个学科成绩之间相关性更大,你能解释其中的原因吗?语文成绩对数学成绩有影响吗?等等,请用你们班的某次考试成绩,研究它们之间的关系.如果它们之间有关系,请建立统计模型进行分析.【答案】。