高中数学新人教B版选修1-2回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析
1.
线性回归模型
在回归直线方程y =bx + a 中
n
______
' x i y i — nx y
i = 1
y —— y ——
,a = y — b x .
n
—
、x 2 —代1 2
i = 1
1 n — 1 n
其中x = -v x i , y = 一Vy i, ( x , y )称为样本点的中心.
n i = 1
n i = 1
2. 线性相关性检验
(1) 对于变量x 与Y 随机抽取到的n 对数据(X 1, y 1),(X 2, y 2)…,(X n , y n ),检验统计量是 样本相关系数
刀 0i — x 加一y ) 寸刀0— x 徑(y
j —
y $
刀 X i y i — n x y
''刀x 2 — n x 2 E y i 2— n y 2
r 具有以下性质:|r|w 1,并且r 越接近1,线性相关程度越强;|r|越接近0,线性相关 程度越弱. 2 检验步骤如下: ① 作统计假设:x 与Y 不具有线性相关关系.
② 根据小概率0.05与n — 2在附表中查岀r 的一个临界值「。
皿
③ 根据样本相关系数计算公式算出 r 的值.
④
作出统计推断.如果|r|>r °05,表明有95%把握认为x 与Y 之间具有线性相关关系. 如果辿型,
我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.
[归纳*升华.领悟] --------------------------------- '
1•线性回归分析的方法、步骤
(1) 确定研究对象,明确是求哪一个变量对哪一个变量的回归方程. (2) 画散点图或计算相关系数 r ,判断两个变量之间是否线性相关.
恬*辿盲瓷匕叮m.咅[对应学生用书P6]
1.2
i 邛一 x y - y
⑶若两变量线性相关,可用公式计算
b , a 的值.
(4)写出线性回归方程,利用它来预测一些变量的对应值.
2 •在求线性回归直线方程时,要先判断两变量的相关性,否则求出的回归直线方程, 可能没有任何意义.
LZSI
|
回归直线方程
[例1]假设某设备的使用年限 x(年)和所支出的维修费用
Y(万元)有如下的统计资料: x 2 3 4 5 6 Y
2.2
3.8
5.5
6.5
7.0
试求:
(1)Y 对x 的回归直线方程;
(2)当使用年限为10年时,估计维修费用是多少?
[思路点拨]先作出散点图,再根据散点图分析支出的维修费用与使用年限是否线性相
关,若相关,再利用线性回归方程求解,最后根据求得的方程估计
[精解详析](1)根据表中数据作散点图,如图所示:
y
呂
7 5 4 3 2 1 °C
从散点图可以看出,样本点都集中分布在一条直线附近, 因此Y 与x 之间具有线性相关 关系•禾U
用题中数据得:
1
2 3 4 5 X i 2 3 4 5 6 y i 2.2 3.8 5.5 6.5 7.0 X i y i
4.4 11.4 22.0 32.5 42.0 2 X i
4
9
16
25
36
离龌琴点题组化.名师一点就通
[对应学生用书
P6]
10年时的维修费用. BA W0
比「、「A S X i y i— 5 x y112.3 5 4 5
所以b= —5 = l = 1.23,
戸 3 4 5 x 290 —5 x 4
厶x i — 5 x
1=1
A _ A _
a= y —b x = 5 —1.23 x 4= 0.08,
•••线性回归方程为y= 1.23x + 0.08.
(2)当x= 10时,y= 1.23x 10+ 0.08= 12.38(万元),即当使用10年时,估计维修费用是12.38万元.
[一点通]求回归直线方程的步骤:
(1)作出散点图,从直观上分析相关关系;
__ __ n n
⑵计算x , y ,二X2,' X i y i ;
i= 1 i =1
(3) 代入公式计算a, b的值;
(4) 写出回归方程.
必处龜値弟剎公%
1. (辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回
归直线方程:y= 0.254x + 0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支
出平均增加万元.
解析:以x+ 1代替x,得A= 0.254(x+ 1) + 0.321,与y= 0.254x+ 0.321相减得年饮食支出平均增加0.254万元.
答案:0.254
2. 某班5名学生的数学和物理成绩如下表:
3 画出散点图;
4 求物理成绩Y对数学成绩x的回归直线方程;
⑶一名学生的数学成绩是96,试预测他的物理成绩.
解: (1)如图所示.
5 _ _
90
80- .
70- •
t )0-
• •
•
50 L L I J J J I
.
55 60 65 70 75 80 85 9D x
1
⑵因为 x = 5X (88+ 76+ 73+ 66+ 63) = 73.2, — 1
y =丄X (78 + 65 + 71 + 64 + 61) = 67.8,
5
5
、X i y i = 88 X 78 + 76 X 65 + 73 X 71 + 66 X 64 + 63 X 61= 25 054 ,
i = 1
5
' x 2= 882+ 762+ 732 + 662+ 632= 27 174.
i = 1
a = y —
b x ~67.8 — 0.625 X 73.2= 22.05. 所以Y 对x 的回归直线方程是y = 0.625x + 22.05. ⑶当 x = 96 时,则 y = 0.625X 96 + 22.05~ 82, 即可以预测他的物理成绩是 82.
[
据:
⑵如果Y 与x 之间具有线性相关关系,求 Y 对x 的回归直线方程.
[思路点拨]利用相关系数计算公式求出 r ;
与临界值比较判断其相关性.
5 v
X i y i - 5 x y
i = 1
所以b =
=
Z x 2- 5亍
i = 1
25 054- 5X 73.2X 67.8 27 174-5 X 73.22
0.625,
7
143.56 732 6 3427 268
6
897.5
7 020
7
393.5
7 5207 1107 987
x = 157, y = 45.45,
10 10 10 为并=246 598, X y2= 20 688.75,》x i y i = 71 413.5 i= 1 i = 1 i = 1
10 _
于是' x2- 10V2= 246 598- 10X 1572= 108,
i= 1
10 _
\ y2- 10丁2= 20 688.75 - 10 X 45.452= 31.725 , 匸
1
10 ________________
' X i y—10 x y = 71 413.5- 10 X 157X 45.45= 57 , i = 1
10 _______________
x X i y i - 10 x y
i =1
0.974.
57
.108X 31.725
查相关性检验的临界值表,得“a = 0.632.由于|r|>r°.05,因此认为Y与x之间有较强的线性相关关系.
⑵设Y对x的回归直线方程为y= bx+ 则
10
一X i y i- 10 x y
i =1
A
b=
10 —
、X2- 10^2
i = 1 57
108
0.528,
a= y - b x 疋 45.45 - 0.528X 157=- 37.446,
故所求的Y对x的回归直线方程为y= 0.528x- 37.466.
[一点通]
(1)在研究两个变量之间的关系时,一般通过散点图进行相关性检验,若具备线性相关关
系,再求回归直线方程.
如果两个变量不具备线性相关关系,即使求出回归直线方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
于是所求得的回归方程为: Q = 0.196 h 2.51. (12分)
(2) 回归直线方程能定量地描述两个变量的关系,系数 a , b 刻画了两个变量之间的变化
趋势,其中b 表示x 变化一个单位时,y 的平均变化量•利用回归直线可以对问题进行预测, 由一个变量的变化去推测另一个变量的变化. (3) 线性回归分析中: 相关系数r 的绝对值越大说明y 与x 的线性相关性越强. 3.某种产品的广告费支出 x 与销售额Y(单位:百万元)之间有如下对应数据:
(1) 画出散点图;
(2) 对两个变量进行相关性检
验;
(3) 求回归直线方程. 解:⑴散点图如图所示
70^ •
60 - + 50 • 40 - • 30 - 20・
诃L ..................................... 广告费
O 1^345678 *(右号元)
广一告貴
(2)计算各数据如下:
1 380- 5X 5 X 50
,145 — 5X 52 13 500— 5X 502
0.92,查得 r o 』5= 0.878, r>r o.o5,故有 95%的把握
认为该产品的广告费支出与销售额之间具有线性相关关系.
5 _____
v'x i y i —5 x y
i=1 1 380—5X 5X 50 “
A
-5 ------------- = 2——=6・5 ,
x2—5 廿145- 5 X 52
i =1
a= y —b x = 50 —6.5 X 5= 17.5,
于是所求的回归直线方程是y = 6.5x+ 17.5.
[例3](12
[精解详析]由表中测得的数据可以作出散点图,如图
150
*
100
50 ‘
■
' :i !::■二(4 分)
观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q = m h n(m, n是正的常数)两边取常用对数,
贝U lg Q= lg m + n lg h.
令y = lg Q, x= lg h,那么y= nx+ lg m,
即为线性函数模型y = bx+ a的形式(其中b= n, a = lg m). (6分)
由下面的数据表,用最小二乘法可求得b~2.5 097, a =—0.7 077,所以n~2.51 ,
m~ 0.196.
于是所求得的回归方程为:Q = 0.196 h2.51. (12分)
[一点通]非线性回归问题有时并不给出经验公式•这时我们可以画出已知数据的散点
图,把它与学过的各种函数 (幕函数、指数函数、对数函数等 )图像作比较,挑选一种跟这些 散点拟合得最好的函数, 然后像本例这样,采用适当的变量变换, 把问题化为线性回归分析 问题,使之得到解决•其一般步骤为:
曲us 原婦数据Ct, f )柞出祉点国 恨据散点團,选择恰当的拟合国数 作洽当的变决.捋其粹优成笛性圉 數*求贱性回归方桎
在上面逋一步的星鼬上通i±相应的 菠换,即可释非戦牲回归方程
试建立Y 对x 之间的回归方程.
解:作出变量Y 与x 之间的散点图如图所示.
由图可知变量 Y 与x 近似地呈反比例函数关系.
k 1
设Y = -,令t =-,则Y = kt •由Y 与x 的数据表可得 Y 与t 的数据表:
x x
t
4 2 1 0.
5 0.25 Y
16
12
5
2
1
作出Y 与t 的散点图如图所示
交换
4 •在一次抽样调查中测得样本的 x 0.2
5 0.5 1 2 4 Y
16
12
5
2
1
5个样本点,数值如下表:
y
16
14 12
10 8 6
^6420-864 2 .11 11 IL II -
由图可知Y 与t 呈近似的线性相关关系
_
_
5
5
又 t = 1.55, y = 7.2,、、t i y i = 94.25,
t f = 21.3125.
i = 1
i = 1
94.25 — 5X 1.55X 7.2
21.312 5 — 5X 1.555 6
a = y —
b t = 7.2— 4.134 4 X 1.55疋 0.8, y = 4.134 4t + 0.8.
所以Y 对x 的回归方程是y =詈+ 08
[方法・规律•少结]
1 •求回归直线方程时,一般不直接代入公式计算,可以分别计算公式中的相关部分 (统
计量),从而减少运算出错的可能性.
2•利用回归直线方程求出的值,大多数时候是个预报值,与真实值之间可能有差异, 因为真实值还会受到其他因素的影响.
3•两个变量之间的相关关系的样本相关系数,可用于线性相关的定性检验,衡量是否 线性相关以及线性相关关系的强弱.
5 •关于用最小二乘法求得的变量 Y 对x 的回归直线方程,下列叙述正确的是
( )
A .表示Y 与x 之间的一种确定性关系
B •表示Y 与x 之间的相关关系
C .表示Y 与x 之间的最真实的关系
D •表示Y 与x 之间真实关系的一种效果最好的拟合 解析:线性回归方程能最大可能地反映 Y 与x 之间的真实关系.
答案:D
2・(湖北高考)四名同学根据各自的样本数据研究变量 x , y 之间的相关关系,并求得回 归直线方程,分别得到以下四个结论:
①y 与x 负相关且y = 2.347x — 6.423;②y 与x 负相关且y =— 3.476x + 5.648:③y 与x 正 相关且 y = 5.437X + 8.493 :④ y 与 x 正相关且 y =— 4.326x — 4.578.
〜4.134 4. 5
x
t i y i — 5 t y
i =1
冷- 5T 2
i = 1
课下训练经典化.贵在紬类旁通[对应学生用书
P9]
¥ING VCNG
其中一定不正确的结论的序号是()
A .①②
B .②③
C.③④ D .①④
解析:①中y与x负相关而斜率为正,不正确;④中y与x正相关而斜率为负,不正确.
A.点(2,3) B .点(1.5,4)
C.点(2.5,4) D .点(2.5,5)
解析:回归直线必过样本点的中心, 7 ),即(2.5,4).
答案:C
4. 一位母亲记录了儿子3岁〜9岁的身高.由此建立的身高与年龄的回归模型为y = 7.19x + 73.93.用这个模型预测这个孩子10岁时的身高,则正确的叙述是()
A .身高一定是145.83 cm
B .身高在145.83 cm以上
C.身高在145.83 cm以下
D.身高在145.83 cm左右
解析:当x= 10 时,y= 7.19X 10+ 73.93= 145.83.
答案:D
5. 为了考查两个变量Y与x的线性相关性,测得x, Y的13对数据,若Y与x具有线
性相关关系,则相关系数r绝对值的取值范围是.
解析:相关系数临界值So5= 0.553,所以Y与x若具有线性相关关系,则相关系数r 绝对值的范围是(0.553,1].
答案:(0.553,1]
6. 某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下:
尿汞含量x246810
消光系数Y64138205285360
若Y与x具有线性相关关系,则回归直线方程是.
5 2
解析:由已知表格中的数据,利用科学计算器进行计算得x = 6, y = 210.4, x2= 220,
i =1
5
二缈=7 790 ,
i = 1
' x i y i — 5 x y
i = 1
所以 b = -------------- 36.95, a = y — b x =— 11.3.
5
、
x 2- 5^
i = 1
所以回归直线方程为y =— 11.3+ 36.95x. 答案:y =— 11.3+ 36.95x
7.
下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 x (吨)与相应的生
产能耗Y (吨标准煤)的几组对照数据:
x 3 4 5 6 Y
2.5
3
4
4.5
(1) 请画出上表数据的散点图;
(2)
请根据上表提供的数据,用最小二乘法求出
Y 关于x 的回归直线方程;
(3)
已知该厂技改前100吨甲产品的生产能耗为
90吨标准煤.试根据⑵求出的回归直线
方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤.
(参考数
3X 2.5 + 4 X 3+ 5X 4+ 6X 4.5= 66.5)
解:(1)如下图.
4
(2)^x i y i = 3X 2.5 + 4X 3+ 5 X 4 + 6X 4.5= 66.5,
4
巴 x 2 = 32 + 42 + 52+ 62= 86.
i = 1
66.5 — 4 X 4.5 X 3.5 66.5— 63 .
b = 2 = =(
86 — 4 X 4.5 86 — 81
A ---------- A -----------
a = y —
b x = 3.5— 0.7X 4.5 = 0.35.
因此,所求的回归直线方程为 y = 0.7x + 0.35.
3+ 4+ 5+ 6 4 =4.5 2.5+ 3+ 4 + 4.5
4
=3.5,
⑶根据回归直线方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7 X 100 +
0.35= 70.35,故耗能减少了90—70.35= 19.65(吨).施化肥量对水稻产量影响的试验,
&在7块并排的形状大小相同的试验田上进行施肥,得到如下表所示的一组数据
施化肥量x 15 20 25 30 35 40 45 水稻产量Y
330
345
365
405
445
450
455
试对x 与Y 进行线性回归分析,并预测施化肥量为 50时,水稻的产量为多少?
1 1 解:•/ x = 7X (15 + 20+ 25+ …+ 45) =子 210= 30,
-- 1
y = 7X (330 + 345 +…+ 455)~ 399.3, 々=152+ 202+ …+ 402+ 452= 7 000,
i = 1
'y 2= 3302 + 3452+ …+ 4552= 1 132 725,
i = 1
7
、x i y i = 15X 330+ 20 X 345+ …+ 45X 455 = 87 175,
i = 1
_________ 87 175 — 7X 30 X 399.3 ______
—■— 2 2
,7 000 — 7X 30 1 132 725 — 7X 399.3
=0.973 3.
•••|r|= 0.973 3>0.754,从而有95%的把握认为x 与Y 之间具有线性相关关系. 设Y 对x 的线回归直线方程为 J = a + bx
7 ' x i y i — 7 x y 87 175— 7X 30X 399.3 = 2
7 000— 7 X 30
〜4.746,
• a = y — b x ~ 399.3 — 4.74 6 X 30= 256.9.
•••回归直线方程为 y = 256.9 + 4.746x.
当x = 50时,y = 256.9 + 4.746X 50= 494.2,这就是说当施化肥量为 50时,水稻的产量 大
致接近 494.2.
7
i = 1
'x f — 7x 2
i =1。