第一课时 一元线性回归模型及其参数的最小二乘估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解析 由题意得-x=3+4+4 5+6=4.5, -y=25+30+4 40+45=35. ∵回归直线方程^y=b^x+a^中b^=7,∴35=7×4.5+a^,解得a^=3.5, ∴^y=7x+3.5. ∴当 x=10 时,^y=7×10+3.5=73.5(万元). 答案 73.5
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
x2i
4
16
25
36
64
-x=5,-y=50,i=∑5 1x2i =145,i=∑5 1xiyi=1 380
5
∑xiyi-5-x
-
y
于是可得,b^=i=15
∑xi2-5-x 2
【训练2】 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四 次实验,得到的数据如下:
零件的个数x(个) 加工的时间y(h)
23 2.5 3
45 4 4.5
(1)已知零件个数与加工时间线性相关,求出y关于x的线性回归方程; (2)试预测加工10个零件需要多少时间?
4
解 (1)由表中数据,得∑xiyi=2×2.5+3×3+4×4+5×4.5=52.5, i=1
【迁移2】 (变条件,变设问)本例中近似方程不变,每小时生产有缺点的零件件数是 7,估计机器的转速. 解 因为 y=5710x-67,所以当 y=7 时,7=5710x-67,解得 x≈11,即估计机器的转速约为 11 转/秒.
规律方法 本题已知y与x是线性相关关系,所以可求出回归方程进行估计和预测.否 则,若两个变量不具备相关关系或它们之间的相关关系不显著,即使求出回归方程也 毫无意义.
(2)近似直线如图所示: (3)由 y≤10 得5710x-67≤10,解得 x≤14.9,所以机器的运转速度应控制在 14 转/秒内.
【迁移1】 (变条件,变设问)本例中近似方程不变,若每增加一个单位的转速,生产 有缺点的零件数近似增加多少?
解 因为 y=5710x-67,所以当 x 增加一个单位时,y 大约增加5710,即每增加一个单位的 转速,生产有缺点的零件数近似增加 1 个.
3.利用回归方程,我们可以进行估计和预测.若回归方程为^y=b^x+a^,则在 x=x0 处的 估计值为^y0=b^x0+a^ .
二、素养训练 1.工人工资 y(元)与劳动生产率 x(千元)的线性回归方程为^y=50+80x,下列判断正确的
是( ) A.劳动生产率为 1 000 元时,工人工资为 130 元 B.劳动生产率提高 1 000 元时,工人工资平均提高 80 元 C.劳动生产率提高 1 000 元时,工人工资平均提高 130 元 D.当月工资为 250 元时,劳动生产率为 2 000 元
答案 AD
2.某地区近十年居民的年收入 x 与支出 y 之间的关系大致符合^y=0.8x+0.1(单位:亿元), 预计今年该地区居民收入为 15 亿元,则年支出估计是__________亿元. 解析 ∵^y=0.8x+0.1, ∴^y=0.8×15+0.1=12.1(亿元).
答案 12.1
[微思考] 1.任何一组数据都可以由最小二乘法得出回归直线方程吗?
(2)加工10个零件时,大约需要0.7×10+1.05=8.05(小时).
一、素养落地 1.通过本节课的学习,提升数学抽象素养及数据分析素养. 2.求线性回归方程时应注意的问题
(1)知道 x 与 y 成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验.如 果两个变量之间本身不具有相关关系,或者说它们之间的相关关系不显著,即使求出 线性回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的. (2)用公式计算a^,b^的值时,要先计算b^,然后才能算出a^.
4
∑x2i =22+32+42+52=54,
i=1
-x=2+3+4 4+5=3.5, -y=2.5+3+4 4+4.5=3.5. ∴b^=52.55-4-4×4×3.35.×52 3.5=0.7.
∴a^=-y-b^-x=3.5-0.7×3.5=1.05. ∴y 关于 x 的线性回归方程为^y=0.7x+1.05.
题型一 求回归直线方程 【例1】 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y23 5
6
(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出 y 关于 x 的程,预测记忆力为9的同学的判断力. 解 (1)如图: 样本点分布在一条直线附近,y与x具有线性相关关系.
提示 用最小二乘法求回归直线方程的前提是先判断所给数据具有线性相关 关系(可利用散点图来判断),否则求出的回归直线方程无意义. 2.根据a^=-y-b^-x及回归直线方程^y=b^x+a^,判断点(-x,-y)与回归直线的关系是什么? 提示 由a^=-y-b^-x得-y=b^-x+a^,因此点(-x,-y)在回归直线上.
=1 318405--55××55×2 50=6.5,a^=-y-b^-x=50-6.5×5=17.5.
i=1
于是所求的回归直线方程是^y=6.5x+17.5.
题型二 利用回归直线方程对总体进行估计 【例2】 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产
有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验的结果:
8.2 一元线性回归模型及其应用 8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计 第一课时 一元线性回归模型及其参数的最小二乘估计
课标要求 1.结合具体实例,了解一元线 性回归模型的含义. 2.了解模型参数的统计意义, 了解最小二乘原理.
素养要求
通过学习一元线性回归模型的 含义,体会数学抽象及数据分 析素养.
规律方法 求线性回归方程的一般步骤 (1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出). (2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格 xi,yi,x2i ,xiyi.
(4)计算-x,-y,∑n x2i ,∑n xiyi.
i=1
i=1
(5)代入公式计算b^,a^,公式为b^=i∑=n1∑xniyxi-2i -nn-x-x2-y ,
2.线性回归方程与最小二乘法 回归直线方程过样本点的中心(-x,-y),是回归直线方程最常用的一个特征
我们将^y=b^x+a^称为 Y 关于 x 的线性回归方程,也称经验回归函数或经验回归公式,其 图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的b^,a^叫做 b,a 的最小二乘估计(least squares estimate ), 其中
答案 D
3.设有一个回归方程为^y=-1.5x+2,则变量 x 增加一个单位时( ) A.y 平均增加 1.5 个单位 B.y 平均增加 2 个单位 C.y 平均减少 1.5 个单位 D.y 平均减少 2 个单位
解析 ∵两个变量线性负相关,∴变量x增加一个单位,y平均减少1.5个单位. 答案 C
4 . 已 知 回 归 直 线 的 斜 率 的 估 计 值 是 1.23 , 且 过 定 点 (4 , 5) , 则 线 性 回 归 方 程 是 __________. 解析 回归直线的斜率的估计值为 1.23,即b^=1.23,
A.反映^y与 x 之间的函数关系 B.反映 y 与 x 之间的函数关系 C.表示^y与 x 之间不确定关系 D.表示最接近 y 与 x 之间真实关系的一条直线
解析 ^y=b^x+a^表示^y与 x 之间的函数关系,而不是 y 与 x 之间的函数关系,但它反映 的关系最接近 y 与 x 之间的真实关系,∴选 AD.
1.一元线性回归模型 我们称 Y=bx+a+e, E(e)=0,D(e)=σ2
为Y关于x的_一__元__线__性__回__归___模型,其中Y称为因变量或响应变量,x称为自变量或 解释变量;a和b为模型的未知参数,a称为__截__距__参数,b称为_斜__率___参数;e是Y 与bx+a之间的随机_误__差___.
又回归直线过定点(4,5),∴a^=5-1.23×4=0.08, ∴^y=1.23x+0.08.
答案 ^y=1.23x+0.08
5.某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表:
广告费用x/万元 销售额y/万元
3
4
5
6
25
30
40
45
根据上表可得回归直线方程^y=b^x+a^中的b^为 7,据此模型,若广告费用为 10 万元,则 预计销售额为________万元.
i=1
a^=-y-b^-x.
(6)写出线性回归方程^y=b^x+a^.
【训练1】 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有 如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图; (2)求回归直线方程.
解 (1)散点图如图所示. 样本点分布在一条直线附近,y与x具有线性相关关系.
拓展深化 [微判断] 1.两个变量之间产生随机误差的原因仅仅是因为测量工具产生的误差. ( × )
提示 产生随机误差的原因有多种,测量工具和测量精度仅仅是其中的一个方 面.
2.线性回归方程最能代表观测值 x,y 之间的线性关系,且回归直线过样本点的中心(- x,
- y).
( √)
[微训练] 1.(多选题)下列有关回归直线方程^y=b^x+a^叙述正确的是( )
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数
11
9
y(件)
8
5
(1)画出散点图; (2)如果 y 与 x 有线性相关关系,请画出一条直线近似地表示这种线性关系; (3)在实际生产中,若它们的近似方程为 y=5710x-67,允许每小时生产的产品中有缺点的 零件最多为 10 件,那么机器的运转速度应控制在什么范围内? 解 (1)散点图如图所示:
4
(2) ∑xiyi=6×2+8×3+10×5+12×6=158, i=1
-x=6+8+410+12=9, -y=2+3+4 5+6=4,
4
∑x2i =62+82+102+122=344,
i=1
b^=15384-4-4×4×9×92 4=1240=0.7,
a^=-y-b^-x=4-0.7×9=-2.3, 故线性回归方程为^y=0.7x-2.3. (3)由(2)中线性回归方程可知,当 x=9 时,^y=0.7×9-2.3=4,故预测记忆力为 9 的同 学的判断力约为 4.
解析 因为回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率 提高1 000元时,工人工资平均提高80元. 答案 B
2.设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组 样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为^y=0.85x-85.71, 则下列结论中不正确的是( ) A.y 与 x 具有正的线性相关关系 B.回归直线过样本点中心(-x,-y) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg 解析 当 x=170 时,^y=0.85×170-85.71=58.79,体重的估计值为 58.79 kg.
新知探究
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食 物支出占消费总支出的比重,是表示生活水平高低的一个指标.其计算公式:恩格 尔系数=食物支出金额÷总支出金额.
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所占的比 例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支 出所占比例将会下降. 问题 恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时, 我们如何对成对样本数据建立一个模型进行预测? 提示 为了对两个变量线性相关关系进行预测,我们通常建立一元线性回归模型 进行预测.