高中数学人教版选修1-2同课异构教学课件:1.1 回归分析的基本思想及其初步应用 情境互动课型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
bˆ = 0.849是回归直线的斜率的估计值,说明身高x 每增加1个单位,体重y就增加0.849个单位,这表明体重 与身高具有正的线性相关关系.
所以,对身高为172 cm的女大学生,由回归方程可以 预报其体重为
yˆ = 0.849 172 - 85.712 = 60.316(kg).
思考:身高为172cm的女大学生的体重一定是 60.316kg 吗?
eˆi y i yˆ i yi bˆxi aˆ,i 1, 2, ,n, eˆi称为相应于点(xi , yi)的残差.
思考:如何发现数据中的错误?如何衡量模型的拟 合效果?
可以通过残差发现原始数据中的可疑数据,判 断所建立模型的拟合效果.下表列出了女大学生身 高和体重的原始数据以及相应的残差数据.
【即时训练】
在研究身高和体重的关系时,求得相关指数
R 2 __0__.6_4__,可以叙述为“身高解释了64%的
体重变化,而随机误差贡献了剩余的36%”所以身 高对体重的效应比随机误差的效应大得多.
探究点2 回归分析的初步应用
例2 一只红铃虫的产卵数y和温度x有关.现收集了 7组
观测数据列于表1 - 3中,试建立y关于x的回归方程.
由表1 4中的数据得到线性回归方程 zˆ 0.272x 3.849.
因此红铃虫的产卵数对温度的非线性回归方程为
yˆ 1 e . 0.272x3.849 2
另一方面, 可以认为图1.1-5中样本点集中在某二 次曲线y c3x2 c4的附近, 其中c3 和 c4 为待定参数.因此 可以对温度变量做变换,即令t x2 ,然后建立y与t之间 的线性回归方程,从而得到y与x 之间的非线性回归方程.
bˆ i1 n
,
xi x 2
i 1
aˆ = y - bˆ x ,
其中x
=
1 n
n i=1
xi ,y
=
1 n
n i=1
yi. x,y 称为样本点的中心.
在本例中,根据上面的公式,可以得到
bˆ = 0.849,aˆ = -85.712.
于是得到线性回归方程yˆ = 0.849x - 85.712.
0
t
400 500 600 700 800 900 1000 1100 1200 1300
温度的平方
图1.1 7
从图1.1 7中可以看出, y与t的散点图并不分布在一
表1 3 温度x /0 C 21 23 产卵数y / 个 7 11
25 27 29 32 35 21 24 66 115 325
解 : 根 据 收 集 的 数 据 作 散 点 图 ( 1.1- 5) .
产卵数/ 个
350
300
250
200
150
100
50
0 20 22 24 26 28 30 32 34 36
从图1.1 - 1中可以看出,
样本点呈条状分布 ,身高和体
·
体重/kg
重有比 较好的线性相关关系 ,
因此可以用回归直线y = bx + a
来近似刻画它们之间的关系.
身高/cm 图1.11
未 知 参 数 b和 a的 最 小 二 乘 估 计 分 别 为 bˆ 和 aˆ,
其计算公式如下:
n
xi x yi y
在实际应用中,我们用回归方程yˆ bˆx aˆ中 的yˆ估计(1)中的bx a.由于随机误差e y (bx a), 所以eˆ y yˆ是e的估计量.对于样本点
(x1, y1),(x2 , y2 ), , (x n , yn ) 而言,它们的随机误差为
ei yi bxi a,i 1, 2, ,n, 其估计值为
表1 5是 红 铃 虫 的 产 卵 数 和 对 应 的 温 度 的 平 方 ,图 1.1 7是 相 应 的 散 点 图.
表1 5
t 441 529 625 729 841 1024 1225
y 7 11 y
350 300
21 24
66 115 325
250
产
200
卵 150 数 100
50
人均GDP 1200 1510 1870 2210 2570 3000 3670 4500 5430 6100
1.了解回归分析的基本思想. 2.会对两个变量进行回归分析. (重点) 3.明确解决回归模型的基本步骤,并对具体问题进 行回归分析以解决实际应用问题. 4.了解最小二乘法的推导,解释残差变量的含义. 5.了解偏差平方和分解的思想,了解判断刻画模型 拟合效果的方法——相关指数和残差分析. 6.掌握利用计算器求线性回归直线方程参数及相关 系数的方法.(难点)
于 1, 表示回归的效果越好.
在例1中, R 2 0.64, 表明"女大学生的身高解释了64%的 体重变化 ", 或者说 "女大学生的体重差异有64%是由身高引 起的".R 2是常用的选择模型的指标之一,在实际应用中 应该尽量选择R 2大的回归模型.
用身高预报体重时,需要注意下列问题 :
1.回归方程只适用于我们所研究的样本的总体.例如, 不能用女大学生的身高和体重之间的回归方程,描述 女运动员的身高和体重之间的关系.同样,不能用生长 在南方多雨地区的树木的高与直径之间的回归方程, 描述北方干旱地区的树木的高与直径之间的关系.
z bx a(a ln c1, b c2 ) 的周围.这样, 就可以利用线性回归模型来建立y关于x
的非线性回归方程①了.
①当回归方程不是形如 y=bx+a(a,b∈R)时, 称之为非线性回归方
程.
由 表 1 3的 数 据 可 以 得 到 变 换 后 的 样 本 数 据 表 1 4 ,图 1.1 6给出了表1 4中数据的散点图.从图1.1 6中可以
探究点1 回归分析的基本思想
我们知道 ,函数关系是一种确定性关系,而相关关系 是一种非确定性关系.回归分析是对具有相关关系的两 个变量进行统计分析的一种常用方法.在之前的学习中, 我们对两个具有线性相关关系的变量利用回归分析的方 法进行了研究 ,其步骤为画散 点图 ,求回归直线方程 ,并用 回归直线方程进行预报.
的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈 线性关系,则选用线性回归方程).
(4)按一定规则( 如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对 应残差过大,残差呈现不随机的规律性等).若存在异常, 则检查数据是否有误,或模型是否合适等.
线性回归模型(1)与我们熟悉的一次函数模型 的不同之处是增加了随机误差项e,因变量y的值由 自变量x和随机误差e共同确定,即自变量x只能解释 部分y的变化.在统计中,我们也把自变量x称为解释 变量,因变量y称为预报变量.
随机
思考:在线性回归模型中,e是用bx + a预报真实值y的 随机误差,它是一个不可观测的量,那么应该怎样研究 随机误差呢?
2.我们所建立的回归方程一般都有时间性.例如, 不 能用20世纪80年代的身高、体重数据所建立的回归 方程, 描述现在的身高和体重之间的关系.
3.样本取值的范围会影响回归方程的适用范围.例如, 我们的回归方程是由女大学生身高和体重的数据建 立的, 那么用它来描述一个人幼儿时期的身高和体 重之间的关系就不恰当.(在回归方程中,解释变量 x的样本的取值范围为155cm~175cm,而用这个方 程计算x 70cm时的y值,显然不合适.)
如果不是,你能解释一下原因吗?
显然身高为172cm的女大学生的体重不一定 是60.316kg,但一般可以认为她的体重在60.316kg 左右.图1.1- 2中的样本点和回归直线的相互位置 说明了这一点.
·
从散点图中还看到,样本点散布在某一条直 线的附近,而不是在一条直线上,所以不能用一次 函数
y = bx + a
来描述它们之间的关系.这时我们把身高和体重 的关系用下面的线性回归模型
y = bx + a + e (1) 来表示,其中a和b为模型的未知参数,e称为随 机误差.
思 考 :产 生 随 机 误 差 项 e的 原 因 是 什 么 ?
实际上 ,一个人的体重值除了受身高的影响外, 还受许多其他因素的影响 .例如,饮食习惯、是否喜 欢运动、度量误差等.另外 ,我们选用的线性模型往 往只是一种近似的模型 .所有这些因素都会导致随 机误差项e的产生.
看出, 变换后的样本点分布在一条直线的附近,因此可以
用线性回归方程来拟合.
表1 4
x 21 23 25 27 29 32 35
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
z 产卵数的对数
7
6
5
4
3
2
1
0 20
22
24
26
28
30
32
34
温度
36 x
图1.1 6
第一章 统计案例
1.1 回归分析的基本思想及其初步应用
为农村居民建立健康档案管理系统
标准体重表的制作
假设某地区从2003年到2012 年的人均GDP(单位/美元) 数据如图:
能否根据提供的数据,建立 一个合适的模型,预报2014 年(或2015年)的人均GDP是 多少?
年份 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
残差
编号
图1.1 4
从图1.1-4中可以看出,第1个样本点和第6个样本 点的残差比较大,需要确认在采集这两个样本点的过程 中是否有人为的错误.如果数据采集有错误,就予以纠 正,然后再重新利用线性回归模型拟合数据;如果数据 采集没有错误,则需要寻找其他的原因.另外,残差点 比较均匀地落在水平的带状区域中,说明选用的模型比 较合适.这样的带状区域的宽度越窄,说明模型拟合精 度越高,回归方程的预报精度越高.
另外, 我们还可以用相关指数R2来刻画回归的效果,
n
yi yˆi 2
其计算公式是 : R2
1
i 1 n
.
yi y 2
i 1
显然, R2取值越大,意味着残差平方和越小,也就
是说模型的拟合效果越好.在线性回归模型中, R 2 表
示解释变量对于预报变量变化的贡献率. R2 越 接近
图1.1 5
温度/℃
在图1.1 5中,样本点并没有分布在某个带状区域
内,因此两个变量不呈线 性 相关关系, 不能直接利用线
性回归方程来建立两个变量之间的关系.
根据已有的函数知识,可以发现样本点分布在
某一条指数函数曲线y
c1ec2x的周围,
其中c1和c
是
2
待定参数.
现在,问题变为如何估计待定参数c1和c2 .我们可 以通过对数变换把指数关系变为线性关系,令z ln y, 则变换后样本点应该分布在直线
编号
1
23
4
56
78
身高/ cm 165 165 157 170 175 165 155 170
体重 / kg 48 57 50 54 64 61 43 59
残 差eˆ 6.373 2.627 2.419 4.618 1.137 6.627 2.883 0.382
我们可以利用图形来分析残差特性.作图时纵 坐标为残差, 横坐标可以选为样本编号,或身高数据,或 体重估计值等,这样作出的图形为残差图.下图 是以 样本编号为横坐标的残差图.
例1 从某大学中随机选取8名女大学生,其身高和体 重数据如下表 所示.
编号 1 2 3 4 5 6 7 8 身 高/ cm 165 165 157 170 175 165 155 170 体 重 / kg 48 57 50 54 64 61 43 59
求根据女大学生的身高预报体重的回归方程, 并预报一名身高为172 cm的女大学生的体重. 解 : 由 于 问 题 中 要 求 根 据 身 高 预 报 体 重 ,因 此 选 取 身 高为自变量 x ,体重为因变量 y .作散点图(图1.1 - 1):
4.不 能 期 望 回 归 方 程 得 到 的 预 报 值 就 是 预 报 变 量 的 精 确 值 .事 实 上 , 它 是 预 报 变 量 的 可 能 取 值 的 平 均 值 .
一 般 地 ,建 立 回 归 模 型 的 基 本 步 骤 为 :
( 1 )确 定 研 究 对 象 ,明 确 哪 个 变 量 是 解 释 变 量 ,哪 个 变 量是预报变量. (2)画出解释变量和预报变量的散点图,观察它们之间