31回归分析的基本思想及其初步应用-选修2-3收藏
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本点和回归直线位 的置 相说 互明了这. 一点
由于所有的样本点 线,而 不只 共是散布在某一
线的附,所 近以身高和体重的 可关 用系 下面的线
回归模型来表 : y示bxae,
3
与 函 数 关,在 系回 不归 同模 ,y的 型值 中 x和 由随 机 因
素e共 同 确 ,即x只 定能 解 释 y的部 变,分 因 化此 我 们
2.我们所建立的回 一归 般方 都程 有时 .例间 如 ,不 性 能用 20世纪 80年代的身高体重 建数 立据 的所 回归 方程 ,描述现在的身高 之和 间体 的重 .关系 3.样本取值范围会影响 归回 方程的适用范.例围如, 我们的回归方程是由 大女 学生身高和体重数 建据 立的,那么用它来描述一个 幼人 儿时期的身高和体 重之间的关系就不(恰即当在回归方程,解中释变量
为了衡量预报的,需 精要 度估σ计2的值.一个自然 的想法是通过样本来方估差计总体方.如差何得
到随机变e量 的样本呢 ?由于模型 3或4中的e
隐含在预报变 y中量 ,我们无法精确地把y中 它从 分离出,来 因此也就无法得到变随量e机的样本 .
解决问题的途径样 是本 通的 过估计值来 σ2.估计
根据截距和斜率公 的式 估 1和 计2,可以建立回
5得出结果后分 是析 否残 有(差 个 异图 别 常数据
应残差,或 过残 大差呈现不 律随 性机 等 ),若 的 等 存 规 在异,则 常检查数据,或 是模 否型 有是 误否 . 合
编 号1 2 3 4 5 6 7 8 身/高 cm 161561551771071561551570 体/重 kg4857505464614359 求根据一名女身大高学预生报的她的归体方重 , 程 并预报一名 17身 c2m 的 高女 为大学生 . 的体重
解 由于问题中要求根 据身高预报体重 ,因此选 取身高为自变量 x ,真实 体重为因变量 y .作散点 图 (图3.1 1) :
e ˆi yi y ˆi yi b ˆxi a ˆ,i1 ,2,,n,
e ˆi称 为 相 应 于 点 xi,yi 的
残 差(residual).
表32列出女大学生 重身 的高 原和 始体 数据 相应的残.差数据
编 号1 2 3 4 5 6 7 8
身/高 cm165165 157170175 165155 170 体/重 kg48 5750 54 64 61 43 59 残e ˆ差 6.372.3 622.7 419 4.611.8 136.7 627 2.880.3 382
探究 对于一组具有线性关相系关的数据
x1,y1,x2,y2,,xn,yn,
我们知道其回归方截程距的和斜率的最小
二乘估计公式分:别为
n
xi xyi y
a ˆyb ˆx 1
bˆ i1 n
, 2
xi x2
其
中 x1 n ni1
xi,y
n i1
yi.
i1
x,y称
为 样本点的
中心 .你 能 推 导 出 这公 两式 个?吗 计 算
y
70
65
60
55
50
45
40
x
150 155 160 165 170 175 180
图3.11
从图 3 .1 1中可以看出 ,
y
70
样本点呈条状分布
,身
65
60
高和体 重有比 较好的
55
线性相关关系 ,因此可 以用线 性回归方程 刻
50
45
40
x
150 155 160 165 170 175 180
所以
n
Q α,β yi βxi yβx2nyβxα2 i1
n
n
β2xi x2 2βxi xyi y
i1
i1
n
yi y2 nyβxα2
i1
n
n xi xyi y2
nyβxα2 i1
xi x2βi1
n i1
xi x2
n
xi
i1 n
xyi
y2
n
yi
y2.
xi x2
i1
i1
n
n
yi βxi yβx22yi βxi yβx
i1
i1
yβxαnyβxα2,
n
注意 yi 到 β xiyβ xyβ xα i 1 n
yβxα yiβxiyβx i1
yβ xα nyiβ nxin yβ x
i 1
i 1
y β x α n y n β x n y β x 0 ,
❖ 教学难点:了解常用函数的图象特点,选 择不同的模型建模,并通过比较相关指数 对不同的模型进行比较.
我们知道 ,函数关系是一种确定 性关系 , 而相关关系是一种非确 定性关系 .回归分 析 (regression analysis ) 是对具有相关关 系的两个变量进行统计 分 析的一种常用 方法 .在 《 数学 3 》 中, 我们对两个具有线 性相关关 系的变量利用回归分析 的方法 进行了研究 ,其步骤为画散 点图 ,求回归 直线方程 ,并用回归直线方程进 行预报 .
第三章 统计案例
3.1 回归分析的基本思 其想 初及 步应用
教学目标
❖ 通过典型案例的探究,进一步了解回归分 析的基本思想、方法及初步应用.
❖ 教学重点:通过探究使学生体会有些非线 性模型通过变换可以转化为线性回归模型, 了解在解决实际问题的过程中寻找更好的 模型的方法,了解可用残差分析的方法, 比较两种模型的拟合效果.
拟合精度越高 ,回归方程的预报精确度 越高 .
另 外,我 们 还 可 以 用 相R关 2来指刻数画 回 归 的, 效
n
yi yˆi2
其
计
算
公
式 :R2是1
i1 n
.
yi y2
i1
在含有一个线 解性 释模 变 ,R2型 量 恰中 的 好等于
系r数 的平 . 方
显 然,R2取 值 越,意 大味 着 残 差 平 方,也 和就 越是 小说 模 型 的 拟 合 效.果 在越 线好 性 回 归 模 ,R2型表中示 解 释 变 量 对 于 预 报化变的量贡变献 .R率 2 越接 近 于 1, 表 示 回 归 的 效(果 因越 为R2好 越 接 近1,于 表 示 解 释 变 量 和 预 报 变 量 的关线性性越相 ).强 如 果 对 某 组 数
画它根 们据 之间探 的究 关系中的公式 . 1和2,可以得 图到 3.11
aˆ85.712,bˆ0.849.
于是得到回归方程yˆ0.849x85.712. 所以 ,对身高 17为 c2m的女大,学 由生 回归方程可
预报其体重为
y0.84917285.71260.316kg.
探 究 身 高172 cm的 70
归方程 yˆ bˆxaˆ,
因y ˆ此 是 5中 ~ y的估 .由 计于 值随 e机 y~ y,误差
所e ˆ以 yy ˆ是 e的估 . 计量
对 于 样 本 x1,点 y1,x2,y2,,xn,yn
而 言 ,相 应 它 们 的 随 机 误 差 为 ei yi ~yi yi bxi a,i 1,2,,n. 其估计值为
量是预;报变量
2画出确定释 好主 的变 解量和散 预点 报 , 图 变
观察它们之 如 间是 的否 关存 系在线 ; 性关
3由经验确定型 回 (如 归我 方们 程观 类察到
线性,关 则系 选用线性 y回 bx归 a);方程
4按一定规则 程 估 中 计 的 (回 如 参 归 最 数 方 小二
乘)法 ;
在上式,后 中两项α和 ,β无关,而前两项为非负
数,因此要Q使取最小,当 值且仅当前两项的值
均为0,即有
n
xi xyi y
β i1 n
,αyβx.
xi x2
i1
这正是我们所要推导的公式.
下面 我们 通过,进 案一 例步学 习回 归分 析 基本 思想 及其. 应用
例 1 从某大学中 8名 随女 机大 选 ,其 学 取 身 生高 重数据 3如 1所表 .示
通 过 回 归 直 线y% bxa,
预 报 真 实 值 y的 精 度 越 高 .随 机 误 差 是 引 起 预 报
值yˆ与真实y之 值间的误差的原 ,其因 大之 小一 取决于随机误差 . 的方差
另一方,由 面于公1式 和2中aˆ和bˆ为截距和斜
的估计,它 值们与真实 a和值 b之间也存在, 误
这种误差是引起yˆ与 预真 报实 值 y之 值间误差的 另一个原 . 因
残差
8 6 4 2
编号 0 -2 0 1 2 3 4 5 6 7 8 9 -4 -6
予以纠正 ,然后再重新
-8
利用线 性回 归模型拟 合数据 ;如果数据采集
图3.13
没 有 错 误 , 则 需 要 寻 找 其 他 的 原 因 .另 外 ,残 差 点 比 较
均匀地落在水平的带状 区域的宽度越窄 ,说明模型
女 大 学 生 的 体 重 一 定 65
是 60.316 kg 吗?如 果
60 55
不 是,其 原 因 是 什 么? 50
显然 ,身高 172cm的女45 40
大学生的体重不一定 150 155 160 165 170 175 180
是60.316kg但一般可
图3.12
以认为她的体重6接 0.3近 16k于 g.图3.12中的样
可 能 性取采几 种 不 同 的 回 归 方 回 程 归 进 分,也行 析 可 以 通 过 比R 较 2,选 几择 R 个2 大 的 模 型 作 为 这 据的模 . 型
在 例 1中,R2 0.64,表 明 "女 大 学 生 身6高 4%的 解 释 体 重 变 ",或化者"女 说大 学 生 体6重 4%是 差由 异身 有 高 引 起 ". 的 用身高预报体 ,需重 要时 注意下列 : 问题 1.回归方程只适用所 于研 我究 们的样本的 .例总 如 , 体 不能用女大学生和 的体 身重 高之间的回,归 描方 述程 女运动员的身高之 和间 体的 重关.同系样,不能用生长 在南方多雨地区的 的高 树与 木直径之间方 的程 回 , 归 描述北方干旱地木 区的 的高 树与直径之系 间. 的关
我们可以利用图形来
分析残差特性
.作图时
纵坐标为残差
, 横坐标
可选为样本编号
, 或身
高数据 ,或体重估计值
等 , 这样作出的图形为
残 差 图 .图 3 . 1 3 是以
样本编号为横
坐标的
残差 8
6
4
2
0
编号
-2 0 1 2 3 4 5 6 7 8 9
-4
-6
-8
残差图 .
图3.13
从图 3.1 3中可以看 出, 第1个 样 本 点 和 第 6 个样本点的残差比较 大 ,需要确认在采集这 两个样本 点的过程中 是否有人为的错误 .如 果数据采集有错误 ,就
因 为 随 机 误 差 是 随量机,因变此 可 以 通 过 这 个 随 机 变 量 的 数 字 特 征画来它刻的 一 些 总 体.特 均征 值 是 反 映 随 机 变 量平取均值水 平 的 数 字,特 方征 差 是 反 映 随 机 变 量于集均中值 程 度 的 数 字, 特 征 而 随 机 误 差 的 均0值,因为此 可 以 用 方σ2差 来 衡 量 随 机 误 差 的 大. 小
x的样本的取值范围15为5cm,170cm,而用这个方
程计算x 70cm时的y值,显然不合.适)
4.不能期望回归方 的程 预得 报到 值就是预 的报变 精确.事 值实,上 它是预报变量的 值可 的能 平取 均 . 值
一般地 ,建立回归模型的基 骤本 为: 步
1确定研,究 明对 确象 哪个变量 量 ,哪 是个 解变 释
思考产生随机e误 的差 原项 因是 ? 什么
实际上,一个人的体重值除身了高受的影响,还外受 许多其他因素的.影 例响 如饮食习惯、是否喜欢运 动、度量误差 .另等外,我们选用的线性 型模 往往只 是一种近似的模 .所型 有这些因素都会随导机致误 差项e的产生 .
探 究在 线 性 回 归 模 型 中 ,e是 用 y % 预 报 真 实 值 y的 误 差 ,它 是 一 个 不 可 观 测 的 量 ,那 么 应 该 怎 样 研 究 随 机 误 差 ?如 何 衡 量 预 报 的 精 度 ?
x称 为 解 释 ,把y变 称量 为 预 报 . 变 量
这里a和b为模型的未知参数,e是y与y%bxa之间
的误差.通常e为随机变量,称为随机误差 ,它的均值
Ee0,方差De20.这样线性回归模型的完
整表达式为:
ybxae,
Ee0,Deσ2.
4
在 线 性 回 归 模 型 4中 ,随 机 误 差 e的 方 差 2越 小 ,
回归直线过样本点的中 心.
从已经学过的 ,截知 距 aˆ和 识斜 知 bˆ分 率 道别是使
n
Qα,βyi βxi α2取最小α,值 β的时 值 .
i1 n
由 Q α ,于 β y i β x i y β x y β x α 2
n
i 1
yi βxi yβx22yi βxi yβx
i1
yβxαyβxα2