多彩课堂20192019学年高中数学人教A版选修12课件:11回归分析-课时1

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(3)由残差表中的数值可以看出第3个样本点的残差比较 大,需要确认在采集这个数据的时候是否有人为的错 误,如果有的话,需要纠正数据,重新建立回归模型; 由表中数据可以看出残差点比较均匀地落在不超过0.15 的狭窄的水平带状区域中,说明选用的线性回归模型的 精度较高,由以上分析可知,弹簧长度与拉力成线性关 系. 规律方法 当资料点较少时,也可以利用残差表进行残 差分析,注意计算数据要认真细心,残差分析要全面.
4
6
8
10
12
-4000
通过残差 eˆ1,eˆ2,eˆ3,.来...判.eˆn断, 模型拟合的效果这种分析工
作称为残差分析
通过残差表或残差图判断模型拟合的效果是直观判断, 如何精确判断模型拟合的效果?
n
2
yi yi
引入参数R2R 2
1
i 1 n
2 来精确该画模型拟合效果
yi y
i 1
【微思考】 (1)残差与我们平时说的误差是一回事儿吗? 提示:这两个概念在某程度上具有很大的相似性,都是 衡量不确定性的指标,二者的区别是:误差与测量有关, 误差可以衡量测量的准确性,误差越大表示测量越不 准确;残差与预测有关,残差大小可以衡量预测的准确 性,残差越大表示预测越不准确.
(2)R2与原来学过的相关系数r有区别吗?
敬请指导
.
感谢您的聆 听
共同学习相互提高
3.相关系数与R2 (1)R2是相关系数的平方,其变化范围为[0,1],而相关 系数的变化范围为[-1,1]. (2)相关系数可较好地反映变量的相关性及正相关或 负相关,而R2反映了回归模型拟合数据的效果. (3)当|r|接近于1时说明两变量的相关性较强,当|r|接 近于0时说明两变量的相关性较弱,而当R2接近于1时, 说明线性回归方程的拟合效果较好.
对于己获取的样本数据,在上式子中
n
y
i
是 y定2 值,

小n, y即i
2
残yi 差






R2



i 1
说明




i1
效果越好。
引入例中参数R2计算得约为0.64说明女大学生体重差 异有百分之六十四是由身高引起的.
知识点 线性回归分析 1.对线性回归模型的三点说明 (1)非确定性关系:线性回归模型y=bx+a+e与 确定性函数y=bx+a相比,它表示y与x之间是统 计相关关系(非确定性关系),其中的随机误差e提 供了选择模型的准则以及在模型合理的情况下探 求最佳估计值a,b的工具.
本节内容学生内容不易掌握,通过知识整理与比较 引导学生进行区分、理解。通过对典型案例的探究, 练习进行巩固了解回归分析的基本思想方法和初步应 用.
从某大学中随机选取8名女大学生,其身高和体重数 据如下表所示:
编号
12345678
身高/cm 165 165 157 170 175 165 155 170
残差的作用
1.通过残差表或残差图发现原始数据中的可疑数据 坐标纵轴为残差变量,横轴可以有不同的选择;
若模型选择的正确,残差图中的点应该分布在以横轴 为中心的带形区域;
对于远离横轴的点,要特别注意。








残 差 图
•错误数据 •模型问题
残差
6000
4000
2000 0
残差
-2000 0
2
1.判一判(正确的打“√”,错误的打“×”) (1)残差平方和越小,线性回归方程拟合效果越好.( √ ) (2)在画两个变量的散点图时,预报变量在x轴上,解释变 量在y轴上. ( × ) (3)R2越接近于1,线性回归方程的拟合效果越好.( √ )
2.做一做(请把正确的答案写在横线上)
(1)从散点图上看,点散布在从左下角到右上角的 区域内,两个变量的这种相关关系为 正相关 . (2)在残差分析中,残差图的纵坐标为 残差 .
①线性回归模型中的预报值 y 与真实情况y
引起的误差;
②观测与计算(用 b a 代替b a)产生的误差;
③省略了一些因素的影响(如生活习惯等) 产生的误差.
在线性回归模型中,e为用bx+a的预报真实值y的随机 误差,它是一个不可观测的量,那么应该怎样研究随机 误差?
在实际应用中,我们用 y bx a 估计 bx+a
3.从实际问题中发现已有知识的不足,激发好奇心,求知 欲,通过寻求有效的数据处理方法,开拓学生的思路,培养学生 的探索精神和转化能力,通过案例的分析使学生了解回归分析在 实际生活中的应用,增强数学取之生活,用于生活的意识,提高 学习兴趣.
本节课通过必修3熟悉有例题回顾线性相关关系知 识,通过实际问题中发现已有知识的不足,引出随机 误差、残差、残差分析的概念,进而运用残差来进行 数据分析,通过例题讲解掌握用残差分析判断线性回 归模型的拟合效果。掌握建立回归模型的步骤。
yi2ny2)
i1
i1
i1
i1
建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量 是预报变量. (2)画出确定好的解释变量和预报变量的散点图,观察它 们之间的关系(如是否存在线性关系等). (3)由经验确定回归方程的类型(如我们观察到数据呈线 性关系,则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数. (5)得出结果后分析残差图是否有异常(如个别数据对应 残差过大,或残差呈现不随机的规律性等).若存在异 常,则检查数据是否有误,或模型是否合适等.
-y =15(12+10+7+5+3)=7.4,
5
x2i =142+162+182+202+222=1 660,
i=1
5
xiyi=14×12+16×10+18×7+20×5+22×3=620,
i=1
5 xiyi-5-x -y
i=1
所以^b=
5 x2i -5-x 2
=62106-605-×51×8×1872.4=-1.15.
yi-^yi2
i=1
R2=1-
≈0.994,
5
yi--y 2
i=1
所以回归模型的拟合效果很好.
线性相关系数的具体计算公式为:
r=
i∑=n1 (xi-x)(yi-y) i∑=n1 (xi-x)2∑i=n1 (yi-y)2 .
当 r>0 时,表明两个变量正相关;当 r<0 时,表明两个变量负 相关;|r|越接近于 1,表明两个变量的线性相关性越强;|r|越 接近于 0,表明两个变量之间几乎不存在线性相关关系.通常, 当 r 的绝对值大于 0.75 时,我们认为两个变量存在着很强的 线性相关关系.
具有较好的线性相关关系
2.根据线性回归的系数公式, 求回归直线方程
y =0.849x-85.712
3.由线性回归方程可以估计其位
置值为 y =60.316(千克)左右。
n
xi x yi y
b
i1
n i1
xi x
2
a y bx.
性质:回归直线一定过样本中心点
这些点并不都在同一条直线上,上述直线并不能精确 地反映x与y之间的关系,y 的值不能完全由x 确定, 它们之间是统计相关关系,y 的实际值与估计值之间 存在着误差.
yi-^y i 0.05
0.005 -0.08 -0.045 0.04 0.025
yi--y -2.24 -1.37 -0.54
0.41
1.41 2.31
所以
6
(yi-^y i)2≈0.013
18,
6
(yi--y )2=14.678
4.
i=1
i=1
所以,R2=1-01.40.61378148≈0.999 1, 回归模型的拟合效果较好.
体重/kg 48 57 50 54 64 61 43 59
怎样根据一名女大学生的身高预报她的体重,并预 报一名身高为172 cm的女大学生的体重?
根据必修3 2.3变量相关关系解决这个问题的方法: 1.先判断是两个变量是否具有线性相关关系 (1)作散点图,如图所示(见课本P82:图3.1-1)
(2)计算相关系数
所以 ey-bxa的估计量为 e y y
对于样本点 x i,y i i 1 ,2 ,3 , ,n
它们的随机误差为 e i y i b x i a i 1 ,2 , 3 ,,n 估计值为 e i y i y i y i b x i an 1 ,2 ,3 ,n
ei称相应于点 xi,yi的残差
多彩课堂20192019学年高中数学人教A版选修12课件:11回归分析-课时1
点击此处可添加副标题
3.1 回归分析的基本思 及其初步应用
(第一课时)
1.通过典型案例的探究,进一步了解回归分析的基本思想、 方法及其初步应用.
2.让学生经历数据处理的过程,培养他们对数据的直观感 觉,体会统计方法的特点,认识统计方法的应用,通过使用转化 后的数据,求相关指数,运用相关指数进行数据分析、处理的方 法.
(3)如果发现散点图中所有的样本点都在一条直线
上,则残差平方和等于
0,解释变量和预报变
量之间的相关系数R等于 1或-1 .
3.已知某种商品的价格x(元)与需求量y(件)之间的 关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
求y对x的回归直线方程,并说明回归模型拟合效果 的好坏.
解 -x =15(14+16+18+20+22)=18,
i=1
^a=7.4+1.15×18=28.1, 所以所求回归直线方程是:^y =-1.15x+28.1. 列出残差表:
yi-^y i yi--y
0
0.3
4.6
2.6
-0.4 -0.4
-0.1 -2.4
0.2 -4.4
所以,
5
(yi-^y
i)2=0.3,
5
(yi--y )2=53.2,
i=1
i=1
5
因此,在统计学中设它们的线性回归模型为:
ybxae
其中a,b为模型的未知参数,e为y与bx+a之间的误差,
称它为随机误差,它是随机变量。且 E e0,D e 2
线性回归模型完整表达式为
ybxae,
Ee 0,De 2,
x称为_解__释__变量,y称为_预__报__变量.
线性回归模型中随机误差的主要来源
(2)残差的平方和法:一般情况下,比较两个模型的残差 比较困难(某些样本点上一个模型的残差的绝对值比 另一个模型的小,而另一些样本点的情况则相反),故通 过比较两个模型的残差的平方和的大小来判断模型的 拟合效果.残差平方和越小的模型,拟合的效果越好. (3)R2法:R2的值越大,说明残差平方和越小,也就是说 模型拟合的效果越好.
为研究重量x(单位:克)对弹簧长度y(单位:
厘米)的影响,对不同重量的6个物体进行测量,数 据如下表所示:
x
5
ቤተ መጻሕፍቲ ባይዱ10
15
20
25
30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求线性回归方程;
(2)求出R2;
(3)进行残差分析. 作残差分析时,一般从以下几个方面予以说明: (1)散点图;(2)相关指数;(3)残差图中的异常点 和样本点的带状分布区域的宽窄.
提示:它们都是刻画两个变量之间的的相关关系的,区
别是R2表示解释变量对预报变量变化的贡献率,其表
n
2
yi yi
达式为R2=1-i
1 n
yi
y
;2
i1
相关系数r是检验两个变量相关性的强弱程度,
n
xixyiy
n
xiyinxy
其表达式为 r
i1
n
2n
xix
i1
.
2
yiy
n
(
xi2nx2)(n
(2)线性回归方程 y bx中a , 的a 意b 义是:以 为基数a ,x
每增加1个单位,y相应地平均增加 个单位b . (3)线性回归模型中随机误差的主要来源 ①线性回归模型与真实情况引起的误差; ②观测与计算产生的误差; ③省略了一些因素的影响产生的误差.
2.线性回归模型的模拟效果 (1)残差图法:观察残差图,如果残差点比较均匀地 落在水平的带状区域中,说明选用的模型比较合适, 这样的带状区域的宽度越窄,说明模型拟合精度越 高,回归方程的预报精度越高.
解答 (1)散点图如图
-x =16(5+10+15+20+25+30)=17.5, -y =16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
6
6
x2i =2 275, xiyi=1 076.2
i=1
i=1
计算得,^b≈0.183,^a≈6.285, 所求回归直线方程为^y =0.183x+6.285. (2)列表如下:
相关文档
最新文档