高中数学复习课件-回归分析的基本思想及其初步应用(H)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总的来说:
相关指数R2是度量模型拟合效果的一种指标。
在线性模型中,它代表自变量刻画预报变量的能力。
用身高预报体重时,需要注意下列问题: 1、回归方程只适用于我们所研究的样本的总体; 2、我们所建立的回归方程一般都有时间性;
3、样本采集的范围会影响回归方程的适用范围;
4、不能期望回归方程得到的预报值就是预报变量的 精确值。事实上,它是预报变量的可能取值的平均值。
回归直线过样本点的中心
其中x
=
1 n
n xi,y i=1
=
1 n
n yi. i=1
(x,y) 称为样本点的中心。
2、回归直线方程:
1、所求直线方程 yˆ = bˆ x + aˆ 叫做回归直
---线方程;其中
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
在统计中,我们也把自变量x称为解析变量,因变 量y为预报变量。
残差
数据点和它在回归直线上相应位置的差异 称为相应于点(xi,yi ) 的残差。
ei =yi
yi
例:编号为6的女大学生,计算随机误差的效应(残差)
61 (0.849165 85.712) 6.627
残差平方和
把每一个n 残差所得的值平方后加起来,用数学符号表
2、现实生活中存在着大量的相关关系。
如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
最小二乘法:yˆ = bˆ x + aˆ
n
n
bˆ =i=1i(n=x1i(-xxi)-(xy)i2-y) =
xiyi - nxy
i=1 n
xi2 - nx2
,
i=1
aˆ =y-bˆx.
- nxy
i
i=1
n xi2 - nx2
,
i=1
i=1
aˆ = y - bˆx
2.相应的直线叫做回归直线。
3、对两个变量进行的线性分析叫做线性 回归分析。
相关系数
▪ 1.计算公式
n
(xi - x)(yi - y)
r=
i=1
n
n
(xi - x)2 (yi - y)2
i=1
i=1
▪ 2.相关系数的性质
• 坐标纵轴为残差变量,横轴可以有不同的选择;
几点说明:
第• 一个若样模本点型和选第6择个样的本点正的确残差,比残较大差,图需要中确的认在点采应集过该程中分是布否有在人以为 的据错;误如。果横如数果据轴数采据集为采没心集有有错的错误带误,,则形就需区予要以寻域纠找;正其,他然的后原再因重。新利用线性回归模型拟合数
r∈[-1,-0.75]--负相关很强;
r∈[0.75,1]—正相关很强; r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;
例1、某大学中随机选取8名女大学生,其身高 和体重数据如下表所示.
编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
根据最小二乘法估计a 和b 就是未知参数a和样b的本最点好的估中计,心
身于高是为有172如bc果m= 的不in=1女(是ixn=大i,1(-x学你xi探)-生能(究xy的)解i2P-体析4y:)重一=一下ii=n1=n定原1xxi是因yi2i-6吗-0nn?.xx32y16=k0g.吗84?9,
(5)得出结果后分析残差图是否有异常(个别数据对应残差 过大,或残差呈现不随机的规律性,等等),过存在异常,则 检查数据是否有误,或模型是否合适等。
作业: 在7块并排的、形状大小相同的实验田上进行施
肥量对水稻产量影响的试验,得到如下一组表所示 的数据(单位:kg)
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
(1)以x为解释变量,y为预报变量,作出散点图 (2)求y与x之间的回归方程,并求施肥量为28kg时
的水稻产量的预报值 (3)计算各组残差,并计算残差平方和 (4)求R2,并说明残差变量对产量影响有多大?
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量 是预报变量。
(2)画出确定好的解析变量和预报变量的散点图,观察 它们之间的关系(如是否存在线性关系等)。
(3)由经验确定回归方程的类型(如我们观察到数据呈线 性关系,则选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法)。
=1-
i=1 n
(yi - y)2
i=1
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合 效果越好。
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析 变量和预报变量的线性相关性越强)。
如果某组数据可能采取几种不同回归方程进行回归分析,
则可以通过比较R2的值来做出选择,即选取R2较大的模型作为 这组数据的模型。
思考P3 产生随机误差项e的原因是什么?
随机误差e的来源(可以推广到一般): 1、其它因素的影响:影响体重 y 的因素不只是身高
x,可能还包括遗传基因、饮食习惯、生长环境等 因素; 2、身高 x的观测误差。
线性回归模型y=bx+a+e增加了随机误差项e,因 变量y的值由自变量x和随机误差项e共同确定,即自 变量x只能解析部分y的变化。
另•外,对残差于点远比较离均横匀地轴落的在水点平,的带要状区特域别中,注说意明选。用的模型计较合适,这
样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。





体 重



• 错误数据

• 模型问题
我们可以用相关指数R2来刻画回归的效果,其计算公式是
n
(yi 5
6
7
8
身高 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
残差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可 以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残 差图。
求根据女大学生的身高预报体重的回归方程, 并预报一名身高为172cm的女大学生的体重.
解:1、选取身高为自变量x,体重为因变量y,作散点图:
2、由散点图知道身高和体重有比较好的线性相关关系, 因此可以用线性回归方程刻画它们之间的关系。
样本点呈条状分布,身高和体重有较好的线性相关关
系,因此可以用回归方程来近似的刻画它们(之x,间y)的称关为系.
1.1 回归分析的基本思想 及其初步应用
温故知新
两个变量的关系
不相关
函数关系 线性相关
相关关系 非线性相关
函数关系中的两个变量间是一种确定性关系。 相关关系是一种非确定性关系。
1、定义: 自变量取值一定时,因变量的取值带有一定随 机性的两个变量之间的关系叫做相关关系。
注 1):相关关系是一种不确定性关系; 2):对具有相关关系的两个变量进行 统计分析的方法叫回归分析。
▪ (1)|r|≤1.
▪ (2)|r|越接近于1,相关程度越大;|r|越接 近于0,相关程度越小.
▪ 问题:达到怎样程度,x、y线性相关呢?它 们的相关程度怎样呢?
相关系数
n
r=
i=1(xi-x)(yi-y) in=1(xi-x)2×i=n1(yi-y)2
r>0正相关;r<0负相关.通常,
a = y - bx = -85.712
所以回归方程是 y 0.849x 85.712
所以,对于身高为172cm的女大学生,由回归方程可以预报其体重为
y 0.849172 85.712 60.316(kg)
解:散点图:
思考P3
产生随机误差项e 的原因是什么?
3、从我散们点可图以还用看下到面,的样线本性点回散归布模在型某来一表条示直:线的附 近,y=而bx不+a是+e在,一其条中直a和线b上为,模所型以的不未能知用参一数次,函数 y=eb称x+为a简随单机描误述差它。们关系。
示为: ( yi yi )2 i 1
称为残差平方和
在例1中,残差平方和约为128.361。
残差分析与残差图的定义:
我们可以通过残差 e1, e2, , en 来判断模型拟合的效果,判断原始
数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表1-4列出了女大学生身高和体重的原始数据以及相应的残差数据。
相关文档
最新文档