1.1回归分析的基本思想及其初步应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从上中可以看出,解析变量对总效应约贡献了64%,即
R2 0.64,可以叙述为“身高解析了64%的体重变化”,而随机误
差贡献了剩余的36%。
所以,身高对体重的效应比随机. 误差的效应大得多。
26
问题四:结合例1思考:用回归方程预报体重时应注意什么?
1.回归方程只适用于我们所研究的样本的总体。 2.我们建立的回归方程一般都有时间性。 3.样本取值的范围会影响回归方程的适用范围。 4.不能期望回归方程得到的预报值就是预报变量的精确值。
.
15
问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢?
e=y-(bx+a)
残 差 : 一 般 的 对 于 样 本 点 ( x1,y1 ) ,(x2,y2),...,(xn,yn),它 们 的 随 机 误 差 为
eiyibxia,i1,2,...n,其 估 计 值 为 eiyiyiyibxia,i1,2,...n
选修1-2——统计案例
5. 引入线性回归模型
y=bx+a+e
6. 了解模型中随机误差项e产生 的原因
7. 了解相关指数 R2 和模型拟合 的效果之间的关系
8. 了解残差图的作用
9. 利用线性回归模型解决一类非 线性回归问题
10. 正确理解分析方法与结果
.
9
教学情境设计
问题一:结合例1得出线性回归模型及随机误差。并且区分函数
ei称 为 相 应 于 点 (xi,yi)的 残 差 。
结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获 取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包 含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此 我们引入残差概念。
.
16
涉及到统计的一些思想: 模型适用的总体;模型的时间性; 样本的取值范围对模型的影响;模型预报结果的正确理解。
.
27
问题五:归纳建立回归模型的基本步骤
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。 (2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系
身
高
与 体
点
异 常
重
残
• 错误数据
差
.
• 模型问题21
图
误差与残差,这两个概念在某程度上具有很大的相似性, 都是衡量不确定性的指标,可是两者又存在区别。
误差与测量有关,误差大小可以衡量测量的准确性,误差 越大则表示测量越不准确。误差分为两类:系统误差与 随机误差。其中,系统误差与测量方案有关,通过改进测 量方案可以避免系统误差。随机误差与观测者,测量工具, 被观测物体的性质有关,只能尽量减小,却不能避免。
残差――与预测有关,残差大小可以衡量预测的准确性。 残差越大表示预测越不准确。残差与数据本身的分布特性, 回归方程的选择有关。
.
22
(2)我们可以用相关指数R2来刻画回归的效果,其计算公式是
n
R2
1
i1 n
(yi $ yi)2 (yi y)2
1总 残 偏 差 差 平 平 方 方 和 和。
i1
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。
.
28
问题六:若两个变量呈现非线性关系,如何解决? (分析例2)
例2 一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:
温度xoC 产卵数y/个
21 23 25 27 29 32 35
7
11 21 24 66 115 325
(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。 (2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
▪ 注:b 与 r 同号
▪ 问题:达到怎样程度,x、y线性相关呢?它们的相关程 度怎样呢?
.
24
相关系数
n
(xi - x)(yi - y)
r
i=1
n
n
(xi - x)2× (yi - y)2
i=1
i=1
r>0正相关;r<0负相关.通常: r∈[-1,-0.75]--负相关很强; r∈[0.75,1]—正相关很强; r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;
1.1回归分析的基本 思想及其初步应用
.
1
必修3(第二章 统计)知识结构
收集数据
(随机抽样)
整理、分析数据估 计、推断
用样本估计总体 变量间的相关关系
简 分 系 用样本 用样本
线
抽 单 层 统 的频率
数字特
分性
样 随 抽 抽 分布估
征估计
析回
机 样 样 计总体
总体数
归
分布
字特征
.
2
问题1:现实生活中两个变量间的关系有哪些呢? 不相关
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
解:1、选取身高为自变量x,体重为因变量y,作散点图:
.
11
2.回归方程:
y ˆ0.84x 98.5 172
身 高 1 7 2 c m 女 大 学 生 体 重 y ˆ=0 . 8 4 9 × 1 7 2-8 5 . 7 1 2=6 0 . 3 1 6 ( k g )
在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的 线性相关性越强)。
如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值 来做出选择,即选取R2较大的模型作为这组数据的模型。
注:相关指数R2是度量模型拟合效果的一种指标。在线性模型中,它代表 自变量刻画预报变量的能力。
ybxae
其中a和b为模型的未知参数,e称为随机误差.
.
13
函数模型与“回归模型”的关系 函数模型:因变量y完全由自变量x确定 回归模型: 预报变量y完全由解释变量x和随机误差e确定
.
14
思考:产生随机误差项e的原因
是什么?
注:e 产生的主要原因: (1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
.
10
问题一:结合例1得出线性回归模型及随机误差。并且区 分函数模型和回归模型。
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
编号
1
2
3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
体重/kg
48 57 50 54 64 61 43 59
横轴为编号:可以考察残差与编号次序之间的关系, 常 用于调查数据错误.
横轴为解释变量:可以考察残差与解释变量的关系,常用 于研究模型是否有改进的余地.
作用:判断模型的适用性若模型选择的正确,残差图中的点应 该分布在以横轴为中心的带形区域.
.
19
下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。
残差分析( ( 12) )计 画算 残差 ei 图 yi
bxi
a(i=1,2,...n)
( 3)分析残差图( ( 水12) ) 平查 残 方找 差 向异 点 散常 分 点样 布 的本 在 分数 以 布据 O规为律中相心同的。水平带状区域,并沿
.
18
残差图的制作和作用:
制作:坐标纵轴为残差变量,横轴可以有不同的选择.
模型和回归模型。
问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢?
问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?
问题四:结合例1思考:用回归方程预报体重时应注意什么?
问题五:归纳建立回归模型的基本步骤。
问题六:若两个变量呈现非线性关系,如何解决?(分析例2)
eˆ i 称为相应于点 ( x i , y i 的) 残差.
ˆ2n1 2i n1e ˆi2n 12Q (a ˆ,b ˆ)(n2)为 2 的估计量
Q ( aˆ , bˆ ) 称为残差平方和.
.
17
问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?
(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。
.
23
相关系数
n
(xi - x)(yi - y)
n
__
xiyi nxy
r=
i=1
i1
n
n
(xi - x)2 (yi - y)2
i=1
i=1
n i1
xi2
n
_
x
2
n i1
yi2
ny_
2
相关系数的性质
(1)|r|≤1.
(2)|r|越接近于1,相关程度越强;|r|越接近于0,相关 程度越弱.
问题背景分析 散点图
两个变量线性相关 线性回归模型
最小二乘法 残差分析
R2
两个变量非线性相关 非线性回归模型
应用
注:虚线表示高中阶段不涉及的关系
.
8
比《数学3》中“回归”增加的内容
数学3——统计
1. 画散点图 2. 了解最小二乘法的
思想 3. 求回归直线方程
y=bx+a
4. 用回归直线方程解 决应用问题
对r进行显 著性检验
.
25
下面我们用相关指数分析一下例1:
来源
平方和
比例
回归变量
225.639
0.64
残差变量
128.361
0.36
总计
354
1
;
预报变量的变化程度可以分解为由解释变量引起的变化程度与残差
变量的变化程度之和,即
n(yiy)2n(yiµ yi)2n(µ yiy)2
i 1
i 1
i 1
编号
1
2
3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 残差 -6.373 2.627
50 54
2.419 -4.618
64
1.137
61 43 59
6.627 -2.883 0.382
.
20
残差图的制作及作用。
•几点坐说标明纵:轴为残差变量,横轴可以有不同的选择; 如果•第数一据个若采样集模本有点错型和误选第,6就个择予样的以本纠点正正的确,残然差,后比残再较重大差新,利图需用要中线确性认的回在点归采模集应型过该拟程合中分数是布据否;有在如人果以为数的横据错采误轴。 集没有错为误,心则需的要带寻找形其区他的域原;因。 状区另•域外的,对宽残度差于越点窄远比,较离说均明横匀模地轴型落拟的在合水点精平度的,越带要高状,区特回域归别中方,注程说的意明预选。报用精的度模越型高计。较合适,这样的带
随机误差 e y y% e的估计量 eˆ y yˆ
样本点:(x 1,y 1),(x 2,y 2),...,(x n ,y n )
相应的随机误差为:
e i y i y % i y i b x i a ,i 1 ,2 ,...,n
随机误差的估计值为:
e ˆ i y i y ˆ i y i b ˆ x i a ˆ ,i 1 ,2 ,...,n
.
4
问题2:对于线性相关的两个变量用什么方法来刻 划之间的关系呢?
2、最小二乘估计 最小二乘估计下的线性回归方程:
yˆ bˆx aˆ
n
(xi X )( yi Y )
bˆ i1 n
(X i X )2
i 1
aˆYbˆX
.
5
yˆ bˆx aˆ
n
xiyi n x y
b ^ i1
.
29
解:选取气温为解释变量x,产卵数
方 法
函数关系 1、两个变量的关系
相关关 线性相关
系 非线性相关
相关关系:对于两个变量,当自变量取值一定时,
因变量的取值带有一定随机性的两个变量之间的关
系。
.
3
思考:相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般 的情况
探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果 不是,你能解析一下原因吗?
答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值, 只能给出她们平均体重的估计值。
.
12
由于所有的样本点不共线,而只是散布在某一直线的附近,所 以身高和体重的关系可以用线性回归模型来表示:
n
2
xi2 n x
i1
a^ yb^x
x
1 n
n i 1
xi
回归直线必过样本点的中心 ( x , y )
y
1 n
n i 1
yi
.
6
3、回归分析的基本步骤:
画散点图 求回归方程 预报、决策
这种方法称为回归分析.
Fra Baidu bibliotek
回归分析是对具有相关关系的两个变量进行统计
分析的一种常用方法.
.
7
回归分析知识结构图
(如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线 性回归方程y=bx+a). (4)按一定规则估计回归方程中的参数(如最小二乘法)。
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现 不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适 等。