【数学】3.1 回归分析的基本思想及其初步应用 课件(人教A版选修2-3)
合集下载
高中数学选修2-3第3章3.1回归分析的基本思想及其初步应用课件人教A版
D典例透析
IANLI TOUXI
1
(3)对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为 ei=yi-bxi-a,i=1,2,…,n,其估计值为
知识拓展1.当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. 2.|r|越接近于1,表明两个变量的线性相关性越强; |r|越接近于0,表明两个变量之间几乎不存在线性相关关系. 通常,当|r|不小于0.75时,我们认为两个变量存在着很强的线性相 关关系.
-5-
3.1
回归分析的基本 思想及其初步应用
-3-
3.1
回归分析的基本 思想及其初步应用
2 3 4
M 目标导航
UBIAODAOHANG
Z 知识梳理
HISHI SHULI
Z 重难聚焦
HONGNAN JVJIAO
D典例透析
IANLI TOUXI
1
1.回归分析 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关 系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一 种常用方法. (3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回 归直线 y=bx+a 的斜率和截距的最小二乘估计公式分别为
-4-
^
^
其中������ =
1 ������ ∑ xi,������ ������ ������ =1
=
3.1
回归分析的基本 思想及其初步应用
2 3 4
M 目标导航
������
UBIAODAOHANG
Z 知识梳理
HISHI SHULI
Z 重难聚焦
HONGNAN JVJIAO
(教师用书)高中数学 3.1 回归分析的基本思想及其初步应用课件 新人教A版选修2-3
∧ ∧ 【思路探究】 解答本题先求出 b 、 a 即可求出回归方 程,然后预测物理成绩.
【自主解答】 (1)散点图如图:
1 (2) x = ×(88+76+73+66+63)=73.2. 5 1 y =5×(78+65+71+64+61)=67.8.
x iyi = 88×78 + 76×65 + 73×71 + 66×64 + 63×61 =
不随机的规律性
等).若
存在异常,则检查数据是否有误,或模型是否合适等.
求线性回归方程
某班 5 名学生的数学和物理成绩如表:
学生 A B C D E
学科 数学成绩(x) 88 76 73 66 63 物理成绩(y) 78 65 成绩 y 对数学成绩 x 的线性回归方程; (3)一名学生的数学成绩是 96,试预测他的物理成绩.
2.需特别注意的是,只有在散点图大致呈线性时,求 出的回归方程才有实际意义,否则求出的回归方程毫无意 义.
选用的模型比较合适.这样的带状区域的宽度 越窄 ,说明 模型的拟合精度越高. (3)利用相关指数 R2 刻画回归效果
n
1-
其计算公式为:R2=
n
yi-∧ yi 2
i =1
yi- y 2
i=1
;
其几何意义: R2越接近于1 ,表示回归的效果越好.
3.建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是 解释变量 ,哪个变 量是
●教学建议 本节内容安排在学习了两个变量之间的相关关系,包括 画散点图、求回归直线方程、利用回归直线方程进行预报等 知识后,进一步介绍回归模型的基本思想及其初步应用.教 学时引导学生在原来基础上探究回归模型,了解随机误差, 解释其产生的原因, 如何从残差分析和 R2 等角度探讨回归模 型拟合的效果,让学生在活动中学习,在探究中提高.
高中数学人教A版选修2-3课件:3.1回归分析的基本思想及其初步应用
问题导学
Байду номын сангаас
当堂检测
解:(1)由表画出散点图,如图所示.
问题导学
当堂检测
(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为 x 和 y 线性相关关系显著,下面求其回归方程,首先列出下表.
序号 1 2 3 4 5 6 7 8 ∑ xi 5 .6 6 .0 6 .1 6 .4 7 .0 7 .5 8 .0 8 .2 54.8 yi 130 136 143 149 157 172 183 188 1 258 x2 i 31.36 36.00 37.21 40.96 49.00 56.25 64.00 67.24 382.02 y2 i 16 900 18 496 20 449 22 201 24 649 29 584 33 489 35 344 201 112 xiyi 728.0 816.0 872.3 953.6 1 099.0 1 290.0 1 464.0 1 541.6 8 764.5
例 1 某工厂 1~8 月份某种产品的产量与成本的统计数据见 下表:
月份 产量 (t) 成本 (万元) 1 5 .6 130 2 6 .0 136 3 6 .1 143 4 6 .4 149 5 7 .0 157 6 7 .5 172 7 8.0 183 8 8 .2 188
以产量为 x,成本为 y. (1)画出散点图; (2)y 与 x 是否具有线性相关关系?若有,求出其回归方程. 思路分析:画出散点图,观察图形的形状得 x 与 y 是否具有线性相关 关系.把数值代入回归系数公式求回归方程 . x
3.回归模型拟合效果的刻画
类 别 残差图法 残差点比较均匀地落在 特 点 水平的带状区域内,说明 选用的模型比较适合,这 样的带状区域的宽度越 窄,说明模型拟合精度越 高 残差平方和法 残差平方和
人教A版高中数学选修2-3课件3.1回归分析的基本思想及其初步应用(一)
(x1, y1)
o
(x2 , y2 )
x
•
a ^
易知,截距 ^ 和斜率 b 分别是使
Q( , ) yi yi yi ( xi )
取最小值时 , 的值。由于
n
Q( , ) [ yi xi ( y x) ( y x) ]2
n
xi2
nx y
i
,
2
nx
i1
i1
aˆ y bˆx
•
最小二乘法: yˆ bˆx aˆ
n
n
bˆ =
i=1(xi -x)(yi -y)
n
(xi -x)2
i=1
=
i=1xi yi -nxy
n
xi2-nx 2
i=1
,
aˆ=y-bˆ x.
其中x
2): 对具有相关关系的两个变量进行统计 分析的方法叫回归分析。
•
现实生活中存在着大量的相关关系。 如:人的身高与年龄;
产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何规 律?
•
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
( y ix1 )[ yi i1 xi n( y x)] i1
(
y
x
i 1
)n[n
y
i1
n2
x
n n((xiyx)(yix)y]) 2
n
0,[
( xi
【数学】3.1 回归分析的基本思想及其初步应用 课件(人教A版选修2-3).ppt
z
7
6
5
4
3
z
2
1
0
0
10
20
30
40
x和z之间的关系可以用线性回归模型来拟合
z=ax+b+e
2) 用 y=c3x2+c4 模型,令 t = x 2,则y=c3t+c4 ,列出变
回归分析与相关分析的区别
1. 相关分析中,变量 x 变量 y 处于平等的地位;回 归分析中,变量 y 称为因变量,处在被解释的地 位,x 称为自变量,用于预测因变量的变化
2. 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可 以是随机变量,也可以是非随机的确定变量
事实上,它是预报变量的可能取值的平均值。
涉及到统计的一些思想:
模型适用的总体; 模型的时间性; 样本的取值范围对模型的影响; 模型预报结果的正确理解。
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。 (2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系
3. 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
相关系数
❖ 1.计算公式
n
(xi - x)(yi - y)
r=
i=1
n
n
(xi - x)2 (yi - y)2
i=1
i=1
❖ 2.相关系数的性质
❖ (1)|r|≤1.
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的 线性相关性越强)。
《3.1回归分析的基本思想及其初步应用》课件3-优质公开课-人教A版选修2-3精品
(3)线性相关关系强与弱的判断:用 相关系数r 来描述线性相 关关系的强弱. 对于变量x,y随机抽取到的n对数据(x1,y1),(x2,y2),…,
第‹#›页
第三章 3.1
新课标A版 ·数学 ·选修2-3
(xn,yn),其相关系数r=
n
xi- x yi- y
i=1
=
n
n
xi- x 2 yi- y 2
(2)忽略了某些因素的影响.影响变量y的因素不只变量x,可能 还包括其他许多因素(例如在描述身高和体重关系的模型中,体 重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境 等其他因素的影响),它们的影响都体现在e中.
第‹#›页
第三章 3.1
新课标A版 ·数学 ·选修2-3
(3)观测误差.由于测量工具等原因,导致y的观测值产生误差 (比如一个人的体重是确定的数,但由于测量工具的影响和测量 人技术的影响可能会得到不同的观测值,与真实值之间存在误 差),这样的误差也包含在e中.
第‹#›页
第三章 3.1
新课标A版 ·数学 ·选修2-3
3.随机误差及其产生的原因 从散点图中我们可以看到,样本点散布在某一条直线附近,而 不是在一条直线上,所以不能用一次函数y=bx+a来描述它们 之间的关系,我们用下面的线性回归模型来表示:y=bx+a+ e,其中a,b为模型的未知数,e称为随机误差.产生随机误差 的主要原因有以下3个方面:
第‹#›页
第三章 3.1
新课标A版 ·数学 ·选修2-3
1.求回归直线方程的一般方法 (1)作出散点图,将问题所给的数据在平面直角坐标系中描点, 观察点的分布是否呈条状分布,即是否在一条直线附近,从而 判断两变量是否具有线性相关关系. (2)求回归系数a,b,写出回归直线方程y=bx+a.
第‹#›页
第三章 3.1
新课标A版 ·数学 ·选修2-3
(xn,yn),其相关系数r=
n
xi- x yi- y
i=1
=
n
n
xi- x 2 yi- y 2
(2)忽略了某些因素的影响.影响变量y的因素不只变量x,可能 还包括其他许多因素(例如在描述身高和体重关系的模型中,体 重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境 等其他因素的影响),它们的影响都体现在e中.
第‹#›页
第三章 3.1
新课标A版 ·数学 ·选修2-3
(3)观测误差.由于测量工具等原因,导致y的观测值产生误差 (比如一个人的体重是确定的数,但由于测量工具的影响和测量 人技术的影响可能会得到不同的观测值,与真实值之间存在误 差),这样的误差也包含在e中.
第‹#›页
第三章 3.1
新课标A版 ·数学 ·选修2-3
3.随机误差及其产生的原因 从散点图中我们可以看到,样本点散布在某一条直线附近,而 不是在一条直线上,所以不能用一次函数y=bx+a来描述它们 之间的关系,我们用下面的线性回归模型来表示:y=bx+a+ e,其中a,b为模型的未知数,e称为随机误差.产生随机误差 的主要原因有以下3个方面:
第‹#›页
第三章 3.1
新课标A版 ·数学 ·选修2-3
1.求回归直线方程的一般方法 (1)作出散点图,将问题所给的数据在平面直角坐标系中描点, 观察点的分布是否呈条状分布,即是否在一条直线附近,从而 判断两变量是否具有线性相关关系. (2)求回归系数a,b,写出回归直线方程y=bx+a.
高中数学 3.1回归分析的基本思想及其初步应用课件 新人教A版选修2-3
根据上表可得回归直线方程^y=b^x+a^,其中b^=0.76,a^= y
-b^ x .据此估计,该社区一户年收入为 15 万元家庭的年支出为
() A.11.4 万元 C.12.0 万元
B.11.8 万元 D.12.2 万元
• [答案] B
[解析] 考查线性回归方程. 由已知得 x =8.2+8.6+10.50+11.3+11.9=10(万元), y =6.2+7.5+85.0+8.5+9.8=8(万元), 故a^=8-0.76×10=0.4. 所以回归直线方程为^y=0.76x+0.4,社区一户年收入为 15 万元家庭年支出为^y=0.76×15+0.4=11.8(万元),故选 B.
包含在e中.
5.残差 对于样本点(x1,y1)、(x2,y2)、…、(xn,yn),其回归方程
为^y=b^x+a^,用^y作为回归模型Ey=eb=x+0,a+Dee=σ2 中 bx+a 的 估计值,随机误差 ei=yi-bxi-a 的估计值^ei=_y_i-__b^_x_i-__a^__ (i= 1,2,…,n),称为相应于点(xi,yi)的残差.
典例探究学案
• 变量间的相关性检验
• 示:
关于两个变量x和y的7组数据如下表所
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
试判断 y 与 x 是否线性相关.
[解析] -x =17(21+23+25+27+29+32+35)≈27.4,
-y =17(7+11+21+24+66+115+325)≈81.3,
体重关系的模型中,体重不仅受身高的影响,还会 受遗传基因、饮食习惯、生长环境等其他因素的影
响),它们的影响都体现在e中.
数学:3.1《回归分析的基本思想及其初步应用》课件(新人教A版选修2-3)
yβ xα yβ xα 2
n
n
yi βxi yβx22 yi βxi yβx
i1
i1
yβxαnyβxα2,
n
注 意 y i β 到 x i y β x y β x α i 1 n
yβ xα yiβ xiyβ x i 1
y β x α ny i β nx i n y β x
i 1
i 1
探 究 在 线 性 回 归 模 型 中 ,e是 用 y预 报 真 实 值 y的 误 差 ,它 是 一 个 不 可 观 测 的 量 ,那 么 应 该 怎 样 研 究 随 机 误 差 ?如 何 衡 量 预 报 的 精 度 ?
因 为 随 机 误 差 是 随量机,因变此 可 以 通 过 这 个 随 机 变 量 的 数 字 特 征画来它刻的 一 些 总 体.特 均征 值 是 反 映 随 机 变 量平取均值水 平 的 数 字,特 方征 差 是 反 映 随 机 变 量于集均中值 程 度 的 数 字, 特 征 而 随 机 误 差 的 均0值,因为此 可 以 用 方σ2差 来 衡 量 随 机 误 差 的 大. 小
预报其体重为
y0.84917285.71260.31k6g.
探 究 身 高172 cm的 70
女 大 学 生 的 体 重 一 定 65
是 60.316 kg 吗?如 果
60 55
不 是,其 原 因 是 什 么? 50
显然 ,身高 172cm的女45 40
大学生的体重不一定 150 155 160 165 170 175 180
为了衡量预报的,需 精要 度估σ计2的值.一个自然 的想法是通过样本来方估差计总体方.如差何得
到随机变e量 的样本呢 ?由于模型 3或4中的e
隐含在预报变 y中量 ,我们无法精确地把y中 它从 分离出,来 因此也就无法得到变随量e机的样本 .
n
n
yi βxi yβx22 yi βxi yβx
i1
i1
yβxαnyβxα2,
n
注 意 y i β 到 x i y β x y β x α i 1 n
yβ xα yiβ xiyβ x i 1
y β x α ny i β nx i n y β x
i 1
i 1
探 究 在 线 性 回 归 模 型 中 ,e是 用 y预 报 真 实 值 y的 误 差 ,它 是 一 个 不 可 观 测 的 量 ,那 么 应 该 怎 样 研 究 随 机 误 差 ?如 何 衡 量 预 报 的 精 度 ?
因 为 随 机 误 差 是 随量机,因变此 可 以 通 过 这 个 随 机 变 量 的 数 字 特 征画来它刻的 一 些 总 体.特 均征 值 是 反 映 随 机 变 量平取均值水 平 的 数 字,特 方征 差 是 反 映 随 机 变 量于集均中值 程 度 的 数 字, 特 征 而 随 机 误 差 的 均0值,因为此 可 以 用 方σ2差 来 衡 量 随 机 误 差 的 大. 小
预报其体重为
y0.84917285.71260.31k6g.
探 究 身 高172 cm的 70
女 大 学 生 的 体 重 一 定 65
是 60.316 kg 吗?如 果
60 55
不 是,其 原 因 是 什 么? 50
显然 ,身高 172cm的女45 40
大学生的体重不一定 150 155 160 165 170 175 180
为了衡量预报的,需 精要 度估σ计2的值.一个自然 的想法是通过样本来方估差计总体方.如差何得
到随机变e量 的样本呢 ?由于模型 3或4中的e
隐含在预报变 y中量 ,我们无法精确地把y中 它从 分离出,来 因此也就无法得到变随量e机的样本 .
高中数学人教A版选修2-3第三章3.1回归分析的基本思想及其初步应用 课件(共46张PPT)
现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何规 律?
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
(3)预报一名身高为172cm的女大学生的体重?
【解】列出下表
编号i 1
23 4
5
6
7
8
身高xi 165 165 157 170 175 165 155 170
体重yi 48 57 50 54 64 61 43 59
xiyi 7920 9405 7850 9180 11200 10065 6665 10030
-1.0 -0.75 -0.25 0 0.25 0.5 1.0
r
负相关程度增加 正相关程度增加
6、用相关指数R2来刻画拟合效果
n
n
( yi yi )2
(yi y)2
R2
1
i 1 n
i1 n
[0,1]
残差平 方和
( yi y)2
( yi y)2
总偏差
i 1
i 1
平方和
1、R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差。
型来拟合
z ax b e
(2) ②用模型y c3 x2 c4来拟合,令t x2, 则y c3t c4,
列出变换后数据表并画出y与t 的散点图:
t 441 529 625 729 841 1024 1225
y 7 11 21 24 66 115 325
环境等因素; 3、身高 y 的观测误差。
人教A版高中数学选修2-3课件 3.1回归分析的基本思想及其初步应用课件6
在线性回归模型中,R2表示解释变量对预报变
量变化的____贡_献__率___.R2越接近于1,表示解
释变量和预报变量的线性相关性越强;反之,
R2越小,说明随机误差对预报变量的效应越
大.
相关指数
R2
的计算公式是
R2=1-
n
∑i=1
n
∑i=1
yi-^yi2 .
yi- y 2
R2的值越大,说明残差平方和越小,也就是说 模型的拟合效果(即回归效果)越 _____好_____.
所以,相关系数为
r=
73796-10×107.8×68 116584-10×107.8247384-10×682
≈0.7506,
由 0.7506>0.75 知,两次数学考试成绩有显著性的线性相关
关系.
求回归直线方程
炼钢是一个氧化降碳的过程,钢水含碳量的多少 直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的 关系.如果已测得炉料熔化完毕时,钢水的含碳量 x 与冶炼时 间 y(从炉料熔化完毕到出钢的时间)的一列数据,如下表.
[答案] C
[解析] 由回归方程的系数b^=-2.5 可知,x 每增加一个单 位,则 y 平均减少 2.5 个单位.
2.为了考察两个变量x和y之间的线性相关性, 甲、乙两位同学各自独立地做了100次和150 次试验,并且利用线性回归方法,求得回归 直线分别为l1和l2,已知两个人在试验中发现 对变量x的观测数据的平均值都是s,对变量y 的观测数据的平均值都是t,那么下列说法正 确的是( )
第三章 统计案例
第三章
3.1 回归分析的基本思想及其初步应用
自主预习学案
通过典型案例的探究,了解回归分析的基本思 想、方法及初步应用.
数学31回归分析的基本思想及其初步应用课件人教A版选修2-3-32页PPT文档资料
数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 1 身高 165 /cm 体重/kg 48 残差 -6.373
2 165
57
2.627
34 157 170
50 54
2.419 -4.618
5 175
64
1.137
678 165 155 170
身
高
异
与
常
体 重
点
残
差
• 错误数据
图
• 模型问题
我们可以用相关指数R2来刻画回归的效果,其计算公式是
n
R2
(yi yi)2
1
i1 n
(yi y)2
1总 残 偏 差 差 平 平 方 方 和 和。
i1
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。
在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。
z
1. 散点图;
2.回归方程: yˆ0.84x 98.5 172 身 高 172cm女 大 学 生 体 重 y ˆ=0.849× 172-85.712=60.316(kg)
探究: 身高为172cm的女大学生的体重一定是60.316kg 吗?如果不是,你能解析一下原因吗?
答:身高为172cm的女大学生的体重不一定是 60.316kg,但一般可以认为她的体重接近于 60.316kg。
第三章 统计案例 3.1 回归分析的基本思想及其
初步应用
比《数学3》中“回归”增加的内
数学3——统计
容 选修2-3——统计案例
5. 引入线性回归模型
1. 画散点图
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 1 身高 165 /cm 体重/kg 48 残差 -6.373
2 165
57
2.627
34 157 170
50 54
2.419 -4.618
5 175
64
1.137
678 165 155 170
身
高
异
与
常
体 重
点
残
差
• 错误数据
图
• 模型问题
我们可以用相关指数R2来刻画回归的效果,其计算公式是
n
R2
(yi yi)2
1
i1 n
(yi y)2
1总 残 偏 差 差 平 平 方 方 和 和。
i1
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。
在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。
z
1. 散点图;
2.回归方程: yˆ0.84x 98.5 172 身 高 172cm女 大 学 生 体 重 y ˆ=0.849× 172-85.712=60.316(kg)
探究: 身高为172cm的女大学生的体重一定是60.316kg 吗?如果不是,你能解析一下原因吗?
答:身高为172cm的女大学生的体重不一定是 60.316kg,但一般可以认为她的体重接近于 60.316kg。
第三章 统计案例 3.1 回归分析的基本思想及其
初步应用
比《数学3》中“回归”增加的内
数学3——统计
容 选修2-3——统计案例
5. 引入线性回归模型
1. 画散点图
高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件
现实生活中存在着大量的相关关系:
如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
二、两个变量的线性相关 (1)散点图
正相关、 负相关。
(2)回归直线:观察散点图的特征,如果各点大 致分布在一条直线的附近,就称两个变量之间具 有线性相关的关系,这条直线叫做回归直线。
解析变量x(身高) 随机误差e
预报变量y(体重)
高中数学人教A版选修2-3:回归分析 的基本 思想及-3:回归分析 的基本 思想及 其初步 应用PPT 全文课 件【完 美课件 】
在线性回归模型中,e是用bx+a预报真实值y的 随机误差,即 e=y-(bx+a),它是一个不可观测 的量,那么应如何研究随机误差呢?
3.如果两个变量线性相关,则可以用线性回归模型 来表示:y=bx+a+e,其中a和b为模型的未知参数, e 称为随机误差。
4.线性回归模型y=bx+a+e中, 把自变量x称为解释变量, 把因变量y称为预报变量。
^
^
5.残差: ei yi yi
n
^
6.残差平方和:
( yi yi )2
i 1
第一步:列表(把数据整理成表格);
n
n
第二步:计算:x,
y,
xi
y , i
x2 ; i
i 1
i 1
第三步:代入公式计算b,a的值;
第四步:写出直线方程:
yˆ bˆx aˆ
高中数学人教A版选修2-3:回归分析 的基本 思想及 其初步 应用PPT 全文课 件【完 美课件 】
新课讲解
例 从某大学中随机选出8名女大学生,其 身高和体重数据如下表:
人教A版数学选修2-3全册课件:第三章 3.1 回归分析的基本思想及其初步应用
3.1
回归
第 三
分析 的基 本思
章 想及
其初
步应
用
1 理解教 材新知
2 突破常 考题型
3 跨越高 分障碍
4 应用落 实体验
知识点一 知识点二
题型一 题型二 题型三
随堂即时演练 课时达标检测
3.1 回归分析的基本思想及其初步应用
回归直线方程 [提出问题] 《必修 3》中,求出回归直线方程^y=^bx+^a. 问题 1:回归直线方程准确的反映了 x,y 之间的关系吗? 提示:不是. 问题2:所有的两个相关变量都可以求回归方程吗?
∴
(yi-^y i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
i=1
5
(yi--y )2=(-20)2+(-10)2+102+02+202=1 000.
i=1
5
yi-^y i2
i=1
∴R12=1- 5
=1-1105050=0.845. yi--y 2
i=1
由(2)可得 yi-^yi 与 yi--y 的关系如下表:
n
n
xi- x yi- y xiyi-n x y
^b=i=1
n
xi- x 2
i=1
=
,
n
x2i -n x 2
i=1
i=1
^a= y -^b x ,
其中 x =n1i=n1xi, y =n1i=n1yi,( x , y ) 称为样本点的中心.
[化解疑难] 线性回归方程中系数^b的含义
(1)^b是回归直线的斜率的估计值,表示 x 每增加一个 单位,y 的平均增加单位数,而不是增加单位数.
[导入新知]
1.残差平方和法
回归
第 三
分析 的基 本思
章 想及
其初
步应
用
1 理解教 材新知
2 突破常 考题型
3 跨越高 分障碍
4 应用落 实体验
知识点一 知识点二
题型一 题型二 题型三
随堂即时演练 课时达标检测
3.1 回归分析的基本思想及其初步应用
回归直线方程 [提出问题] 《必修 3》中,求出回归直线方程^y=^bx+^a. 问题 1:回归直线方程准确的反映了 x,y 之间的关系吗? 提示:不是. 问题2:所有的两个相关变量都可以求回归方程吗?
∴
(yi-^y i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
i=1
5
(yi--y )2=(-20)2+(-10)2+102+02+202=1 000.
i=1
5
yi-^y i2
i=1
∴R12=1- 5
=1-1105050=0.845. yi--y 2
i=1
由(2)可得 yi-^yi 与 yi--y 的关系如下表:
n
n
xi- x yi- y xiyi-n x y
^b=i=1
n
xi- x 2
i=1
=
,
n
x2i -n x 2
i=1
i=1
^a= y -^b x ,
其中 x =n1i=n1xi, y =n1i=n1yi,( x , y ) 称为样本点的中心.
[化解疑难] 线性回归方程中系数^b的含义
(1)^b是回归直线的斜率的估计值,表示 x 每增加一个 单位,y 的平均增加单位数,而不是增加单位数.
[导入新知]
1.残差平方和法
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
即,用这个回归方程不能给出每个身高为172cm 的女大学生的体重的预测值,只能给出她们平均 体重的值。
案例1:女大学生的身高与体重
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
编号 身高 /cm 体重/kg
1 2 3 4 5 6 7 8 165 165 157 170 175 165 155 170 48 57 50 54 64 61 43 59
函数模型与回归模型之间的差别
函数模型: y bx a 回归模型: y bx a e
线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和 随机误差项e共同确定,即自变量x只能解析部分y的变化。
在统计中,我们也把自变量x称为解析变量,因变量y称为预报变量。
我们可以用下面的线性回归模型来表示:
第三章 统计案例
3.1 回归分析的基本思想及其 初步应用
比《数学3》中“回归”增加的内 容 选修2-3——统计案例 数学3——统计
5. 1. 2.
3.
4.
画散点图 了解最小二乘法 的思想 求回归直线方程 y=bx+a 用回归直线方程 解决应用问题
6.
7. 8.
9.
10.
引入线性回归模型 y=bx+a+e 了解模型中随机误差项e产 生的原因 了解残差图的作用 了解相关指数 R2 和模型拟 合的效果之间的关系 利用线性回归模型解决一类 非线性回归问题 正确理解分析方法与结果
称为样本点的中心。回归直线过样 本点中心
案例1:女大学生的身高与体重
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
编号 身高 /cm 体重/kg
1 2 3 4 5 6 7 8 165 165 157 170 175 165 155 170 48 57 50 54 64 61 43 59
n (xi -x)(yi -y) b= ˆ i=1 = n 2 (xi -x) i=1 ˆ a=y-bx. ˆ
x y
i=1 n
n
i i 2
- nxy - nx
2
x
i=1
,
i
1 n 1 n 其中x = y= xi, yi. n i=1 n i=1
(x,y)
y bx a
ˆ 为截距和斜率的估计值, ˆ 和b 另一方面,由于公式(1)和(2)中a 它们与真实值a和b之间也存在误差,这种误差是引起预报值 与真实值y之间误差的另一个原因。
ˆ y
思考: 产生随机误差项e的原因是什么? 随机误差e的来源(可以推广到一般):
1、用线性回归模型近似真实模型所引起的误差; 2、忽略了其它因素的影响:影响身高 y 的因素不 只是体重 x,可能还包括遗传基因、饮食习惯、 生长环境等因素; 3、身高 y 的观测误差。 以上三项误差越小,说明我们的回归模型的拟合 效果越好。
相关系数
1.计算公式
r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
2 2 (x x) (y y) i i i=1
2.相关系数的性质 (1)|r|≤1. (2)|r|越接近于1,相关程度越大;|r|越接
近于0,相关程度越小. 问题:达到怎样程度,x、y线性相关呢?它 们的相关程度怎样呢?
编号 身高 /cm 体重/kg 残差
1 165 48
-6.373
2 165 57
2.627
3 157 50
2.419
4 170 54
-4.618
5 175 64
1.137
6 165 61
6.627
7 155 43
-2.883
8 170 59
0.382
我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本 编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。
残差分析与残差图的定义:
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关, 是否可以用回归模型来拟合数据。 然后,我们可以通过残差 e1 , e2 , , en 来判断模型拟合的效果,判断原始 数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
(4)按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残 差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或 模型是否合适等。
什么是回归分析?
(内容)
1.
2.
3.
从一组样本数据出发,确定变量之间的数学 关系式 对这些关系式的可信程度进行各种统计检验, 并从影响某一特定变量的诸多变量中找出哪 些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的 取值来预测或控制另一个特定变量的取值, 并给出这种预测或控制的精确程度
求根据一名女大学生的身高预报 解:1、选取身高为自变量x,体重 她的体重的回归方程,并预报一 名身高为172cm的女大学生的体重。 为因变量y,作散点图:
2、由散点图知道身高和体重有比较 好的线性相关关系,因此可以用线性 回归方程刻画它们之间的关系。 3、从散点图还看到,样本点散布在 某一条直线的附近,而不是在一条 直线上,所以不能用一次函数 y=bx+a描述它们关系。
y=bx+a+e, (3)
y=bx+a+e,
E(e)=0,D(e)=
2.
2
(4)
其中a和b为模型的未知参数,e称为随机误差。
在线性回归模型(4)中,随机误差e的方差 越小,通过 回归直线 (5) 预报真实值y的精度越高。随机误差是引起预报值 y 与真实值 y之间的误差的原因之一,其大小取决于随机误差的方差。
我们可以用相关指数R2来刻画回归的效果,其计算公式是
R 1
2
2 ( y y ) i i 2 ( y y ) i i 1 i 1 n
n
残差平方和 1 。 总偏差平方和
表1-3
来源 随机误差 残差变量 总计 平方和 225.639 128.361 354 比例 0.64 0.36 1
负相关
正相关
n (xi -x)(yi -y) i=1 r= n n 2× (y -y)2 (x -x) i i i=1 i=1 r>0正相关;r<0负相关.通常,
r∈[-1,-0.75]--负相关很强; r∈[0.75,1]—正相关很强; r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;
函数模型与回归模型之间的差别
中国GDP散点图 120000
100000
80000
GDP
60000
40000
20000
0 1992
1993
1994
1995
1996
1997 年
1998
1999
2000
2001
2002
2003
函数模型: 线性回归模型: y bx a e
y bx a
当随机误差恒等于0时, 线性回归模型就变为函数模 型
1. 散点图; 2.回归方程: ˆ 0.849x 85.172 y
身高172cm女大学生体重 ˆ = 0.849×172 - 85.712 = 60.316(kg) y
探究: 身高为172cm的女大学生的体重一定是60.316kg 吗?如果不是,你能解析一下原因吗? 答:身高为172cm的女大学生的体重不一定是 60.316kg,但一般可以认为她的体重接近于 60.316kg。
回归分析与相关分析的区别
1.
2.
3.
相关分析中,变量 x 变量 y 处于平等的地位;回 归分析中,变量 y 称为因变量,处在被解释的地 位,x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可 以是随机变量,也可以是非随机的确定变量 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
相关系数
例2:一只红铃虫的产卵数y与温度x有关,现收集 了7组观测数据,试建立y与x之间的回归方程
温度x 21 产卵数y 7 23 11
350 300
25 21
27 24
29 66
32 115
35 325
解:1)作散点图;
产卵数
250
200
150
100
50
0 20 22 24 26 28 温度 30 32 34 36
从散点图中可以看出产卵数和温度之间的关系并不能 用线性回归模型来很好地近似。这些散点更像是集中 在一条指数曲线或二次曲线的附近。
回归分析的内容:
回归分析对具有相关关系的两个变量进行统计分 析的一种常用的方法,也就是通过一个变量或一些变 量的变化解释另一变量的变化。
《数学3》中,已对具有相关关系的变量利用回归分析的方 法进行了研究,其步骤为画散点图,求回归直线方程,并用回 归直线方程进行预报。
ˆ ˆ 最小二乘法:y ˆ = bx+a
残差图的制作及作用。 •几点说明: 坐标纵轴为残差变量,横轴可以有不同的选择; 第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为 的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数 • 若模型选择的正确,残差图中的点应该分布在以 据;如果数据采集没有错误,则需要寻找其他的原因。 横轴为心的带形区域; 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这 样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。 • 对于远离横轴的点,要特别注意。