高中数学32回归分析课件2苏教版选修1
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• (2)|r|越接近于1,相关程度越大;|r|越接 近于0,相关程度越小.
• 问题:到达怎样程度,x、y线性相关呢?它 们的相关程度怎样呢?
负相关
正相关
相关系数
n
r>r=0i正n=1相i(=x关1i(-x;xi)-r2x×)<i(=ny01i(-负yyi)相-y关)2 .通常,
r∈[-1,-0.75]--负相关很强;
i
i=1
n xi2 - nx2
,
i=1
i=1
aˆ = y - bˆx
2.相应的直线叫做回归直线。
3、对两个变量进展的线性分析叫做线性 回归分析。
相关系数
• 1.计算公式
n
(xi - x)(yi - y)
r=
i=1
n
n
(xi - x)2 (yi - y)2
i=1
i=1
• 2.相关系数的性质
• (1)|r|≤1.
400
·
350 · · ·
300
散点图 施化肥量
10 20 30 40 50
x
探索2:在这些点附近可画直线不止一条,
哪条直线最能代表x与y之间的关系呢?
发现:图中各点,大致分布在某条直线附近。
y 水稻产量
500
· · 450
(xi ,yi )
· · 400 |yi - yi |
··· 350
(xi ,yi )
,
i=1
aˆ =y-bˆx.
其中x
=
1 n
n i=1xi,y
=
1ni=n1yi.
(x,y) 称为样本点的中心。
2、回归直线方程:
1、所求直线方程 yˆ = bˆ x + aˆ 叫做回归直
---线方程;其中
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
- nxy
r∈[0.75,1]—正相关很强; r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
它的均值E(e)= 0,方差D(e)=σ2 > 0
〔1〕由图形观察可以看出,样本点呈条状分 布,身高和体重有比较好的线性相关关系,因 此可以用线性回归方程刻画它们之间的关系。
80 60 40 20
0 150
图表标题 y = 0.8485x - 85.712
yˆ
yˆ
160 170 180
体重 线性 (体重) 线性 (体重) 线性 (体重)
线性回归模型
y=bx+a+e E(e)= 0, D(e)=σ2
y=bx+a+e其中a和b为模型的未知参数,
e是y与 yˆ 之间的误差,通常e称为随机误差。
为了衡量预报的精度,需要估计的σ2值?
n
Q( , ) ( yi xi )2 i 1
随机误差ei yi bxi a(i 1, 2,....n) 其估计值为: eˆi yi yˆi yi bˆxi aˆ eˆi称为相应点(xi,yi )的残差
类比样本方差估计总体方差的思想
ˆ 2
1 n2
n i 1
eˆi2
1 Q(aˆ, bˆ)(n n2
2)
Q(aˆ, bˆ)称为残差平方和
〔1〕根据散点图来粗略判断它们是否线性相关。
〔2〕是否可以用线性回归模型来拟合数据
〔3〕通过残差 eˆ1,eˆ2,eˆ3,.....eˆn, 来判断模型拟合的效
果这种分析工作称为残差分析
函数y=bx+a来描述它们之间的关系。这时我
们用下面的线性回归模型来描述身高和体重的关系
:y=bx+a+e其中a和b为模型的未知参数
,e是y与 之yˆ 间的误差,通常e称为随机误差。
图表标题
y = 0.8485x - 85.712 80
60
体重
40
线性 (体重) 线性 (体重)
20
线性 (体重)
0
150 160 170 180
yˆ = 0.849x - 85.172 身高172cm女大学生体重
yˆ = 0.849×172 - 85.712 = 60.316(kg)
3.通过探究栏目引入“线性回归模型〞。此处可以引 导学生们体会函数模型与回归模型之间的差异。
(2)从散点图还可以看到,样本点散布在某一条
直线的附近,而不是一条直线上,所以不能用一次
残差
6000
4000
2000 0
残差
-2000 0
2
4
6
8
10
12
-4000
使学生了解残差图的制作及作用。P98 坐标纵轴为残差变量,横轴可以有不同的选择;
假设模型选择的正确,残差图中的点应该分布在以横轴为心的带 形区域;
对于远离横轴的点,要特别注意。
身
高
异
与
常
体 重
点
残 差 图
• 错误数据 • 模型问题
2、现实生活中存在着大量的相关关系 。
如:人的身高与年龄;
量;
产品的本钱与生产数
探索:水稻产量y与施商肥品量x的之销间售大致额有与何广告 费规;律?
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
450
· ··
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
1、定义: 自变量取值一定时,因变量的取值带有一定随 机性的两个变量之间的关系叫做相关关系。
注 1〕:相关关系是一种不确定性关系; 2):对具有相关关系的两个变量进行 统计分析的方法叫回归分析。
450
· ··
400
·
350 · · ·
300
施化肥量
解: 1.画出散点1图0 20 30
40 50
x
2.求出b = 4.75, a = 256.79
3.写出回归方程 yˆ = 4.75x + 256.79
4.计算相关系数 r = 0.9718
例题1 从某大学中随机选出8名女大学生,其身 高和体重数据如下表:
编号 1 2 3 4 5 6 7 8 身高 165 165 157 170 175 165 155 170 体重 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。
分析:由于问题中 要求根据身高预报 体重,因此选取身 高为自变量,体重 为因变量.
高中数学32回归分析课件2苏教 版选修1
知识构造
收集数据
(随机抽样)
整理、分析数据 估计、推断
用样本估计总体 变量间的相关关系
简 分 系 用样本 用样本
线
单层 统 随抽 抽 机样 样 抽
的频率 分布估 计总体
数字特 征估计 总体数
性 回 归 分
样
分布
字特征
析
统计的根本思想
实际
样本
抽样
y = f(x)
分析
y = f(x)
模拟
y = f(x)
复习、变量之间的两种关系
问题1:正方形的面积y与正方形的边长x之间
的函数关系是 y = x2
确定性关系
问题2:某水田水稻产量y与施肥量x之间是否
-------有一个确定性的关系?
例如:在 7 块并排、形状大小一样的试验田 上 进展施肥量对水稻产量影响的试验,得到 如下所示的一组数据:
300
10 20 30 40 50
施化肥量 x
n
Q(a,b)= (yi - bxi - a)2 取最小值时,a,b的值. i=1
推导过程请阅读P92
最小二乘法:yˆ = bˆ x + aˆ
n
n
bˆ =i=1i(n=x1i(-xxi)-(xy)i2-y) =
xiyi - nxy
i=1 n
xi2 - nx2
谢谢