初中数学回归分析课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(y y
( yn bxn a)2
y ) [2 y1 (bx1 a) 2 y2 (bx2 a) ]
2
2
2
n
2
n
n
n
n
n
i 1
i 1
i 1
i 1
i 1
展开
合并同类项
yi2 2b xi yi 2a yi b2 xi2 2ab xi na 2
×
)
2.判断下列图形中具有相关关系的两个变量
是(
C
)
3.某产品 A 的产量 x 吨与耗电量 y 千瓦的对应
数据如右表.根据右表可求得回归直线方程为
ŷ=b̂x+â,且b̂=0.7,据此模型预测产品产量为 8 吨
时耗电量等于________.
−
−=3.5,点(x
−,y−)
x =4.5,y
x(吨)
3
4 5
2
i
xn2 2nx
2
i
( x1 x2
n
2
xn )
nx
n
i 1
i 1
∴ ( xi x)2 xi2 nx
2
n
xn2 ) xi2 nx
2
i 1
(i 1,
2,
3, ,n) .显然,上面的各个偏差的符号有
正、有负,如果将他们相加会相互抵消一部分,
i 1
整理
i 1
i 1
n
( xi x)( yi y ) n
( yi y ) 2
n[a ( y bx)]2 ( xi x) 2 b i 1 n
i 1
2
i 1
( xi x)
i 1
配方
n
2
n
n
( xi x)( yi y )
i 1
配方法
n
n
n
i 1
i 1
i 1
n[a ( y bx)]2 ny 2nbx y nb2 x b2 xi2 2b xi yi yi2
2
展开
n
n
i 1
i 1
n[a ( y bx)]2 b2 ( xi2 nx ) 2b( xi yi nx y ) ( yi2 ny )
a,b 上方加上“尖”,表示由观察值按最小二
乘法求得的估计值.
④引入“样本相关系数 r”来定量地描述回归直
线方程是否有意义:
n
xiyinx
y
i=1
r=
n
n
( xi2nx-2)( yi2ny-2)
i=1
i=1
(具体问题中,提供此公式)
⑤给出“相关性检验的临界值表”(如右表所示):
2
1
n
n[a ( y bx)]2 b2 ( xi x)2 2b ( xi x)( yi y) ( yi y)2
2
使得 Q 取得最小值,当且仅当前两项的值
都为 0.所以
n
)(y -y
n
––
(xi-x
i ) (xi yi) nx y
i=1
^
^–x,b
^=i=1
a =y––b
=
n
n
)2
(xix
xi2-nx–2
i=1பைடு நூலகம்
i=1
用公式(一)、(二)变形得
三、 总结规律
上述推导过程是围绕着待定参数 a,b 进行的,
只含有 xi,yi 的部分是常数或系数,用到的方法
有:
① 配方法,有两次配方,分别是 a 的二次三项
式和 b 的二次三项式;
关于定量变量间的回归分析
一.关于变量
定量变量
在现实生活中的变量包括两类
分类变量
1.定量变量:以常数的变量为定量变量:如体
重 70kg;身高 180cm;温度 15C 等等
2.分类变量:以不同“取值”表示个体所属不
同的类别的变量称为分类变量.如性别男、女;
是否吸烟;是否患病;宗教信仰;国籍等等.
(3)回归分析不对称地对待两个变量,自变
量 x 是确定的,因变量 y 是随机的
(了解)回归直线方程的推导
一、 先证明两个在变形中用到的公式
设 x 与 y 是具有线性相关关系的两个变
公式(一) ( x x) x
n
n
2
i
i 1
量,且相应于样本的一组观测值的 n 个点的坐
证明:∵ ( x x)
⑥使用 r 及“相关性检验的临界值表”对 x,y 的
线性相关程度作定量描述:
以 r0.05(95%的 把 握) 为
例,查 n–2 及 0.05 交叉的
数据 r0.05,
若|r|≥r0.05,则有 95%的
把握认为 x,y 之间具有线
性相关关系,此时求回归
直线方程有意义;
若<r0.05,则不足 95%
x x1 x2 … xn
y y1 y2 … yn
②画“散点图”,若直观发现点(xi,yi)(i=1,2,…,n)
在一条直线附近,则求回归直线方程有意
义,但此直观方法难以说清有多大把握认
为两个数据组是线性相关的
两个变量具有相关关系是回归分析的前提,
否则不相关.
③理论上,任意给定两个数据组,都可求回归直
等等都是相关关系.又如正方形面积 S 与其边
长 x 间虽然是一种确定性关系,但在每次测量
边长时,由于测量误差等原因,其数值大小又
表现出一种随机性.而对于具有线性关系的两
个变量来说,当求得其回归直线后,我们又可
以用一种确定性的关系对这两个变量间的关
系进行估计.
确定的; 是一种理想的关系模型
例如正方形面积 S 与边长 x 之间的关系 s=x2
r>0 或 ^
b >0(像增函数)
(2)负相关:自变量越大时因变量大致变小;
r<0 或 ^
b <0(像减函数)
(3)不相关:自变量与因变量没有任何依赖关系.
^同号,r 的取值范围是[1,1],
说明:① r 与b
|r|越接近 1,相关性越强,
|r|越接近 0,相关性越弱。
^ 的统计意义:自变量每变化一
转化为平均数 x,y
2
i 1
在上式中,共有四项,后两项与 a,b 无关,为
na 2 2na( y bx) b2 xi2 2b xi yi yi2
n
n
配方法
为标准整理
2
n
用公式(一)、(二)变形
Q ( y1 bx1 a)2 ( y2 bx2 a)2 ( y3 bx3 a)2
(
x
x
)(
y
y
)
i
i
n
n
2
( y y)2
i 1 n
n a ( y bx) ( xi x) 2 b i 1 n
i
2
2
i 1
i 1
(
x
x
)
(
x
x
)
1
i
i 1
i 1
2
常数;前两项是两个非负数的和,因此要
n
n
xi
yi
na 2 2na i 1 b i 1
n
n
n
n
n
b 2 xi2 2b xi yi yi2
i 1
i 1
i 1
以 a,b 的次数
n
n
n
i 1
i 1
i 1
n
n
n
i 1
i 1
n[a ( y bx)]2 n( y bx)2 b2 xi2 2b xi yi yi2
xi yi [( x1 x2
在整体上的接近程度,即
n
(x x
xi yi n 1 2
n
i 1
n
n
i 1
i 1
Q ( yi yi )2 ( yi bxi a)2 ( y2 bx2 a)2 ( y3 bx3 a)2
证明:
因此他们的和不能代表 n 个点与回归直线的
∵ ( xi x)( yi y) ( x1 x)( y1 y) ( x2 x)( y2 y)
整体上的接近程度,因而采用 n 个偏差的平方
( x1 y1 x2 y2
和 Q 来表示 n 个点与相应直线(回归直线)
②回归系数b
个单位,因变量平均变化的单位数.
b>0 时正相关,自变量每增加一个单位,
因变量平均增加 b 个单位.
b<0 时负相关,自变量每增加一个单位,
因变量平均减少 b 个单位.
,y
)必在回归直线上
③样本中心点(x
3.注意:
(1)两个变量不线性相关不意味着不相关;
(2)有相关关系并不意味着一定有因果关系;
公式(二) ( x x)( y y) x y nx y
n
n
2
xn2 ) 2nx nx ( x12 x22
n
2
xn )
n
n
i 1
i 1
y
( y1 y2
n
xi yi 2nx y nx y xi yi nx y
三.统计研究方法
就是函数关系.即对于边长 x 的每一个确定的
1.对于定量变量,采用回归分析方法;
值,都有面积 S 的惟一确定的值与之对应.
2.对于分类变量,采用独立性检验
四、回归分析
1.定量地描述 x 和 y 两个数据组线性相关程度
(即回归直线方程是否有意义)的方法叫回归
分析
①已知 x 和 y 的对应数据组:
二.变量间的关系
1.确定性关系:函数关系---变量间的关系是
2.非确定性关系:相关关系---变量间确实存
在关系,但又不是函数关系,这种关系具有随
机性,则称它们有相关关系或者叫统计依赖关
系,是一种更为一般的情况
3.函数关系与相关关系之间有着密切联系,在
一定的条件下可以相互转化.
例如人的身高与年龄;商品的销售额与广告费
^x+a
^(最佳拟合直线) 其中
线方程 y=b
n
n
(xi-x )(yi-y) (xi yi) nx– –y
i=1
i=1
^
b=
=
n
n
)2
(xix
xi2-nx–2
i=1
i=1
^
^–x
a =y––b
(具体问题中,提供此公式)
其中,^
a 回归常数(回归直线的纵截距)
^
b 是回归系数(回归直线的斜率)
② 变形时,用到公式(一)、
(二)和整体思想;
③ 用平方的非负性求最小值.
④ 实际计算时,通常是分步计算:先求出 x,y ,
再分别计算 ( x x)( y y) , ( x x) 或 x y nx y ,
n
n
n
2
i 1
n
x
i 1
2
i
nx
2
i
i
i 1
i
i 1
i
6
y(千瓦) 2.5 3 4 4.5
在 y=0.7x+a 上a=0.35y|x=8=5.95
4.某产品 A 的产量 x 吨与耗电量 y 千瓦的
对应数据如右表.技术员甲根据表中数据画出
散点图(他知道 m 的值),他认为 x,y 是线性相
关的,并据这 4 组数据求得
x(吨) 3 4 5 6
回归直线方程为ŷ=0.9x−0.8,
y(千瓦) 2 3 3 m
则表中的 m=________;5
技术员乙根据这 4 组数据对 x,y 作相关性检
验,他求得样本相关系数 r=0.923,则乙据附
i
的值,最后就可以计算出 a,b 的值.
1.判断正误.(对的打“√”,错的打“×”)
(1)回归直线必经过点( x , y ).(
√
)
(2)对于方程 y=bx+a,x 增加一个单位时,
y 平均增加 b 个单位.(
√
)
(3)样本数据中 x=0 时,可能有 y=a.(
√
)
(4)样本数据中 x=0 时,一定有 y=a.(
( x2,y2 ),
( x3,y3 ), ,
( xn,yn ) ,下面
标分别是: ( x1,y1 ),
x12 x22
给出回归方程的推导.
( x12 x22
设 所 求 的 回 归 方 程 为
yi bxi a
,
i 1
n
i 1
nx
,其中 x x x
2
1
( x1 x)2 ( x2 x)2
( yn bxn a)2
求出当 Q 取最小值时的 a,b 的值,就求出了
回归方程.
2
.
n
n
i
i 1
i
i 1
i
i
n
i 1
xn yn ) ( x1 y y1 x x2 y y2 x
xn ) y ( y1 y2
i 1
xn
( xn x)2
的把握认为 x,y 之间有线
性相关关系,此时求回归
直线方程无意义.
相关性检验的
临界值表
小概率
n–2
r0.05 r0.01
1 0.997 1.000
2 0.950 0.990
3 0.878 0.959
4 0.811 0.917
5 0.754 0.874
6 0.707 0.834
…
…
…
2.相关关系
(1)正相关:自变量越大时因变量大致变大;
n
n
i 1
i 1
∴ ( xi x)( yi y) xi yi nx y
,
.
( xn x)( yn y)
xn y yn x) nx y
yn ) x] nx y
yn )
x nx y
二、 推导:将 Q 的表达式的各项先展开,
再合并、变形