回归分析的基本思想及其初步应用 课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(x, y)表示样本点中心
n
(xi x)( yi y)
(2)b i1 n
(xi x)2
i 1
(3)aˆ y bx
用最小二乘法求线性回归方程系数公式 :
n
(xi x)( yi y)
bˆ i1 n
,aˆ y bˆx .
(xi x)2
i 1
某公司利润y与销售总额x (单位:千万元)之间有以下对应数据:
体重y 48 47 50 48 45 61 43 59
解:(1)用计算器可得 x=160.25, y=50.125
n
(xi x)(yi y)
(2).b i1 n
0.675
(xi x)2
i1
a y bx 58.04
y 0.675x 58.04
(3)当x 160时, y 0.675x 58.04 49.96
练习:下列5组数据中,去掉( 的数据的线性相关性最大.
)组数据后,剩下
y .D(3,10) .E(10,12)
.C(4,5)
.B(2,4) .A(1,3)
O
x
相关系数r
n
(xi x)( yi y)
r
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
(1)r>0,x,y正相关; r<0,x,y负相关; (2)r的绝对值越接近1,变量的相关性越强;
A.点 2, 2
B.点 1.5,0
C.点 1, 2
D.点 1.5, 4
案例:从某班随机抽取8名女同学的身高 和体重数据如下:求(1) 该样本中心(2) 线性回归方程,(3)若本班有一女生身高是16 0,预报她的体重是多少?
12345678 身高x 165 162 157 160 148 165 155 170
残差eˆi -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
n
残差平方和: ( yi yˆi )2 128.361 i 1
即随机误差的效应为128.361
残差平方和越小,y与x的模型拟合程度越好
理论值yˆi 54.373 54.373 47.581 58.618 62.863 54.373 45.883 58.618
1.在画两个变量的散点图时,下面哪个叙述是正确的
A.预报变量在 x 轴上,解释变量在 y 轴上 B.解释变量在 x 轴上,预报变量在 y 轴上 C.可以选择两个变量中任意一个变量在 x 轴上 D.可以选择两个变量中任意一个变量在 y 轴上
案例:从某班随机抽取8名女同学的身高和体重数据如下, 作散点图,分析变量关系.
残差eˆi -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382 我们利用图形来分析残差特性,作图时纵坐标为残差,横坐 标可以选为样本编号、身高等,这样作出的图形叫做残差图
可以看出第1个样本点和第6样本点的残差比较大,
残差平方和
总偏差平方和
于预报变量变化的贡献率.
学生号 1 2 3 4 5 6 7 8 9 10 X 120 108 117 104 103 110 104 105 99 108 y 84 64 84 68 69 68 69 46 57 71
请问:这十个学生的两科成绩考试是否具有显著性线性相 关关系?
解: 求相关系数 r :
n
(xi x)( yi y)
r
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
0.7506
由0.7506 > 0.75 知,这次段考的数学成绩和 物理成绩有显著性的线性相关关系
回归直线方程表示为: y bx aˆ
复习:最小二乘估计aˆ和b
知(1)识x点:__1n__in_1 _x_i
1 n
y _n__i__1_yi
如高原含氧量与海拔高 度的相关关系,海平面以 上,海拔高度越高,含氧 量越少,称它们成负相关.
O
如果散点图中点的分布从整体上看大致在一条直线 附近,我们就称这两个变量之间具有线性相关关系, 这条直线叫做回归直线,该直线叫回归方程。
脂肪含量 40
35
30
25
20
15
10
5
年龄
O
20 25 30 35 40 45 50 55 60 65
探究: 身高为160cm的女大学生的体重一定是49.96kg吗? 如果不是,你能解析一下原因吗?
答:身高为172cm的女大学生的体重不一定是 60.316kg,但一般可以认为她的体重接近于 60.316kg。
定义:线性回归模型: y =bx+a +e
x:解释变量,y:预报变量,e随机误差
解释变量 x(身高)
r的绝对值越接近0,变量的相关性越弱.
对于相关系数 r ,下列说法正确的是: A. r 越大,相关程度越大; B. r 越小,相关程度越大 C. r 越大,相关程度越小;r 越小,相关程度越大 D. r 1且 r 越接近1,相关程度越大;
r 越接近0,相关程度越小
现随机抽取了高二级10名学生在某次段考的数学 成绩(x)与物理成绩(y),数据如下表:
相关指数R2越接近于1,表示回归的效果越好!
或者说:残差平方和越小,表示拟合(回归)效 果越好
r与R2的区别:
相关系数r:衡量两个变量之间线性相关的强弱
相关指数R2表示解释变量(x)对总效应的贡献率。
在数值上:R2 r2
1、先算相关系数r 2、再算相关指数R2 r2 3、算总偏差平方和 4、用总偏差平方和 R(2 得回归平方和) 5、求残差平方和:总偏差平方和-回归平方和
练习、对下表给出的数据,使用最小二乘法求水稻产量 y对化肥用量x的回归直线,
1234567 x 15 20 25 30 35 40 45 y 330 345 365 405 445 490 455
(1)求x与y的相关系数r,并判断它们的相关性强弱
(2)求回归方程 (4)求相关指数,说明拟合效果,
并对回归模型进行残差分析,求出有可疑的数
年龄. 23 27 39 41 45 49 50 53 54 56 57 58
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 年龄 60 61 脂肪 35.2 34.6
如上的一组数据,你能分析人体的脂肪含量 与年龄之间有怎样的关系吗?
12345678 身高 165 162 157 160 148 165 155 170 体重 48 47 50 48 45 61 43 59
体重(KG)
该班女生身高与体重大概呈线性关系
70 60 50 40 30 20 10
0 145 150 155 160 165 170 175
身高(cm)
体重(KG)
x
10
15
17
20
23
y
1
1.4 1.9 2
2.7
(1)画出散点图
(2)求回归直线方程
(3)估计销售总额为30千万元的利润
参考值: 101151.4 171.9 202 232.7 165.4
5.已知 x 与 y 之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则 y 与 x 的线性回归方程为 yˆ =bx+a 必过
随机误差 e
求预报变量 y(体重)
线性回归模型:y=bx+a+e
x:解释变量,y:预报变量,e随机误差
解释变量 x(身高)
求预报变量 y(体重)
呢?随机误差e对预报变量y影响 又有多大呢?
样本点:(x1, y1)(, x2 , y2), • • •(xn , yn )
yˆ bx aˆ
残差:eˆi yi yˆi
编号 身高x 体重y
yˆ 0.849x 85.712
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
48 57 50 54 64 61 43 59
估计值yˆi 54.373 54.373 47.581 58.618 62.863 54.373 45.883 58.618
下面我们以年龄为横轴,脂肪含量为纵轴建 立直角坐标系,作出各个点,称该图为散点图。
如图:
脂肪含量 40 35
30
25
20
15
10
5
年龄
O
20 25 30 35 40 45 50 55 60 65
从刚才的散点图发现:年龄越大,体内脂肪含量越 高,点的位置散布在从左下角到右上角的区域。称它们 成正相关。但有的两个变量的相关,如下图所示:
相关文档
最新文档