第七章 直线回归与相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
函数关系 有精确的数学表达式 (确定性的关系) 直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析 (回归分析) 多元线性回归分析 多元回归分析 相关关系 多元非线性回归分析 (非确定性的关系) 简单相关分析—— 直线相关分析 平行关系 复相关分析 (相关分析) 多元相关分析 偏相关分析
SST
y的离均差,反映了y的总变异程度,称为y的总平方和。
说明未考虑x与y的回归关系时y的变异。
2 为由x变异引起y变异的平方和,称回归平 ˆ ( y y )
方和(regression sum of squares) U SSR
它反映在y的总变异中由于x与y的直线关系,而使y变 异减小的部分,在总平方和中可以用x解释的部分。
ˆ y) ( y y ˆ) ( y y) ( y
2 2
2
SST U Q SST SS R SS E
ˆ y ) [ y b( x x ) y ] b U SS R ( y
2 2 2 2 ( x x ) b SS x 2
(0, )的随机变量。这就是直线回归的数学模型。
总体线性回归模型的图示
Y
yi xi i
观察值
i
yx x
X
观察值
总体线性回归模型
参数
随机误差
yi xi i
因变量
yx
y条件平均数
自变量
为了描述X与Y间的数量关系,必须找出一个能代表Y的 值与χi对应,这个代表值只能是当X=χi时,Y的平均数 μy/X= χi。 μy/X= χi称为Y的条件平均数。
第二节:直线回归
Linear Regression
一、直线回归方程的建立
二、直线回归的数学模型和基本假定
三、直线回归的假设检验
四、直线回归的区间估计
一、直线回归方程的建立
1、散点图:
通过试验或调查获得两个变量的n对观测值:(x1,y1), (x2,y2),……,(xn,yn) 。为了直观地看出x和y间的变 化趋势,可将每一对 观 测 值 在 平 面直角坐标系描点,作出 散点图 。
收集数据
散点图
X
平均温度(℃) 11.8
Y
历期天数(d ) 30.1
x 134 .7
2 x 2323 .19
14.7
15.6 16.8
17.3
16.7 13.6
y 115 .3
2 y 2039 .03
17.1
18.8 19.5 20.4
11.9
10.7 8.3 6.7
2
xy x
( x x)( y y) 简称乘积和 ,记作 SPxy 或Ssxy 。
自变量 x 的离均差与依变量y 的离均差的乘积和。
( x x)
2
简称SSX 。
a 叫做样本回归截距,是总体回归截距的最小二乘估
计值也是无偏估计值,是回归直线与y轴交点的纵坐标,
当 x = 0时, y = a; b 叫做样本回归系数,表示 x 改变一个单位,y 平均 改变的数量;b 的符号反映了x影响y的性质,b的绝对值 大小反映了 x 影响 y 的程度;
x与y的关系散点图
从散点图可以看出:
两个变量间关系的类型(直线型或曲线型) 两个变量间关系的性质(正向协同变化或负向协同变化)和 程度(关系是否密切) 是否有异常观测值的干扰
散点图直观地、定性地表示了两个变量之间的关系。
为了探讨它们之间的规律性,还必须根据观测值将其内在
关系定量地表达出来。
2、直线回归的数学模型
2
e
最小
e1
e2
e3
e4
x 原则:回归直线是指所有直线中最接近散点图全部散点的直 线,即最好的直线是使总的估计误差达到最小的直线。
最小二乘法
(method of least square)
n
ˆ) (y y
1 2 n
n
2
最小
ˆ ) ( y a bx) Q (y y
1 1
根据回归的定义: X 每一个取值都有 Y 的一个正态分布与之对应。 由于依变量y的实际观测值总是带有随机误差,因 而依变量y的实际观测值yi可用自变量x的实际观测值xi 表示为:
y i xi i
(i=1,2, …, n) (6-1)
式中:α,β为未知参数, i为相互独立,且服从N
相 关 变 量
一个变量的变化受另一个变 因果关系 量或几个变量的制约。
两个以上变量之间互为因果 平行关系 或共同受到另外因素的影响。
1、回归分析 (regression analysis) 研究呈因果关系的相关变量间的关系。表示原 因的变量称为自变量,表示结果的变量称为依变量。 一因一果,一元回归分析 一个自变量与一个依变量的回归分析,分为 直线回归分析与曲线回归分析两种。
ˆ a bx y
2 ˆ Q ( y y) 1 n
基本性质
为最小值
ˆ) 0 (y y
( x, y )
温度 变量 1
X
平均温度(℃)
11.8 14.7 15.6 16.8 17.1 18.8 19.5 20.4
天数 变量 2
Y
历期天数(d )
30.1 17.3 16.7 13.6 11.9 10.7 8.3 6.7
回归方程计算表2 (二级数据) ∑Xi= X= ∑Xi2=
(∑Xi)2/n=
∑Yi= Y= ∑Xi Yi=
(∑Xi∑Yi)/n=
n= ∑Yi2=
(∑Yi)2/n=
SSx=
SPxy=
b= SPxy/ SSx= a=y-bx=
SSy=
注:x,y分别为X,Y的平均数
40 30 20
ˆ 57.0400 2.5317 x y
2、相关分析 ( correlation analysis)
研究呈平行关系的相关变量之间的关系。 简单相关分析: 对两个变量间的直线关系进行相关分析,也称为直 线相关分析。 复相关分析: 对多个变量进行相关分析时,研究一个变量与多 个变量间的线性相关;
偏相关分析:
研究其余变量保持不变的情况下两个变量间的线 性相关。
整理得关于a、b的正规方程组:
an b x y a x b x 2 xy
( x x )( y y ) SP b SS ( x x)
2
解正规方程组,得:
a y bx
xy x
a y bx
( x x )( y y ) SP b SS ( x x)
直线相关与回归分析
复习
1、方差分析的用途。
2、方差分析的基本思路
3、方差分析的出发点
4、方差分析的步骤
5、单因素方差分析中SS T、SS t、SS e的含义及 三者的关系。
本章节内容
第一节 第二节
第三节
第九章
回归与相关的概念 直线回归
直线相关
第一节:回归与相关的概念
前面各章我们讨论的问题,都只涉及到一 个变量,如体重 、日增重、产仔数、体温、 血糖浓度 、产奶量 、产毛量或孵化率 、发病 率等。 但是,由于客观事物在发展过程中相 互联系、相互影响,因而在生物学研究中常常 要研究两个或两个以上变量间的关系。
最小二乘估计法 设回归直线方程为:
ˆ a bx y
(6-2)
其中, a 是α的估计值,b是β的估计值。
主 页退 出 上一张 下一张
建立 样本线性回归方程的方法 最小二乘法
实际观察值与样本回归线上
的点的距离的平方和最小
y
n
i1
yi yi
n 2 i i 1
SSR(U)值大,说明回归效果好。
ˆ) (y y
2
离回归平方,误差平方和,残差(剩余) 平方和(residual sum of squares)SSE Q
误差因素引起的平方和,反映了除去x与y的直线回归关 系以外的其余因素使y引起变化的大小。 反映x对y的线性影响之外的一切因素对y的变异的作 用,也就是在总平方和中无法用x解释的部分。 在散点图上,各实测点离回归直线越近,SSE (Q) 值越小,说明直线回归的估计误差越小。
研究两个或两个以上变量间的关系有两类:
一、确定的函数关系:变量间存在着完全确 定性的一一对应关系,可以用精确的数学表达式来 表示。 二、不完全确定的函数关系:变 量 间不存在完全
的确定性关系,不能用精确的数学公式来表示,统计
学中把这些变量间的关系称为协变关系(相关关系),
把存在协变关系的变量称为协变量(相关变量)。
多因一果,多元回归分析 多个自变量与一个依变量的回归分析,分为 多元线性回归分析与多元非线性回归分析两种。
回归分析的任务: 揭示出呈因果关系的相关变量间的联系形 式,建立它们之间的回归方程,利用所建立的 回归方程,由自变量(原因)来预测、控制依 变量(结果)。 回归分析主要包括: 找出回归方程;检验回归方程是否显著; 通过回归方程来预测或控制另一变量。
SPxy xy
( x )( y )
b
SP xy SSx
2.5317
a y b x 57.0400
ˆ 57.0400 2.5317 x y
以上计算也可在回归计算表中进行。 回归方程计算表1(一级数据)
序号k Xi Yi X i2 XiYi Yi2
1 2 ∑
2
2 ˆ ˆ) ( y y ) ( y y ) (y y 2
依变量 y 的平方和,总平方和,记SST或SS总。
ˆ y) ( y y ˆ) ( y y) ( y
2 2
2
回归平方和 U SSR
离回归平方和 Q SSE
2 ( y y )
11.8-----20.4
天数(天)
10 0 10 12 14 16 18 20 22 温度 (℃)
b的生物学意义:当温度提高一个单位时,历期缩短2.5317天。 a的生物学意义:当温度为0时,历期是57.04天。 根据直线回归方程可作出回归直线,见图。从图看出,并不是 所有的散点都恰好落在回归直线上,这说明用 y ˆ 去估计y是有偏 差的。
二、直线回归的假设检验
ˆ a bx y
有意义 指导实践
是否真正存在线性关系 回归关系是否显著
(一)对回归方程的F检验
1、直线回归的变异来源
y-y y-y 实际值与估计值之差,剩余或残差。 估计值与均值之差,它与回归系数的大小有关。
2
ˆ y) ( y y ˆ) ( y y) ( y
如何估计μy/X= χi是直线回归所要解决的问题。
多次重复的平均值所做的直线估计总体最理想 实际应用中并不设置重复,而是直接用 n对观察 值估计总体回归线。
根据回归方程所画出的直线称为回归线,b是直线 的斜率,称为回归系数。
怎样通过实际观测值得到总体回归 α 和 β 的最好点估计值a和b?
参数α,β的估计
b
SPxy SS x
2
U SS R
SPxy SS x
2
ˆ) Q (y y
Q SSE SST SSR
dfT df R df EFra Baidu bibliotek
直线回归分析中,回归自由度等于自变量 的个数,只涉及到1个自变量
2
(x,y) y=a+bx y-y y-y y
ˆ y) 2 (y y ˆ ) 2 2 (y ˆ y)(y y ˆ) (y
ˆ y )( y y ˆ ) b( x x )( y y ) b( x x ) (y bSPxy b 2 SS x ( SP SP 2 ) SP ( ) SS x 0 SS x SS x
2
a、b应使回归估计值与实际观测值的误差平方和最小,即:
ˆ )2 ( y a bx) 2 最小 Q (y y
这种使估计误差平方之和达最小的参数估计方法称为最小 二乘法。
令 Q对a、b的一阶偏导数等于0,即:
Q 2 ( y a bx) 0 a Q 2 ( y a bx) x 0 b
n 8
x x n 16 .8375 y y n 14 .4125
SSx x 2 SS y y 2
( x) 2 n ( y ) 2 n
( x x) 2 55.1788 ( y y ) 2 377 .2688 n ( x x)( y y ) 139 .6937