7复习课件.2 直线回归与相关分析复习课件.ppt
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
b1SP12 b2SP2 bm SP2m SP2 y
b1SP1m
b2SP2m
bmSPm 精选
SPmy
这个正规方程组可用矩阵表示为:
SP1y SP1 S1P2
SP2y
SPny
SP12
SP1m
SP2
SP2m
S1Pm b1 SP2m b2
SPm bm
(Y b1X1 b2X2 bm Xm )X2 0
Q 2 bm
(Y b1X1 b2X2 bm Xm )Xm 0
精选
经整理,得到如下正规方程组:
b1
X12 b2
X1X2 bm
X1Xm
X1Y
b1
X1X2 b2
X22 bm
X2Xm
X2Y
b1 X1Xm b2 X2Xm bm Xm2 XmY
精选
精选
精选
一、确定曲线类型的方法
1 专业知识、经验或文献确定曲线类型
单细胞生物生长初期符合指数函数增长,但若考 虑到生长一定时间后,后期生长受到抑制,其生 长曲线变成“S”形。 酶促反应动力学中的米氏方程是一种双曲线。
精选
2 散点图的方法
通过散点图,确定曲线类型。 如果几种类型可供选择,可多做几次回归,进行 比较,再确定曲线类型。
F
Uy/12m/m
Q / y/12m [n(m1)]
精选
注意: 1 多元线性回归关系显著不排斥有更合理的多元非线
性回归方程的存在 2 多元线性回归关系显著不排斥其中存在着与依变量y
无线性关系的自变量,因此有必要对各偏回归系数 逐个进行假设检验。只有当多元回归方程自变量的 偏回归系数均达到显著时,F值才有确定的意义。
Qy/1 2mSS yUy/1 2m Uy/1 2mb1S1Pyb2S2PybmSm Py
精选
(二) 多元线性回归方程的假设测验
H0:β1=β2 =… =βm =0 ;HA:βi不全为0。
SSy = Uy/12…m + Qy/12…m ,Uy/12…m由 x1、x2、…、xm的 不同所引起,具有df=m;Qy/12…m与 x1、x2、…、xm 的不同无关,具有df=n-(m+1),由之构成的F 值:
y´=lny y´=lny
x´=lnx
a´=lna a´=lna
ˆy=axebx
y´=ln(y/x)
a´=lna
ˆy=1/(axb) y´=ln(1/y) x´=lnx a´=lna
精选
直线化的方程
ˆy =a+bx ˆy =a+bx ˆy =a+bx ˆy =a+bx ˆy =a+bx´ ˆy =a+bx´ ˆy =a+bx´ ˆy =a+bx ˆy =a+bx ˆy =a´+bx´
(一) 多元回归的线性模型和多元回归方程式 若依变量y同时受到m 个自变量x1、x2、…、xm 的 影响,且这m 个自变量皆与y成线性关系,则这 m+1个变量的关系就形成m 元线性回归。
精选
一个m元线性回归总体的线性数学模型为:
yi yβy12 3m (x1- x1)βy21 3m (x2- ) x2 βym 1 2m (xm- xm)εi
bx 1
K
y2
ae
bx 2
y2
K
y3
ae
bx 3
y3
x1x2
yy12((K K yy21))yy12((K K yy21))x2x3
令x2
Hale Waihona Puke x1x3 2Ky2精2选(y1y22y-3)y1y23y1y2y3
四、存在问题
不是所有非线性方程都能用变量代换线性化。
即使方程类型不对时,变量代换与线性回归 仍可照常进行,但结果没有任何用途,强行 使用会导致错误。
精选
(三) 偏回归系数的假设测验
偏回归系数的假设测验,就是测验各个偏回归系数 bi(i=1,2,…,m)来自βi=0的总体的概率。
H0:βi=0;HA:βi≠0。 测验方法有两种。
精选
1.t 测验
c s b i = sy/12…m
ii
t bi i
sbi
i 0
t bi s bi
服从df=n-(m+1) 的t分布,可测验bi的显著性。
精选
两变量间的非线性关系 用来表示双变量间的关系有多种曲线。
曲线类型
直线类型
曲线回归方程
直线回归方程
精选
米氏方程
V Vmax[S] Km [S]
Km — 米氏常数 Vmax — 最大反应速度
当反应速度等于最大速度一半时,即V = 1/2 Vmax, Km = [S]
上式表示,米氏常数是反应速度为最大值的一半时 的底物浓度。米氏常数的单位为mol/L。
若系数矩阵用A表示,未知元矩阵用b表示,常 数矩阵用K表示: Ab=K
精选
为求解式中的b,一般应先求出A的逆矩阵A-1,令:
c11 c12
A1
(cij)
c21
c22
cm1 cm2
c1m c2m
cmm
式中,A-1是一个m阶的对称矩阵,即cij= cji , 由于A-1是A的逆矩阵,故有:
精选
曲线回归的相关指数:
R2 1
(yˆy)2 (yy)2
反映回归曲线拟合度的高低,表示利用曲线回归 方程进行估测的可靠程度的高低。
精选
二、数据变换的方法
1 直接引入新变量
如 ˆyablgx
令x´=lgx:
ˆyabx
精选
2 方程变换后再引入新变量
如 ˆy axb 两边取对数 lgˆylgablgx 令 y ly g ,a la g ,x lx g :
开始增长缓慢,而在以后的某一范围内迅速增长, 达到某限度后,增长又缓慢下来,曲线略呈拉长的 “S”,因此,也称为S型曲线。
精选
y
yˆ
1
K a eb x
K
0
x0
x
yˆ K 1 a
yˆ K
精选
K 2 K 1+a
x
起始量
终极量
yˆ
1
K a eb x
y
下凹
上凸
0
ln( 1 )
x
a
b
yˆ K 2
精选
对数函数曲线 yˆablgx x'l gx
yˆ abx'
精选
幂函数曲线
yˆ axb lgy ˆlgablgx y lˆ y g ,a la g ,x lx g
y'a'bx' 精选
S形曲线
yˆ
a
1 bex
1 a bex yˆ
y 1 , x ex ˆy
yˆ'a精选bx'
三 Logistic生长曲线 特点
或
ˆ y a b 1 x 1 b 2 x 2 b m x m
a为α的样本估计值,a可由下式求出: a y b 1 x 1 b 2 x 2 b m x m
精选
二 多元回归统计数的计算
同一元直线回归方程一样,多元线性回归方程也 可根据最小二乘法建立:
Q(yˆy)2 [yyb1(x1-x1)b2(x2-x2)bm(xm-xm)]2
最小值 令 Yyy,X1x1x1,X2x2x2, ,Xmxmxm, 则有:
Q (Yb1X1b2X2 精 选bmXm)2最 小 值
要使Q达到最小,就必须使b1, b2, …,bm的偏微分 方程皆等于0,即有:
Q 2 b1
(Y b1X1 b2X2 bm Xm )X1 0
Q 2 b2
只能使变换后数据的线性方程残差最小,采用 线性化方法进行曲线回归后必须进行检验。
精选
第四节 多元线性回归分析
一、多元线性回归模型 二、多元线性回归方程的建立 三、多元回归的假设测验和置信区间
精选
一、多元线性回归模型
多元回归或复回归(multiple regression):依变量 依两个或两个以上自变量的回归。
ˆy ' 1 ˆy
ˆy'abx
ˆy ' x ˆy
ˆy'abx
ˆy' 1 ; x 1
ˆy'
x
yˆ'abx'
精选
指数函数曲线
yˆ aebx
ˆy abx
lnyˆlnabx
ln ˆyln axln b
ˆyln ˆy,aln a ˆ ylˆ n y,a ln a ,b ln b
yˆ'a'bx
ˆy'a'bx
倒数函数曲线
ˆy a bx x
ˆy' ˆyx
ˆy'abx
(1)x的观测量无0值。 (2)yx应具有专业意义,而不是抽象的量。 (3)以y´(y´=yx)和x为坐标绘制出的散点图有明 显的直线性。 (4)y´和x的相关系数显著。
精选
ˆy 1 a bx
ˆy x a bx
1 a b
yˆ
x
其中, i 为随机误差,服从N( 0,
) 2
y/x1,x2,,xm
的正态分布,
2 y/x1,x2,,xm
为离回归方差,其平方根
为离回归标准差或回归估计标准误。
精选
y,x1,x2, ,xm 依次为y, x1 , x2,… , xm的总体平均
数,其样本估计值依次为 y,x1,x2, ,xm;
y123m为x2, x3,…, xm固定不变时,x1每变动一个单 位,y平均变动的相应单位数,称为x2, x3,…, xm固定 不变时x1对y的偏回归系数(partial regression coefficient),简记作β1,其样本估计值简记作b1, 余下类推。
精选
2. F 测验
Uy/12…m随着m增多而增大,且Uy/12…(m-1)= Uy/12…m-Ui
Ui
b
2 i
c ii
Ui就是y对xi的偏回归平方和。df=1。
F
Ui
Qy/12m/[n(m1)]
精选
注意: 1、t检验结果和F检验结果一致
F
U pi
Q y / 12 m /( n-m- 1 )
b
2 i
精选
由S 于S 1 X12,SS2 X22, ,SSm Xm 2; S1P2 X1X2, ,S1Pm X1Xm,SP 2m X2Xm, ; S1Py X1Y,SP 2y X2Y, ,SP my XmY;
则可得如下方程组:
b1SP1 b2SP12 bm SP1m SP1y
精选
若令 α μ y β 1 μ x 1 β 2 μ x 2 β m μ x m ,则多元 线性回归的数学模型为:
y i β 1 x 1 β 2 x 2 β m x m i
精选
样本多元线性回归方程为: ˆ y y b 1 ( x 1 - x 1 ) b 2 ( x 2 - x 2 ) b m ( x m - x m )
A-1 A=I(单位矩阵)
精选
由Ab=K 得b=A-1K:
b1 c11 c12
b2
c21
c22
bm cm1 cm2
c1m SP1y c2m SP2y
cmm
SPny
由此可见,求偏回归系数建立多元线性回归方程, 首先要解出系数矩阵A的逆矩阵A-1,然后由A-1求出 bi和a。 A-1可采用表解法求得。 P216
/
c
i
s2 y /12 m
b
2 i
s2 bi
t
精选
2、如各自变量间不相关,即rij=0:
ˆyabx
精选
常用曲线模型的直线化方法
曲线回归方程
经尺度转换的新变量及参数
y´
x´
a´
ˆy=(a+bx)/x y´=yx
ˆy=1/(a+bx) y´=1/y
ˆy=x/(a+bx) y´=x/y
ˆy=ax+bx2 y´=y/x
ˆy=a+blnx
x´=lnx
ˆy=a+blgx
x´=lgx
ˆy=axb ˆy=aebx
精选
精选
米氏常数Km的意义
不同的酶具有不同Km值,它是酶的一个重要的特征 物理常数。
Km值只是在固定的底物,一定的温度和pH条件下, 一定的缓冲体系中测定的,不同条件下具有不同的 Km值。
Km值表示酶与底物之间的亲和程度:Km值大表示 亲和程度小,酶的催化活性低; Km值小表示亲和程 度大,酶的催化活性高。
第三节 可直线化的非线性回归分析
非线性回归的直线化 倒数函数曲线 指数函数曲线 对数函数曲线 幂函数曲线 Logistic生长曲线
精选
4 3 2 1
123456
直线关系
4 3 2 1
123456
曲线关系
直线关系是两变量间最简单的一种关系。
这种关系仅在变量的一定取值范围内可用,范围过 大,散点图就偏离直线,需要借助于曲线描述。
精选
K
K 2 K 1+a x
拐点
yˆ
1
K aeb
x
K ˆy aebx ˆy
ln(Kˆy)lnabx ˆy
ˆylnK(ˆy)a ,ln a,bb ˆy
ˆyabx
精选
K值
y是累积频率时: y无限增大的终极量应为100(%),可用 K=100表示。
精选
y是生长量或繁殖量时:
K
y1 y1
ae
精选
三、多元线性回归的假设测验和置信区间
(一) 多元回归方程的估计标准误
实际观测值y与多元回归方程的点估计 ˆy的差值的 平方和称为多元回归方程的离回归平方和,记为 Qy/12…m 。
精选
自由度df=n-(m+1)=n-m-1 估计标准误为:
sy/12m
Qy/12m n(m1)
总平方和
回归平方和