第十一章多元线性回归与logistic回归
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章 多元线性回归与logistic 回归
一、教学大纲要求
(一)掌握内容
1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。
3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P 值下结论。 4.logistic 回归模型结构:模型结构、发病概率比数、比数比。 5.logistic 回归参数估计方法。
6.logistic 回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。 (二)熟悉内容
常用统计软件(SPSS 及SAS )多元线性回归分析方法:数据准备、操作步骤与结果输出。
(三)了解内容
标准化偏回归系数的解释意义。
二、教学内容精要
(一) 多元线性回归分析的概念
将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归(multiple regression )
基本形式:
01122ˆk k
Y b b X b X b X =+++⋅⋅⋅+ 式中Y ˆ为各自变量取某定值条件下应变量均数的估计值,1X ,2X ,…,k
X 为自变量,k 为自变量个数,0b 为回归方程常数项,也称为截距,其意义同直线回归,1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。
(二) 多元线性回归的分析步骤
Y ˆ是与一组自变量1X ,2X ,…,k
X 相对应的变量Y 的平均估计值。 多元回归方程中的回归系数1b ,2b ,…, k b 可用最小二乘法求得,也就是求出能使估计
值Y ˆ和实际观察值Y 的残差平方和22)ˆ(∑∑-=Y Y e i 为最小值的一组回归系数1b ,2b ,…,
k b 值。根据以上要求,用数学方法可以得出求回归系数1b ,2b ,…, k b 的下列正规方程组
(normal equation ):
⎪⎪
⎩
⎪⎪
⎨⎧=+++=+++=+++ky kk k k k y
k k y k k l l b l b l b l l b l b l b l l b l b l b 22112222221111122111
式中
()()
()()i j ij ji i i j j i j X X l l X X X X X X n
==--=-
∑∑∑∑
∑∑∑∑-
=--=
n
Y X Y X Y Y X X
l i i i i
iy )
)(())((
常数项0b 可用下式求出:
k k X b X b X b Y b ----= 22110
(三)多元线性回归分析中的假设检验
在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量1X ,2X ,…,k X 是否与Y 真有线性依存关系,也就是检验无效假设0H (1230k ββββ===== ), 备选假设1H 为各j β值不全等于0或全不等于0。
检验时常用统计量F
)
1(--=
=
k n l k l MS MS F 误差回归误差
回归
式中n 为个体数,k 为自变量的个数。
式中 ky k y y l b l b l b l +++= 2211回归
回归总误差l l l -=
()∑=-=yy l Y Y l 2
总
(四) logistic 回归模型结构
设k X X X ,,,21 为一组自变量,Y 为应变量。当Y 是阳性反应时,记为Y =1;当Y 是阴性反应时,记为Y =0。用P 表示发生阳性反应的概率;用Q 表示发生阴性反应的概率,显然P +Q =1。
Logistic 回归模型为:
k
k k
k X X X X X X e e P ββββββββ+++++++++=
22110221101
同时可以写成:
k
k X X X e Q ββββ+++++=
2211011
式中0β是常数项;(12)j j k β= ,,,是与研究因素j X 有关的参数,称为偏回归系数。 事件发生的概率P 与x β之间呈曲线关系,当x β在()∞∞-,之间变化时, P 或Q 在(0,1)之间变化。
若有n 例观察对象,第i 名观察对象在自变量ik i i X X X ,,,21 作用下的应变量为i Y ,阳性
反应记为i Y =1,否则i Y =0。相应地用i P 表示其发生阳性反应的概率;用i Q 表示其发生阴性反应的概率,仍然有i P +i Q =1。i P 和i Q 的计算如下:
01122011221i i k ik
i i k ik
X X X X X X P i e e ββββββββ++++++++=+
011221
1i i k ik
i X X X Q e ββββ++++=
+
这样,第i 个观察对象的发病概率比数(odds )为i i Q P ,第l 个观察对象的发病概率比数为l l Q P ,而这两个观察对象的发病概率比数之比值便称为比数比OR (odds ratio )。对比数
比取自然对数得到关系式:
ln )()()(222111lk ik k l i l i l l i i X X X X X X Q P Q P -++-+-=⎪
⎪⎭
⎫
⎝⎛βββ 等式左边是比数比的自然对数,等式右边的()lj
ij X X -()k j ,,, 21=是同一因素i
X
的不同
暴露水平ij X 与lj X 之差。j β的流行病学意义是在其它自变量固定不变的情况下,自变量j X 的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量j X 的水平每增加一个测量单位时所引起的比数比为增加前的j
e
β倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。
(五)logistic 回归参数估计
由于logistic 回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate )求解模型中参数j β的估计值(12)j b j k = ,,,。
Y 为在k X X X ,,,21 作用下的阳性事件(或疾病)发生的指示变量。其赋值为:
⎩
⎨⎧=应个观察对象出现阴性反,第应个观察对象出现阳性反,第i i Y i 01
第i 个观察对象对似然函数的贡献量为:
1i i
Y Y i i i
l P Q -= 当各事件是独立发生时,则n 个观察对象所构成的似然函数L 是每个观察对象的似然函数贡献
量的乘积,即
∏∏==-==n i n
i Y i Y i i i i Q P l L 1
1
1
式中∏为i 从1到n 的连乘积。
依最大似然估计法的原理,使得L 达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton —Raphson 迭代算法求