广义线性模型及其在数据分析中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要
广义线性模型是一类现如今十分重要的数学模型,它是经典线性模型的推广,在当今社会有着广泛的应运。

在医学、生物以及经济等数据的统计和分析上有着很深的意义。

它可适用于离散的数据和连续的数据,尤其是前者,像属性数据、计数数据等等。

广义线性模型包括了许多模型,其中有方差分析模型、线性回归、交替响应的对数和概率单位模型、计数的多项响应模型、对数线性模型以及生存数据的一些常用模型等等。

本论文前两章讨论了广义线性模型的研究现状以及广义线性模型的基本理论。

第三章通过医学、生物和经济三个方面的实例来研究广义线性模型在日常生活中的广泛应用。

医学方面讨论了新药试验过程中广义线性模型对于新药的有效性研究提供了一种最为合适且快捷的方案。

生物方面通过浙江省一个水稻区域试验来说明广义线性模型在非平衡数据的处理上较与经典线性回归模型有着很显著的优越性。

经济方面则通过车辆保险费率厘定的实例来说明广义线性模型处理数据的简便与快捷。

三个方向的研究与探讨都说明了广义线性模型在现今社会生活中有着无法替代的存在感,在各个领域都有着极其广泛的应用。

关键词:广义线性模型;数据分析;timi分级;极大似然估计
Abstract
The generalized linear model is a kind of mathematical model which is very important nowadays. It is the popularization of the classical linear model. It is widely used in today's society. In the medical, biological and economic data and statistical analysis and has a deep meaning. It can be applied to discrete data and continuous data, especially the former, like attribute data, count data and so on. The generalized linear model includes a number of models, including variance analysis models, linear regression, logarithm of alternating responses and probability unit models, counting multiple response models, logarithmic linear models, and some common models of survival data. The first two chapters of this paper discuss the general situation of generalized linear model and the basic theory of generalized linear model. The third chapter studies the broad application of generalized linear model in daily life through medical, biological and economic aspects. In this paper, the generalized linear model of the new drug trial is discussed in the medical field, which provides a most suitable and quick solution for the effectiveness of the new drug. The biological aspect shows that the generalized linear model has a significant superiority with the classical linear regression model in the treatment of non - equilibrium data through a rice regional experiment in Zhejiang Province. Economic aspects of the vehicle through the insurance rate to determine the examples to illustrate the generalized linear model of data processing is simple and fast. The study and discussion of the three directions show that the generalized linear model has an irreplaceable sense of existence in today's social life and has a wide range of applications in various fields.
Key words: Generalized linear model; data analysis; timi classification; maximum likelihood estimation
目录
摘要 (I)
Abstract (II)
目录.................................................................................................................... I II 第一章绪论.. (1)
1.1课题研究目的与意义 (1)
1.2国内外研究现状 (1)
第二章广义线性模型的研究 (3)
2.1两种线性模型 (3)
2.2常见的广义线性模型 (3)
2.3广义线性模型的优点 (4)
2.4广义线性模型的两种参数估计方法 (4)
2.4.1极大似然估计 (4)
2.4.2两参数估计 (9)
第三章广义线性模型在数据分析中的应用 (11)
3.1 广义线性模型在timi分级影响因素分析中的应用 (11)
3.2 广义线性模型在水稻区域试验中的应用 (13)
3.2.1实例 (15)
3.2.2分析与结果比较 (16)
3.2.3分析与展望 (17)
3.3 广义线性模型在汽车保险定价中的应用 (17)
3.4 广义线性模型在保险赔款预估中的应用 (19)
第四章总结 (24)
参考文献 (25)
致谢 (26)
第一章绪论
1.1课题研究目的与意义
广义线性模型是从线性模型演变过来的,但是它比经典的线性模型适应性更强,在处理很多数据分析问题中表现出很多优点。

广义线性模型可用于处理分析连续数据和离散数据,它先把数据拟合线性回归模型,然后用显著性检验方法来检验,从而得到分析的结果。

二十世纪七十年代广义线性模型最初被提出[1],把一般线性模型进行了拓展,增加了传统线性模型的适用范畴,很好地解决了其数据使用不全的限制。

广义线性模型包含了许多统计模型,可以称它为回归模型的总体框架,它不但能处理定量资料,更在分类资料方面有显著成效。

为了解决数据中存在的许许多多问题,相继有人提出了拟似然估计方法、极大似然估计方法、广义线性混合模型等理论[8],这些方法和理论很好地改进和发展了广义线性模型。

而似然函数新的数学算法的提出,更是使这些改进更好的得到了实现,广义线性模型的应用也更加普遍。

广义线性模型的提出,在很多领域都得到了有价值的利用,尤其是在医学、生物和经济等领域。

而在之前,我们通常使用经典线性回归模型来拟合数据,这要求我们在处理数据是要假设数据是服从正态分布的,且方差为常数。

但是实际生活中,我们在处理数据时往往发现数据并不满足正态分布,但是它们却服从典型的广义线性模型。

这个时候广义线性模型的应用便成了数据分析问题中的中流砥柱。

1.2国内外研究现状
线性模型我们可以分为普通和广义这两类线性模型。

广义线性模型(简称GLM)是从经典线性模型拓展出来的。

它可用于处理连续数据和离散数据,特别是离散数据,在医学、生物、社会、经济等领域的应用十分普遍。

早在1919年,英国著名统计学家Fisher就已经使用过广义线性模型。

在1940年,Berkson、Dyke、Patterson使用了广义线性模型中的一个重要特例Logistic模型。

1972年,Nelder把经典线性回归模型进行了拓展,最终得出广义线性模型,这个模型的
诞生对统计学领域产生了极其重大的影响。

1974年,Wedderburn研究了广义线性模型的拟似然法。

这之后,广义线性模型能够有效的对实际数据进行建模。

于1980年,数据精算中许多领域开始使用广义线性模型[5]。

1983年,MeCullagh和Nelder合作出版了著作“Genelized Linear models”。

1995年,张尧庭通过对比经典线性模型,讲述了广义线性模型的本质特征等内容[15]。

1994年,Fahrmeir和Tutz合作出版了“Multivariate statistical modeling based on Genelized Linear models”。

在这个著作的基础上,陈希孺在2002-2003年之间在《数理统计与管理》上发表了十篇文献[7],对多元广义线性模型的系统进行了介绍。

近年来,广义线性模型的发展很迅速,包括理论和应用方面。

中国学者不断的在广义线性模型的多个领域取得了很大的进展[11,12]。

模型从广义线性模型拓展到了广义线性混合模型、半参数线性模型、广义非线性模型等。

所以模型拓展、检验诊断和参数估计方法等方向的研究也越来越高效了。

广义线性模型的计算软件也得到了发展,比如NAG研发的Genelized Linear Interactive models(GLIM)软件,到后来的SAS和S-plus软件中的Genmod模块也被广泛适用于广义线性模型的计算。

总之广义线性模型在国内外的进展于近百年内得到了迅速的发展。

第二章 广义线性模型的研究
2.1两种线性模型
通常来说,经典线性回归模型为:
Y X βε=+
因为经典线性回归模型受到了许许多多的限制性,1972年,Nelder 和Wedderbum 对经典线性回归模型进行了优化和改进,提出了一个新的概念模型,即广义线性模型。

这一改进扩展了经典线性回归模型的应用领域,广义线性模型相较于经典线性模型提高了适用条件,扩大了应用范围,广义线性模型的表现形式为:
()(),E Y g Y X μβε==+
2.2常见的广义线性模型
(1) 泊松回归模型
如果广义线性模型中,被解释变量 的每一个分量相互之间都是独立的并且满足泊松分布,即,那我们就可以称该
模型为泊松回归模型。

(2) Probit 回归模型
假设Y 作为响应变量有两个取值,取值为0,1,Y 的值受制于解释变量,X Y 是标量或向量都可以,我们可以将1Y =的概率当成是X 的一个函数,即,
(1)()r P Y X X π==
假设()X π和X 之间满足
()()X X παβ'=Φ+

()()1X X παβ-'Φ=+
其中,,αβ是参数,β的维数与X 相等,()Φ表示标准正态分布函数,则
,1,2,...,i y i n =()(),exp T i
i i i y Po x μμβ=
()()1P Y X X αβ'==Φ+ (2-1)
通常,我们把由(2-1)式决定的模型称作Probit 模型。

当然,这是最简单的Probit 模型。

(3) Logistic 回归模型
如果广义线性模型的被解释变量Y 的每一个分量,1,2,...,i y i n =相互独立并
且服从伯努利分布,即 ,就称该模型为Logistc 回归模型。

(4) 负二项回归模型
如果广义线性模型中的被解释变量Y 的分量,1,2,...,i y i n =相互之间是独立的并且条件分布满足泊松分布,即()()(),,,exp T
i i i i i i i y x Po h h k k x μμβΓ=,
那我们就把该模型称为负二项回归模型。

2.3广义线性模型的优点
总的来说广义线性模型对比与经典线性模型有三个较为明显的优点:(1)广义线性模型对数据的要求较为宽泛,经典线性回归模型对于数据的要求比较苛刻,只适用与连续型数据,而广义线性模型对于连续型和离散型的数据都适用。

(2)广义线性模型在应用的范围上比经典线性回归模型大了许多,经典线性回归模型是假定被解释变量Y 服从正态分布而广义线性模型是假定其服从指数型分布族。

由于正态分布是指数型分布型的特例,故广义线性模型相当于放宽了条件从而扩大了应用范围。

(3)经典线性回归模型仅仅考虑当联系函数为恒等函数时这种特殊情况,但广义线性模型用联系函数将两个解释变量连成一个整体,从而使得整个模型满足线性关系。

2.4广义线性模型的两种参数估计方法
广义线性模型中有许多种参数估计方法和检验方法,常用的参数估计方法有拟似然估计、极大似然估计、最似然估计以及两参数估计等等。

本文对极大似然估计和两参数估计这两种参数估计方法进行具体的展开。

2.4.1极大似然估计
如果广义线性模型的被解释变量Y 的每一个分量,1,2,...,i y i n =相互之间格
()()
()
exp ,1exp T i i i i T i x y Be p p x ββ=+
子独立并且都满足指数型分布族中的某一个分布,那么i y 的概率密度函数为
()(;,)exp (,)()i i i i i i y b f y c y a θθθφφφ⎛⎫-=+ ⎪⎝⎭
由此可知,i y 的似然函数为
()(;,)ln (;,)(,)()
i i i i i i i i y b l y f y c y a θθθφθφφφ-==+ 为了下文方便进行讨论,本文把i y 的似然函数();,i i l y θφ简单记为i l 。

因此,被解释变量Y 的似然函数为
1
1ln (;,)n n
i i i i i l f y l θφ==⎛⎫== ⎪⎝⎭∑∏ 我们把()S β记作似然函数对β的一阶导数,本文称为得分函数,()A β为似然函数对β的负二阶导数,那么
112212(),,...,((),(),...,())T
T m m m l l l l S S S S ββββββββ⎛⎫∂∂∂∂=== ⎪∂∂∂∂⎝⎭ 222111222222122222212()()m m m m m m l l l l l l S A l l l βββββββββββββββββββββ⎛⎫∂∂∂
⎪∂∂∂∂
∂∂ ⎪ ⎪∂∂∂ ⎪∂=-=-∂∂∂∂∂∂ ⎪∂ ⎪ ⎪ ⎪∂∂∂ ⎪∂∂∂∂∂∂⎝⎭
如果ˆβ为β的极大似然估计,那么一定有
()
ˆ0S β= 由微分中值定理有
**0000()ˆˆˆ()()()()()()S S S S A ββββββββββ
∂-=-=-=--∂ 其中,*0ˆ[,]βββ∈或*0
ˆ[,]βββ∈。

因此
()()1*00
ˆ=+A S ββββ- 根据此公式,研究者们提出了两种极大似然估计ˆβ
的近似值算法[16]: (1) Fisher 得分方法
()()()()()111ˆˆˆˆˆˆˆˆˆ,0,1,2...t t t t t t t t t I S I I S t βββββββββ-++=+⇔=+= 其中,ˆt β和1
ˆt β+分别为待估计参数β的第t 次和1t +次迭代后得到的值,()()()I E A ββ=为Fisher 的信息矩阵,表示为:
()()()()()()()()()()111212122212m m m m mm I I I I I I I I I I ββββββββββ⎛⎫ ⎪ ⎪=- ⎪ ⎪ ⎪⎝⎭
迭代的终止条件为
()ˆN
S βδ<
或 1ˆˆN N
ββδ+-< 其中,N 为最终迭代次数,δ为事先给定的计算精度。

此时,ˆN
β为极大似然估计ˆβ的近似解ˆML
β。

(2) 迭代加权最小二乘法[16]
首先,计算得分函数()S β的每个分量(),1,2,...,j S j m β=。

因为
()()i i i E y b θμ'==
所以
()
1i i i b θμθ∂=''∂ 1()()i i i i i i i i ij i i i i i i i
l l y x a b θμημμβθμηβφθη∂∂∂∂∂-∂==''∂∂∂∂∂∂ 其中,1122T i i i i im m x x x x ηββββ==+++,并记(),1,2,...,i i V b i n θ''==。

假定
21
()i i i i V ωβημ=⎛⎫∂ ⎪∂⎝⎭

2211()()
()()i i i i i i i i ij ij i i i i i i i i i i i i ij i l y y x x a V a V y x a μμμηηβφηφμμημμηωβφμ⎛⎫∂-∂-∂∂== ⎪∂∂∂∂⎛⎫⎝⎭∂ ⎪∂⎝⎭-∂=
∂ 所以,得分函数()S β的分量(),1,2,...,j S j m β=为
11()()()n n i i i i j i ij i i j j i
l y l S x a μμβωβββφη==∂-∂∂===∂∂∂∑∑ 接下来计算Fisher 信息矩阵的分量(),1,2,...,,1,2,...,rj I r m j m β==。

因为
()0()()i
i i i y E y E a a μμφφ⎛⎫--== ⎪⎝⎭ 1i i i i
ημμη∂∂=∂∂ 所以
2()(/)()()()()()i i i i ij i j i i r j r r
i i
i i ij i i i i i ij r
i r y x l a l y x a y x a μμωββφηββββμμωβηφμμωββηφβ⎛⎫-∂∂ ⎪∂∂∂∂⎝
⎭==∂∂∂∂⎛⎫∂⎛⎫-∂∂ ⎪ ⎪∂∂-⎝
⎭⎝⎭=+∂∂∂
因此 211()()()()i i i i ij i ij ir r j r i l E x x x a a μμωβωβββφβηφ⎛⎫∂∂∂-== ⎪ ⎪∂∂∂∂⎝⎭
那么Fisher 信息矩阵的分量()rj I β可以表示为
22111
()()()
n n i
i rj i ij ir i i r j
r j l l I E E x x a βωβββββφ==⎛⎫⎛⎫∂∂=-=-=
⎪ ⎪ ⎪ ⎪∂∂∂∂⎝⎭⎝⎭∑∑ 计算Fisher 得分方程式
1111
11
1ˆˆˆˆˆ(())()()11ˆˆ()()m m
n t t r t tj ti ij ir tj j j i n m n ti ir ij tj ti ir ti i j i I I x x a x x x a a ββββωβφωβωηφφ======⎛⎫== ⎪
⎝⎭
⎛⎫== ⎪⎝⎭∑∑∑∑∑∑

1(1)1
1ˆˆˆ(())()n t t r
ti ir t i i I x a ββωηφ++==∑ 11ˆ1ˆ()()()()()t
n
n
i i i i r t i ij ti ir i i
i i i i y S x x y a a ββμμμβωβωμφηφη===⎛⎫⎛⎫-∂∂==- ⎪ ⎪∂∂⎝⎭⎝⎭∑∑ 其中
(1)(1)111
1ˆˆˆˆˆˆ(),(),,()n
m m
rj t ti ir ij ti i t ti ij tj t i ij t j i j j I x x x x a βωωωβηβηβφ++=======∑∑∑ 由此可得
1
1ˆˆˆ(())()()n
t t r r t ti ir ti i I S x z a βββωφ=+=∑ 其中ˆˆ()t
i ti ti i i i z y ββμημη=⎛⎫
∂=+- ⎪∂⎝⎭
所以,Fisher 得分方程式可简化为
(1)11ˆ0n
m ti ir ti ij t j i j x z x ωβ+==⎛⎫-= ⎪⎝⎭∑∑ 其矩阵形式为
(1)ˆ()0T t t t j X W Z X β+-=
其中
11
1211
121
222221
2
000
0,,0
m t t m t t t t n n nm tn tn x x x w z x x x w z
X W Z x x x w z ⎛⎫⎛⎫⎛⎫
⎪ ⎪ ⎪ ⎪ ⎪ ⎪=== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭。

(2-2) 由式子(2-2)可以得出极大似然估计ˆβ
近似解的迭代方程
11ˆ()(),0,1,2,...T T t t t t
X W X X W Z t β-+== 那么
1ˆˆˆˆ()()T T ML
X WX X WZ β-= 其中,ˆˆ,N N W W Z Z ==
查阅文献[17,18]后可知ˆML β是β的相合估计,且ˆML
β的渐进均值和渐进协方差矩阵分别为β和()
1
ˆT
X WX
-。

但是,由于
11
1ˆˆ()()m
T ML j j
MSE tr X WX βλ-===∑
并且,j λ为ˆT X WX 的第j 个特征值。

因此,当ˆT X WX 的某个特征值比较小时,ˆT X WX 会呈“病态”,ˆML
β的均方误差将会很大,那么我们通过极大似然估计得到的估计参数就不能再确保模型的稳定了。

2.4.2两参数估计
为了尽可能的减小多重共线性的影响,本节介绍两参数估计来优化极大似然估计。

本文以负二项回归模型为例来讨论两参数估计的基本概念。

负二项回归模型的对数似然函数为: ()()()()1101;ln ln !ln 1exp ln i y T T
i i i i i i i t l t y y x y y x κβκκβκβκ-==⎛⎫⎛⎫⎛⎫=+--++-+ ⎪
⎪ ⎪⎝⎭⎝⎭⎝⎭
∑∑
那么,负二项回归模型中待估计参数β的极大似然估计ˆβ可以通过以下方式计算。

首先,对();l κβ进行关于β的求导
()
(
)1
1ˆ,ˆ0ˆ1n
i i
i i i
l y S x κκβμβ
μβ
=∂-==
=+∂∑ 然后,由于上式是关于ˆβ
的非线性方程,所以利用2.4.1节中的迭代加权最小二乘法求解ˆβ
,那么ˆβ的Fisher score 方程为:
()()11t t t t I S ββββ-+=+
其中,1t β+和t β分别表示第1t +次和第t 次迭代值,()t S β和()1t I S β-分别表示:
()()
,l S θβββ
∂=
∂ 和
()()()1
12
1n i i T
i i i i y I E x x μκβκκμ--=⎛⎫⎛⎫+ ⎪= ⎪ ⎪ ⎪+⎝
⎭⎝⎭∑ 在t β处的值。

最后和2.4.1节中一样,当迭代过程完成了事先设定的终止条件,即停止迭代,求得β的极大似然估计:
()
1
ˆˆˆˆT
T ML
X WX
X WZ
β
-= 其中,ˆZ 的第i 个分量为()ˆˆln ˆi i i i y μμμ-+,ˆˆˆ1ˆi i W
diag μμκ
⎛⎫
⎪= ⎪ ⎪+⎝⎭
为了减小极大似然估计中多重共线性所带来的消极影响,结合Liu 估计和岭估计,由这两种不同的估计结合而成的一种新的估计,就叫两参数估计:
()()(
)(
)
1
1
ˆˆˆˆˆˆ,T T T T ML
k d X WX I X WX
dI X WX
kI X WX β
β--=+++ 其中,0k >,01d <<。

第三章广义线性模型在数据分析中的应用
广义线性模型在很多的领域都有着广泛的应用。

它在科学的发展和进步中提供了一种便捷高效的方案,尤其是在数据分析过程中,它的适用条件之宽、使用方法的简便以及结果的直观都是经典线性回归模型所不能及的。

本文分别从医学、生物和经济三个大领域的实例来研究讨论广义线性模型在当下社会生活中不可或缺的重要价值。

3.1广义线性模型在timi分级影响因素分析中的应用
广义线性模型在医学领域的应用十分普遍,许许多多的数据处理都需要用到广义线性模型。

而新药的临床试验中,广义线性模型的使用十分频繁且有效,能很好的处理一些常规数据分析方法无法处理的问题。

本文以新药临床试验中有效性检验时广义线性模型的应用作为例子。

timi分级指的是心肌梗死治疗后,冠脉血流重建程度通常是依靠冠状动脉造影来作出判断timi分级是判断溶栓治疗效果的第一准则,它反映了治疗后血流灌注情况。

但是新药的临床试验中通过材料证明新药溶栓治疗后90分钟timi
分级属于何种分布是很困难的,而且心肌梗死治疗效果的好坏被很多因素影响,所以可以采用拟似然法进行分析。

表3.1影响90分钟timi分级变量表
年龄糖尿病史
性别体重指数
过往心绞痛史吸烟史
过往高血压史现在有无吸烟
是否高胆固醇白细胞正常与否
治疗前纤维蛋白发病到治疗间隔的时间
首先,把分级当作反应变量,自变量选取过往高血压史、是否高胆固醇、糖尿病史、体重指数、白细胞、纤维蛋白原、吸烟史、现在有无吸烟。

然后使用多项式分布处理分级,形成连接函数,对用药后分钟分级使用最大似然估计和拟似然估计法来建立广义线性模型。

先使用SAS软件中的GENMOD模块来进行单变量分析,与一般的广义线性模型的结果进行比较,然后使用多变量分析来寻找
影响因素,软件分析处理后得到表3.2。

表3.2 溶栓组影响因素单变量分析
P值变量尺度参数参照值系数标准误差2
过往高血压史:无0.0864 有-0.4724 0.0233 409.89 <0.001
过往高血压史:无有-0.4724 0.27 3.06 0.0802
是否高胆固醇:否 1.3058 是-0.295 0.4193 0.49 0.4817
是否高胆固醇:否是-0.295 0.3211 0.84 0.3583
糖尿病史:无0.8844 有0.3667 0.3543 1.07 0.3007
糖尿病史:无有0.3667 0.4006 0.84 0.36
体重指数0.9295 - 0.0933 0.0458 4.15 0.0417
体重指数- 0.0933 0.0493 3.58 0.0584
白细胞:异常0.8577 正常0.3642 0.2322 2.46 0.1168
白细胞:异常正常0.3642 0.2707 1.81 0.1786
纤维蛋白0.8901 - -0.0001 0.0001 0.41 0.5197
纤维蛋白- -0.0001 0.0001 0.33 0.5667
吸烟史:无0.4475 有-0.2243 0.1261 3.16 0.0754
吸烟史:无有-0.2243 0.2818 0.63 0.4262
现在有无吸烟:无0.3559 是0.0401 0.0961 0.17 0.6762
现在有无吸烟:无0.0401 0.0961 0.02 0.8818 从表3.2中可以看出,过往高血压史、体重指数这两个变量的系数经过两种似然比检验后都具有统计学意义,所以这两个因素可以认为是有影响的因素,所以多因素分析时需要把这些放入模型中。

吸烟史的似然比检验结果不一样,最大似然法没有统计学意义拟似然方法有统计学意义。

过往高血压史、吸烟史、现在有无吸烟尺度参数过低,可能不太适合模型拟合。

考虑到高血压常常与年龄的变化相关联、吸烟和性别关系可能会很大,所以分别加入单因素模型,处理后得到:
表3.3考虑其他因素交互的单变量分析
变量尺度参数参照值系数标准误差卡方P值
过往高血压史:无0.9696 有-0.5077 0.2714 3.5 0.0614 年龄- -0.0076 0.0151 0.25 0.615 吸烟史:无0.8191 有-0.1575 0.2621 0.36 0.548
性别:男女0.1763 0.3319 0.28 0.5953
现在有无吸烟:无0.751是0.1478 0.2214 0.45 0.5044 性别:男女0.3484 0.2923 1.42 0.2332 从表3.3中我们可以看出考虑到关联后的尺度参数和散度参数都比之前高了很多,可见这个关联是真实存在的。

我们可知高血压分布受到年龄的影响明显,而性别对吸烟史和现在是否吸烟影响没有统计学意义。

所以多变量模型的因素有过往高血压史、体重指数还有年龄因素。

表3.4 高血压分析
变量 参照值 系数 标准误差 卡方 P 值 高血压史:无 是 -0.4 0.3 2.8 0.1 体重系数 - 0.1 0.0 4.8 0.0 年龄
-
-0.1
0.0
0.4
0.5
从表 3.4中可得,单变量分析和多变量分析都显示,高血压史和体重指数对90分钟timi 分级有影响。

小结:
新药临床试验时,离散数据的影响因素,很多传统线性模型无法进行分析,但是广义线性模型则能很好的适用。

由此可见广义线性模型对于条件的要求比较宽泛,能够进行很多传统线性模型无法进行的数据分析,对于新药的试验有很重要的使用价值。

同时我们可以多考虑一些特殊因素,有一些因素是数据无法提供的但是我们通过日常生活经验能够得到。

总得来说广义线性模型在医学领域有极其广泛的应用,它的价值与意义也是显而易见的。

3.2 广义线性模型在水稻区域试验中的应用
生物领域对广义线性模型的应用也是相当的普遍,因为许多试验都是需要考虑多方面因素,而且有的时候数据不完整数据缺失,传统的线性模型分析方法都不太适用,而广义线性模型则表现出很好的适应性。

本文以广义线性模型在水稻的区域试验中处理非平衡数据的应用作为实例进行分析。

首先把观察值作为应变量Y ,对试验中每个影响因素的各个处理水平进行编码,将0和1分别作为两个虚拟变量, 建立一个广义线性模型。

例如, 一个A B 、两因素无重复试验,A 因子有4个水平,B 因子有3个水平, 一共12个组合处理, 其观察结果为一组非平衡数据, 如表3.5所示。

表3.5 A 、B 两因素试验的非平衡数据
撇开互作效应的两向分组方差分析模型,将A B 、两因子的各个处理水平用0和
A 因子水平
B 因子水平 1 2 3 Ⅰ a B c Ⅱ / / d Ⅲ e / f Ⅳ
g
h
i
1两个虚拟变量进行编码后,广义线性回归模型的矩阵表达式可以用下式表示:
即:Y X βε=+,式中设计矩阵X 中元素()1,2,...,9;1,2,...,8ij X i j ==的取值比较特殊,非0即1,处理水平有观察值时取1,数据缺失则取0;β矩阵中元素μ为总体均值,14αα分别为A 因子4个水平的均值,1
3ββ分别为B 因子3个水平
的均值。

这类模型可称为虚拟变量模型,与一般的线性回归模型不同。

系数矩阵
X X '和X Y '分别是:
在矩阵X Y '之中1234567
8m m m m m m m m 、、、、、、、这八个项全部都是关于a b c d e f g h i 、、、、、、、、的代数式,全是常数。

由上述系数矩阵X X '和X Y '列得最小二乘正规方程:()X X X Y β''= 对系数矩阵进行Harvey 线性约束变换,用r X (满秩矩阵)替换X 后可得约束最小二乘方程:()r r X X X Y β''=
对施加约束后的系数矩阵求逆,解出回归方程的系数β,再对自由度和总平方进行分解,计算各种自由度、平方和并检验显著性。

此外,估计量的方差和协方差可由系数逆矩阵和误差方差得到,并在这个基础上进行均数的多重比较。

111213233133414243110001001100001011000001101000011001010010010001100011001000101010001001Y
X
Y a Y b Y c Y d Y e Y f Y g Y h Y i βε
μ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥==⨯⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦1112113223331433141242343e e e e e e e e e ααααβββ⎡⎤
⎡⎤⎢⎥
⎢⎥⎢⎥
⎢⎥⎢⎥
⎢⎥⎢⎥
⎢⎥⎢⎥
⎢⎥⎢⎥+⎢⎥⎢⎥
⎢⎥⎢⎥
⎢⎥
⎢⎥
⎢⎥⎢⎥
⎢⎥⎢⎥
⎢⎥⎣⎦⎢⎥
⎣⎦
123456789
3123324330001111010000120020101';
'30003111310113002100102041111004m m m m X X X Y m m m m ⎡⎤
⎡⎤
⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥
⎢⎥⎢⎥
⎢⎥⎢⎥
==
⎢⎥⎢⎥
⎢⎥⎢⎥
⎢⎥⎢⎥⎢⎥⎢⎥
⎢⎥⎢⎥
⎢⎥⎢⎥⎣⎦⎣

3.2.1实例
2015年南方稻区国家级水稻品种区域试验华东早籼组数据(详见表3.2):试验点6个(1L :浙江杭州,2L :浙江宁波,3L :浙江台州,4L :浙江温州,5L :浙江湖州,6L :浙江绍兴),参试的品种共有11个 (1V :秀水103,2V :秀水08,3V :浙粳41,4V :浙粳29,5V :秀水114,6V :宁81,7V :钱优0506,8V :钱优M15,9V :D 优17,10V :钱优0618(CK),11V :协优629)。

各试验点全都采用随机区组的设计,重复3次,区组面积为213.3m ,管理措施与当地大田生产栽培方式相同,成熟的时候分区组单独收单独晒,测定其产量。

但是因为供种的原因,有2个试验点5L 和6L 缺少品种5V ,该试验的原始数据缺失了6个区组 ,为非平衡数据,而且没办法进行缺区估计。

表3.6 2015年南方稻区国家级水稻品种区域试验华东早籼组原始数据表 试验点 品种 区组产量 试验点 品种 区组产量
Ⅰ Ⅱ Ⅲ Ⅰ Ⅱ Ⅲ
L1 V2 10.75 10 .20 10.00 L4 V2 9 .60 9 .65 9 .65 L1 V3 9.40 9 .60 10.35 L4 V3 9 .75 9 .75 9 .60 L1 V4 9.90 9 .10 9 .60 L4 V4 9 .54 9 .55 9 .75 L1 V5 9.55 9 .65 9 .55 L4 V5 9 .64 8 .95 9 .80 L1 V6 10.15 9 .90 10.25 L4 V6 9 .55 10 .00 9 .65 L1 V7 10.80 11 .30 11.45 L4 V7 9 .31 9 .15 9 .49 L1 V8 10.20 10 .30 10.35 L4 V8 9 .95 10 .05 9 .80 L1 V9 8.75 7 .75 8 .70 L4 V9 9 .65 9 .90 9 .40 L1 V 10(CK) 10.10 10 .05 10.75 L4 V 10(CK) 9 .39 9 .35 9 .14 L1 V11 9.60 10 .15 10.05 L4 V11 9 .55 9 .45 9 .65 L2 V1 10.60 10 .20 10.00 L5 V1 9 .70 9 .67 9 .75 L2 V2 9.35 9 .80 9 .55 L5 V2 8 .01 7 .85 7 .80 L2 V3 10.70 10 .40 10.40 L5 V3 9 .98 9 .99 10.02 L2 V4 9.80 10 .65 10.25 L5 V4 9 .00 8 .85 8 .88 L2 V5 10 .90 10 .55 10.65 L5 V5 / / / L2 V6 10.15 10 .80 10.15 L5 V6 9 .58 9 .68 9 .65 L2 V7 11.05 10 .65 10.90 L5 V7 9 .85 9 .90 9 .89 L2 V8 12.35 11 .60 11.70 L5 V8 9 .61 9 .60 9 .57 L2 V9 9.40 9 .05 9 .90 L5 V9 8 .32 8 .30 8 .39 L2 V 10(CK) 10.45 10 .50 11.15 L5 V 10(CK) 9 .91 9 .90 9 .94 L2 V11 10.50 11 .30 11.20 L5 V11 9 .64 9 .60 9 .66 L3 V1 7.20 8 .15 7 .65 L6 V1 10.50 10 .40 10.69 L3 V2 8.50 7 .25 7 .50 L6 V2 10.75 10 .80 10.50 L3 V3 7.40 7 .05 6 .70 L6 V3 10.20 10 .15 10.58 L3 V4 8.05 8 .05 7 .50 L6 V4 9 .45 8 .55 9 .10 L3 V5 7.80 7 .80 7 .39 L6 V5 / / / L3 V6 6.95 7 .26 7 .10 L6 V6 10.35 10 .30 10.50 L3 V7 6.85 7 .15 5 .75 L6 V7 10.70 10 .78 10.56 L3 V8 7.25 8 .35 7 .40 L6 V8 9 .96 10 .35 9 .68 L3 V9 7.88 7 .87 7 .89 L6 V9 8 .31 8 .67 8 .78 L3 V 10(CK) 8.00 7 .50 8 .95 L6 V 10(CK) 10.13 10 .13 10.25 L3 V11 7.75 7 .10 6 .90 L6 V11 10.37 10 .26
10.27
3.2.2分析与结果比较
像这类非平衡数据,我们通常是把缺失部分的试点给除去,再用剩下的试点进行传统方差分析。

这种方法会造成数据的浪费,而且所得的结果也有失准确性,不能有效地反映真实情况。

但使用广义线性模型则不用考虑数据的不平衡,它能完整地利用好全部的包括缺损部分的数据,使结果能更全面、更准确地反映出真实的情况。

本文所用实例中处理因素有两个,分别是品种和试验点,品种我们可以分成11种处理水平,试验点可以分成6种处理水平,品种和试验点之间就有66种处理水平的互作效应,可用的观察值总共有192个。

所以,虚拟矩阵X 将会是一个192行84列的大型矩阵,Y 矩阵拥有192个观察值,β矩阵拥有84个待定的未知数,分别是1个总体平均数()μ、6个试验点处理因素平均数16()αα、11个品种处理因素平均数1
11()ββ、66个品种与试验点直接互作效应处理因素
11611()αβαβ。

我们把数据录入SAS 软件中,通过GENMOD 模块的数据分析功能对该数据进行传统方差分析以及广义线性模型分析,比较结果见表3.7和表3.8。

表3.7传统方差分析与广义线性模型方差分析结果比较
变异来源 传统方差分析 广义线性模型方差分析
DF
SS MS F Prob. DF SS MS F
Prob. 点内区组 8 1 .02 0 .13 1 .00 0 .44
试验点 3 166.50 55 .50 436 .93 0 .00 5 178.76 35 .75 373 .10 0.00 品种
10 8 .79 0 .88 6 .92 0 .00 10 18.72 1 .87 19 .54 0.00
品种×试点 30 27 .10 0 .90 7 .11 0 .00 48 44.74 0 .93 9 .73
0.00 试验误差 80 10 .16 0 .13 128 12.72 0 .10
总和 131
213.57
191 254.67
表3.8 传统方差分析与广义线性模型方差分析的多重比较结果 传统方差分析
广义线性模型方差分析
品种 区组产量 比CK ± 差异显著性
品种 区组产量 比CK ± 差异显著性 (kg )
5 % 1 % (kg )
5 % 1 % V8
9 .94 3.44 a A V8 9.89 1 .41 a A V10(CK) 9 .61 0.00 b AB V10(CK) 9.76 0 .00 ab AB V7 9 .49 -1.28 bc B V7 9.75 -0 .03 ab AB V11 9 .43 -1.85 bc B V11 9.61 -1 .48 bc AB V5 9 .35 -2.69 bc B V3 9.56 -2 .03 bc BC V6 9 .33 -2.97 bc B V6 9.55 -2 .06 bc BC V2 9 .32 -3.06 bc B V1 9.50 -2 .63 cd BC V4 9 .31 -3.11 bc B V5 9.46 -2 .98 cd BCD V3 9 .26 -3.67 c B V 2 9.31 -4 .60 de CD V1 9 .19 -4.40 c BC V4 9.20 -5 .71 e D V9 8 .85 -7.97 d C
V9 8.72
-10 .64
f
E
表3.7 可以看出试验点效应、品种效应及品种与试验点之间都有很明显的互作效应,并且两种方法都可以得出一个结论,试验点的生产力、品种的产量潜力以及不同的品种都在各个试点表现出很明显的差异,从自由度(DF)和平方和(SS)我们也可以得知,广义线性模型方差分析比传统方差分析更多地利用了试验数据。

从表3.8还可以看出品种产量差异和显著性通过两种方法检验后也是相同的结果,以与对照品种“钱优”的产量差异为例,在传统方差分析中比对照显著增产的品种有“钱优M15” ,比对照显著减产的品种有“浙粳41” 、“秀水103” 、“D优”,其余品种与对照的产量差异不显著。

而在广义线性模型方差分析中,没有品种比对照“钱优”显著增产,比对照显著减产的品种有“ 秀水103” 、“ 秀水114” 、“秀水08” 、“浙粳29” 、“D优” ,其余品种与对照的产量差异不显著。

3.2.3分析与展望
广义线性模型在非平衡数据的处理上,比传统的缺区估计方法来得更准确、更完善。

如本文所述的水稻品种区域试验实例,广义线性模型尽可能多的使原
始试验数据得到了利用。

事实上,广义线性模型不只是适用于类似文中所述的
一年内多个试验点的数据,同时也适用于多年间多个试验点的数据的分析。

并且,广义线性模型使用方便、结果直观这些优点都是别的同类方法所不能比的。

但广义线性模型也并非无所不能,在实际生活应用中,我们不能单单考虑
品种的丰产性,还需要考虑到品种的稳定性和适应性。

这些分析与评估都是广
义线性模型暂时还无法提供的,还有待研究人员对模型进行优化和改进。

3.3广义线性模型在汽车保险定价中的应用
经济领域像非寿险行业有很多的数据的特点符合典型的广义线性模型,在估计索赔次数或索赔频率时通常采用泊松乘法模型,估计次均赔款时则采用伽马乘法模型,在估计续保率和新业务转换率时Logistic模型能很好的适用。

本文选取了汽车保险定价时广义线性模型的应用作为实例进行分析。

本文采用一组损失数据来讨论汽车保险费率厘定问题中广义线性模型的应用。

其中共有7个变量:年行驶里程数(分5个级别,用K表示),无赔款折扣等级(分7个级别,用B表示),行驶地区(分7类,用Z表示),车型(分9类,用M表示),保单年数,索赔次数和赔付额;所有的被保险人被划分成了2182个类别(应该是57792205
⨯⨯⨯=个类别,其中23个类别没有被保人),总的保单年数为。

相关文档
最新文档