广义线性混合模型在保险索赔中的应用及R实现_张连增

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、模型的理论基础
由于广义线性混合模型是广义线性模型和线性混合模型的进一步推广,其结合了广义线性模型和 线性混合模型二者的优点,同时克服了它们的不足,因此本部分首先介绍 GLMs 和 LMMs 的理论框架。 ( 一 ) GLMs 的理论框架 Nelder 和 Wedderburn ( 1972 ) 最早地提出了广义线性模型,McCullagh 和 Nelder ( 1989 ) 等关于
顾这十二年车险改革的艰难起伏历程,车险费率市场化工作做起来颇为费神费力,其真正得以全面实 现还有很长一段路要走。核保技术、精算技术和理赔技术是车险费率市场化改革得以顺利进行所必备 的三大技术,其中,精算技术是保证车险费率市场化顺利进行的核心内容。因为实行条款费率市场化 意味着各保险财险公司要自行制定费率,根据投保人和被保险人的不同风险状况,进行差别化定价, 而各公司制定的个性化费率都应建立在科学合理的精算假设基础上 。广义线性模型 ( Generalized lin- ear models,简称 GLMs ) 在汽车保险定价中得到了广泛应用,因为该定价方法能综合考虑影响车险定 价的多种因素,如从人因素 ( 年龄、性别、驾龄、职业、是否固定驾驶员、违章肇事记录、影响安全 驾驶的因素等 )、从车因素 ( 车辆理赔记录、车辆使用性质、类型、厂牌型号 、核定载客数 、车身颜 色、制造年月、是否固定停放、事故记录等 )、环境因素和地域因素等。然而,研究已表明,GLMs 在 某些方面仍存在一定缺陷,①为此保险界研究进行了各种扩展,增加了如广义线性混合模型 、广义可 加模型等方面的探讨。
2013年第4期 总第88期
江 西 财 经 大 学 学 报 JOURNAL OF JIANGXI UNIVERSITY OF FINANCE AND ECONOMICS
NO.4 , 2013 Serial NO.88
广义线性混合模型在保险索赔中的应用及 R 实现
张连增,孙维伟
( 南开大学 经济学院,天津 300071 )

50
江西财经大学学报
Journal of Jiangxi University of Finance and Economics
广义线性混合模型在保险索赔中的应用及 R 实现
第 i 个对象的随机效应 bi 的条件下,Yi1 , Yi2 , …, Yin 是相互独立且服从某一指数散布族分布的随机变
[2] 模型来解释。 Laird 和 Ware ( 1982 ),Stiratelli 等 ( 1984 ) 及 Zeger 和 Karim ( 1991 ) 对于纵向数据中变 [3-5] 较早的 GLMMs 模型研究还包括 Gilmour 和 An- 量之间的相依关系的模型建立,均涉及了 GLMMs。 [6-9] derson 等 (1985 )、 Schall (1991 )、 Breslow 和 Clayton (1993 )、 Wolfinger 和 O’ Connell (1993 ) 。 Mc-
[16-19] 汇总已有的研究发现,国内对 GLMMs 技术在保险领域的研究基本处 到未决赔款准备金的评估中。
于起步阶段。考虑到 GLMMs 在处理连续型解释变量上的优势,相信经过一段时间的实践探索,财险 公司会迫切需要对 GLMMs 及其在非寿险定价中的应用展开研究。 本文的贡献在于详细介绍了 GLMMs 的理论基础和计算过程,并且使用 R 统计软件在保险索赔研 究方面进行了模型的实证分析 。这补充了国内在 GLMMs 方面的研究,能够使相关学者对 GLMMs 的 理解和运用更加透彻灵活,并向国内同领域的研究者提供了费率厘定的新方法和新视角,为我国保险 财险公司车险定价技术创新提供理论支持和实践参考。
[20-21] 广义线性模型的经典教材给出了其理论的全面阐述。 至今,该模型在精算等领域的应用已经较为成
熟,逐渐成为对精算数据建模的常用统计工具。广义线性模型是对传统线性模型的拓展,其分析的观
江西财经大学学报
Journal of Jiangxi University of Finance and Economics
其中,θ 是自然参数,准 是尺度参数,a(准)是已知函数,b(θ)、c(y,准)是实值函数。 由 Y 的对数似然函数可计算得:μ=E(Y)=b′(θ),Var(Y)=准b″(θ)=准V(μ),其中 V( · )是方差函数。 假设 2:响应变量的均值 μ 和解释变量 X=(x1 ,x2 ,…,xp )之间存在显著的相关关系,且这种关 系可以利用 ( 2 ) 式所示的解释变量的线性组合来表示: η=Xβ 其中,β=(β1 ,…,βp )′ 为模型待估参数组成的向量。 假设 3:随机部分和系统部分之间可以通过一个单调可微函数 g( · )联结起来,即: g(μ)=η squared 联结和 logit 联结等多种形式。 ( 二 ) LMMs 的理论框架 对于某些存在相关性的数据结构类型 ( 如聚类数据、纵向数据 ),传统的线性模型和广义线性模 型不再合适,为此出现了新的推广,即线性混合模型 ( LMMs ) 和广义线性混合模型 ( GLMMs )。其中 心思想在于通过在线性预测项中引入随机效应,来体现同一对象 ( “目标”组 ) 内数据的相关性和不 同对象 ( “目标”组 ) 内的异质性,这里的随机效应变量的分布是正态分布。 1≤i≤N 假设要分析的数据由 N 个对象的观测值组成,第 i 个 ( ) 对象 ( 个体 ) 的观测次数是 ni , Yi =(Yi1 , Yi2 , …, Yin )′ 是第 i 个对象的 ni ×1 维的观测向量,线性混合模型的结构可表示为:
i
( 2 )
( 3 )
针对观测数据各种不同的分布,联结函数可以选择 Identity 联结、Inverse 联结、log 联结、Inverse
Yi =Xi β+Zi bi +εi
( 4 )
其中,Xi 是固定效应的 ni ×p 维设计矩阵, Zi 是随机效应的 n i ×q 维设计矩阵, β 是维固定效应参数向 量,bi 是第 i 个观测对象的 q×1 维随机效应参数向量,随机效应反映了各观测对象间的异质性以及同 一个对象不同观测值间的相关性,εi 表示第 i 个对象的 ni ×1 维误差向量。LMMs 模型假设个体之间相 互独立,bi 和 εi 相互独立,且 bi ~N (0,D), εi ~N (0,∑i ),D 是 q×q 维协方差矩阵,∑i 是 ni ×ni 维协 方差矩阵。 由 LMMs 的结构可知,Yi 的边际分布是正态分布,其均值是 E(Yi )=Xi β,协方差矩阵是 Vi =Var(Yi )= Zi DZi +∑i 。 ( 三 ) GLMMs 的理论基础 1. 模型的基本假定 广义线性混合模型是在广义线性模型的基础上,在线性预测项中引入随机效应 ( 个体固定效应 )。 假定已经得到了 N 个对象的观测结果,对于第 i 个对象的观测次数 ni 也可以得到 ( 1 ≤i≤N )。在给定
一、文献综述
在我国,结合车险费率市场化改革的大背景,保险财险公司精算师在借鉴国外先进精算技术的基
—— —— —— —— —— —— —— —
收稿日期:2013-04-01 基金项目:国家自然科学基金项目 ( 71271121 );中央高校基本科研业务费专项资金资助项目“金融工程与精算学中的定量 风险管理统计模型与方法” ( NKZXTD1101 ) 作者简介:张连增,南开大学教授,博士生导师,主要从事精算与风险管理研究;孙维伟,南开大学博士研究生,主要从事 精算与风险管理研究。 江西财经大学学报
Journal of Jiangxi University of Finance and Economics
48
广义线性混合模型在保险索赔中的应用及 R பைடு நூலகம்现
础上,逐渐开始在 GLMs 框架下,使用索赔频率和索赔额的最优估计来计算风险纯保费 。在非寿险精 算领域,已有的非寿险定价和索赔准备金评估的文献大多数集中于传统的广义线性模型方面 。伴随着 精算理论研究的发展和解决新问题的需要,近年来,广义线性混合模型已经开始在非寿险精算中受到 关注,用以分析有层次性和相关性的保险数据。在统计学中对于处理有相关性的数据,较早的模型是 线性混合模型 ( Linear mixed models,简称 LMMs ),之后出现了广义线性混合模型 ( Generalized linear mixed models, 简 称 GLMMs )、 分 层 广 义 线 性 模 型 (Hierarchical generalized linear models, 简 称 HGLMs )。在这些模型的线性预测项中引入随机效应,随机效应不但决定了同一个组内的观测量之间 相关性的结构,而且也考虑了不同组内的来自未观测到的特征导致的非同质性 。对有关 GLMMs 方面 的研究进行梳理:Williams ( 1982 ) 证实了对于二项分布中存在的过离散问题,可以用广义线性混合
中图分类号 : F840.4 文献标识码 : A 文章编号:1008-2972 (2013) 04-0048-11
改革开放以后,中国经济经历了奇迹般的增长 。“中国奇迹 ”是中国经济发展模式的实践结果,
[1] 后者的形成又离不开改革开放战略的实施。 我国从 2001 年开始实施第一轮车险费率市场化改革,回
49
江西财经大学学报 2013 年第 4 期 总第 88 期
测数据不再仅仅局限于正态分布,可以推广到更广泛的指数散布族分布,更适合于诸如二分类数据 、 频数数据、有偏数据等的分析建模。在使用 GLMs 建模时引入了联结函数,经联结函数变换后响应变 量的均值表示为解释变量的线性组合。此外,GLMs 不要求响应变量的方差为常数,方差可以表示为 均值的函数形式。GLMs 的基本假设如下: 假设 1:响应变量 Y 的每个观测值 y1 ,…,yn 相互独立,服从指数散布族 ( EDF ) 分布,其概率 密度函数可以表示为: f(y;θ,准)=exp yθ-b(θ) +c(y,准) 准 准 a(准) ( 1 )
GLMMs 在理论层面和实践应用中的研究成果颇多,但国内对 GLMMs 的研究却只是近几年的事情 。在 保险精算领域,卢志义、刘乐平 ( 2007 ) 介绍了广义线性混合模型在非寿险精算应用中的最新动态; 贺宝龙、唐湘晋 ( 2009 ) 在因变量服从泊松分布的假设下,用广义线性混合模型进行信度保费厘定; 在贺宝龙、唐湘晋 ( 2009 ) 的基础上,康萌萌 ( 2010 ) 将响应变量的分布拓展到泊松 、过离散泊松和 负二项分布;姬文鸽 ( 2011 ) 研究了广义线性混合模型的三种参数估计方法和推断预测,并将其运用
[10-13] Guszcza ( 2008 ) 研究了广 理论和费率厘定中,结合贝叶斯推断方法给出了各种数据的预测分布 。
义线性混合模型在索赔准备金评估中的应用;Klinker ( 2011 ) 首先引入线性混合效应模型和广义线性
[14-15] 虽然国外对 模型,继而研究了广义线性混合模型在 Buhlmann-Straub 信度模型理论上的应用 。
2005 ) 分别对广义线性混合模型进行了详细的介绍;Kelvin 等 ( 2003 ) Culloch 等 ( 2001 )、Hedeker ( 采用 SAS Enterprise Miner database ( 1998 ) 的数据,利用 GLM 与 GLMM 进行了索赔频率的建模研究 并对比了结果,指出了 GLMM 较具优势;Antonio 和 Beirlant ( 2007 ) 将广义线性混合模型应用于信度

要:目前国内保险财险公司对汽车保险等业务进行定价和费率厘定最常用的是广义线性
模型。然而,数据的特点、实务的需要和技术的发展使得广义线性混合模型成为更适合对保险数据 进行统计建模的工具。将广义线性混合模型应用于保险索赔业务中,以一组实际的保险数据为样 本,利用 R 软件进行实证分析。该研究对保险公司的精算人员进行非寿险分类费率厘定的模型创新 具有重要的参考价值。 关 键 词:财产保险;费率厘定;索赔次数;差别化定价
相关文档
最新文档