基于GAM_Tweedie模型的车险定价研究

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于GAM_Tweedie模型的车险定价研究摘要:广义线性模型作为车险费率厘定的主流方法,其假设协变量的影响为预测函数的线性形式,但在实际的情况下,许多对索賠频率、索賠强度或纯保费的影响因素不仅仅是表现成线性形式的,单纯地用线性估计会造成一些变量的不显著而丢失重要影响因素。

本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,通过与Tweedie广义线性模型对比,表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响。

关键词:广义线性模型,车险费率厘定,Tweedie分布,广义加法模型
一、引言
车险定价实则是对索赔频率、索赔强度或纯保费进行预测。

在车险定价实务中,经常假设索赔频率与索赔强度相互独立,并分别建立索赔频率和索赔强度的广义线性模型。

在独立的假设下,可以把索赔频率与索赔强度的预测值相乘从而求得纯保费的预测值。

这种方法简单易行,在非寿险精算实务中得到广泛的应用,但其忽略了索赔频率与索赔强度之间可能存在的相依关系,从而造成预测的偏差。

而在纯保费的预测中,主要是应用Tweedie广义线性模型。

Tweedie广义线性模型,是假定保单的累积赔付额服从Tweedie分布,对赔付额的均值函数建立回归模型。

其要求协变量的影响为预测函数的线性形式,但在实际的情况下,许多对纯保费的影响因素不仅仅是表现成线性形式的,如空间协变量,大多数情况下其对响应变量均值函数的影响是非线性的,如果单纯地用线性估计会造成一些变量的不显著而丢失重要的影响因素。

为了更好的拟合数据,从而有必要对其进行优化推广,在广义线性模型中纳入平滑预测项,将其推广到广义加法模型。

从线性和非线性两个方面去分析各因素对预测函数不同的影响程度。

本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,利用R软件对模型的参数进行估计检验。

通过与Tweedie广义线性模型对比,表明Tweedie 广义加法模型可以更好的解释各因素对索赔额的影响,从而改进了传统广义线性模型对纯保费的预测精度。

二、理论基础
2.1 广义线性模型
广义线性模型(GLM)首次由Nelder和Wedderburn(1972)提出,是常见正态线性模
型的推广形式。

模型要求响应变量只能通过线性形式依赖于自变量,从而保持了线性自变量的思想。

其对线性模型进行了两个方面的推广:一是在因变量分布方面,GLM 扩充了分布类型,假设因变量i Y 服从指数分布族,其密度函数可以表示为
)},()
()(exp{),|(ϕϕθθϕθi i i i i i y c a b y y f +-= 其中,),(),(),(ϕθϕi i y c b a 为已知函数,对所有的观察值具有相同的形式。

i θ为自然参数,与均值是一一对应关系,ϕ为离散参数。

指数分布族的均值和方差可以分别表示为:
)()('i i i b Y E θμ==
)()()()()("i i i u V a b a Y Var ⋅=⋅=ϕθϕ
指数分布族包括正态分布、二项分布、泊松分布、伽马分布和逆高斯分布等。

二是在表达形式方面,GLM 是假设响应变量均值经过某连接函数变换后,等于解释变量的线性组合形式,具体如下:
)()()('11βημi i i i x g g Y E --===
其中,i μ是风险i 的期望值,)(i V μ是方差函数,i x 是解释向量,β是回归系数向量,βη'i i x =是线性预测项,g 是连接函数。

模型中参数β可利用极大似然估计法来估计,通过加权最小二乘估计,再使用Newton-Raphson 迭代算法,可得到β的极大似然估计。

因为数据和算法的复杂,可通过R 中的软件包进行拟合。

2.2 Tweedie 分布
Tweedie 分布族是一类特殊的指数分布族,证明参见孙维伟(2014),用),(φθP W T 来
表示,由方差函数P
V μμ=)(完全确定,p 的取值在。

图一给出了在θ、ϕ保持不变的情况下,P 取不同的值时Tweedie 分布族的概率密度和累积分布。

图一 Tweedie 分布族的概率密度和累计分布图
其中指数参数P 不同的取值对应着不同的分布形式,P=0、1、2、3分别对应正态、泊松、伽马和逆高斯分布,当1<P<2时,为Tweedie 分布,即复合泊松分布,由泊松分布和伽马分布复合而成:如果保单在保险期间的索赔次数服从泊松分布,每次索赔的赔付额服从伽马分布,则保单在整个保险期间的累积赔付额服从Tweedie 分布,适合用来拟合个体保单的总赔付金额数据。

Tweedie 分布在零点有一个较大的概率堆积,从图一概率密度函数可看出,当P 值越接近2时,其在零点的概率越大,这与车险不发生损失几率大的情况符合。

在车险定价实务中,如果索赔频率和索赔强度之间的相依关系较强时,常采用Tweedie 回归模型直接对索赔额建模。

可通过迭代算法求得Tweedie 分布指数参数p 的极大似然估计值。

2.3 广义加法模型
2.3.1 模型介绍
进入21世纪以来,分类费率厘定的主流方法被GLM 所取代,但随着车险行业的发展、数据的复杂化,由于其对协变量的影响必须为预测函数的线性形式,使得传统的GLM 已经不能满足精算者们的需求,于是对GLM 进行扩展成广义加法模型(GAM )来拟合更加复杂的数据。

GAM 是在GLM 的基础框架下,将解释变量的形式引入非参数函数,使得其更一般化,从而具有较小的偏差、良好的稳健性和广泛适用性。

具体来看,GAM 由三个部分组成:随机部分、系统部分和联结函数。

第一部分是随机部分,是指响应变量Y 的概率分布。

假设响应变量T n y y y Y ),,,(21 =的每个观测值相互独立且服从指数分布族,如正态分布、泊松分布、伽马分布、逆高斯分布和Tweedie 分布等。

第二部分是系统部分,与GLM 不同的是GAM 加入了非参数函数部分,表达形式为:
∑=+=r
k k k x f X g 1)()(βμ
其中X 是具有线性影响的解释变量矩阵形式,β是相应的系数矩阵,),,2,1(r k x k =是非线性影响的解释变量,)(⋅k f 是非参数的待估计的光滑函数,μ为响应变量均值,)(⋅g 为联结函数。

第三部分是联结函数。

通过联结函数将响应变量与解释变量连接一起。

常用的联结函数有对数联结函数、倒数联结函数和logit 联结函数等。

对于响应变量服从不同的分布其联结函数与之对应,譬如对于泊松分布选择对数联结函数,伽马分布选择倒数联结函数,二项分布假设下则常选择logit 联结函数等等。

2.3.2 参数估计
GAM 是GLM 的参数、半参数拓展,可应用不同函数拟合解释变量的非线性关系,假设函数可加、且函数的组成成分是光滑函数,进而可以通过联结函数建立响应变量的均值与解释变量之间的关系。

尤其对于空间数据,GAM 能够使解释变量的非线性影响表现得更加明确。

GAM 与GLM 相比,其核心观点在于非参数部分,即解释变量的非线性影响函数。

因此,GAM 的关键在于,如何估计或采用光滑函数逼近这一非参数部分。

GAM 的估计与LM 相似,就是借助最小二乘法使期望值与观测值之间的差距达到最小,同时兼顾光滑性。

GLM 对参数的估计常用极大似然法,GAM 对参数的估计可采用惩罚极大似然法(penalized likelihood maximization ),即等价于惩罚迭代加权最小二乘法(penalized iteratively re-weighted least ,P-IRLS ),参见Wood (2006),Marra 和Wood (2012)。

GAM 除了拟合普通线性因子外,还可以采用不同的光滑函数相加的形式来描述那些与响应变量之间存在复杂非线性关系的变量。

对于每个解释变量所对应的单变量函数的拟合方法有很多种,如核光滑函数、局部加权回归光滑函数、样条函数和张量积函数,这些方法都属于非参数方法。

2.3.3 模型的选取与评价
GLM 的评价和检验主要是基于模型的偏度和尺度化偏差,另外常用的也有Pearson 卡
方统计量、残差检验,较为简单的有AIC、BIC等信息准则,它们定义为:
信息准则的值越小表明模型拟合的效果越好。

GAM模型是通过广义交叉验证(Generalized Cross Validation,GCV)标准或无偏风险估计(Un-Biases Risk Estimator,UBRE)标准指定GAM的光滑因子,进而解决光滑参数的估计问题。

因而,GAM的选取可以依据GCV或UBRE score统计量的值,GCV和UBRE定义为:
其中,D是模型的偏差,n是数据个数,s是尺度参数,Dof是模型的有效自由度。

当s未知时,可采用GCV score估计光滑参数λ,当s已知时,可采用UBRE score 估计光滑参数λ。

Mallows(1973)将UBRE称为Mallows’s Cp,UBRE也可看作是有效赤池信息准则(AIC)的重新调整。

建立合适的GAM的标准是使GCV/UBRE score(比例AIC)最小,或者说,模型的GCV/UBRE score越小,表明模型的估计结果越准确。

所以,比较或选择最优的GLM和GAM的标准之一是AIC统计量值,AIC越小,表明模型的估计越准确,此外,模型的解释偏差或者ANOVA 函数也是比较模型的常用方法。

三、实证研究
3.1数据来源及描述
本文采用1977年瑞典汽车第三者责任保险的一组详细损失数据(数据来源:)。

该数据有七个变量:年行驶里程数(分为5个等级,用K表示)、行驶地区(分为7个等级,为更准确拟合数据分布本文只采用前6个等级,用Z表示)、无赔款折扣等级(分为7个等级,用B表示)、车型(分为9个等级,用M表示)、保单年数、赔付次数和总赔付额,详细描述见表一。

所有的被保险人被划分成了1887个类别,总的保单年数为2364086.33,经验数据的平均索赔频率为0.048,次均赔款为4956.56,平均纯保费为235.98。

表1 变量说明
Variable Description
Kilometres Kilometres travelled per year
1:< 1000 2:1000-15000 3:15000-20000 4:20000-25000 5:>25000 Zone Geographical zone
1: Stockholm, Göteborg, Malmö with surroundings
2: Other large cities with surroundings
3: Smaller cities with surroundings in southern Sweden
4: Rural areas in southern Sweden
5: Smaller cities with surroundings in northern Sweden
6: Rural areas in northern Sweden
Bonus No claims bonus. Equal to the number of years, plus one, since last claim
Make 1-8 represent eight different common car models. All other models are combined in class 9
Insured Number of insured in policy-years
Claims Number of claims
Payment Total value of payments in Skr
3.2分布选择
在建模前,首先要确定响应变量Y的分布。

为排除因忽略索赔次数和索赔强度之间可能存在相依关系而导致预测偏差的缺陷,本文直接对索赔额建模,采用Tweedie分布,但其前提必须满足,索赔次数服从poisson分布,每次索赔的赔付额服从gamma分布。

索赔次数、索赔强度和索赔金额的拟合分布如下图所示,第一个图曲线是poisson分布对索赔次数的拟合值,第二个图中的曲线是gamma分布对索赔强度的拟合值,通过对图形的观察我们可以得到用poisson分布拟合索赔次数、gamma分布拟合索赔强度其拟合效果较好。

最后一个是索赔额的直方图,在零点有很大的概率堆积,这与汽车保单损失情况符合。

因此,保单累积赔付拟合Tweedie分布是合理的。

图二 分布拟合
3.3模型建立
在索赔额服从Tweedie 分布的情况下,对索赔额数据建立广义线性模型,但考虑解释变量对响应变量函数的影响可能不全是线性的,例如区域变量,其对索赔额的影响大多情况下是非线性的,因此,为了更好刻画解释变量与响应变量之间的关系,另外再建立广义加法模型与之对比。

3.3.1 Tweedie 分布指标p 的确定
对于本组数据,假定索赔额服从Tweedie 分布。

首先要确定分布的指标参数,可根据样本观测值来拟合分布,具体可利用R 软件中的tweedie.profile 函数来迭代估计指标p ,得到p 的近似值为1.851。

通过其概率密度分布图可知其索赔额在0处有大堆积概率,这与汽车保险索赔数据不发生损失几率较大的情况相符。

3.3.2 GLM_ Tweedie 模型的建立
以索赔额(Y )为响应变量,年行驶里程数(K )、行驶区域(Z )、无赔款折扣等级(B )
和车型(M )为自变量建立如下模型:
β
ϕθT i X u Y E u Tweedie y ==)ln()
()
,(~851.1
其中),,,,,,,,,,,,1(91716151m m b b z z k k X =包含行驶里程数、区域、无赔款折扣等级和车型等26个指示变量,)26,,1,0( =i i β为待估计参数。

利用R 软件中的glm 函数对模型参数进行估计,得到表二结果,由结果可见,拟合效果一般。

在显著水平为0.05的情况下,无赔款折扣等级、里程变量和区域变量对索赔额函数的线性影响不明显。

因此考虑无赔款折扣等级的非线性影响情况,另外常规情况下汽车损失的情况与地理区域大多呈现非线性影响,所以也对区域变量与索赔函数应建立非线性关系。

由此建立GAM_ Tweedie 模型。

表2 GLM_ Tweedie 回归模型的参数估计值 因子水平 Estimate 因子水平 Estimate
Intercept 8.52946 *** B4 0.02947
K2 0.03881 B5 0.03811
K3 0.04236 B6 0.10609
K4 -0.12147 B7 0.1664 .
K5 -0.1203 M2 -0.12227
Z2 -0.08294 M3 -0.0545
Z3 0.03153 M4 -0.47972 ***
Z4 0.13 M5 -0.10621
Z5 -0.1127 M6 -0.05445
Z6 0.04443 M7 -0.17997 .
B2 0.01452 M8 0.04244
B3 -0.05928 M9 -0.03438
Signif. codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05‘.’ 0.1 ‘ ’1
3.3.3 GAM_ Tweedie 模型的建立
类似于GLM_ Tweedie 模型,以索赔额(Y )为响应变量,年行驶里程数(K )和车型(M )为线性自变量,行驶区域(Z )与无赔款折扣等级(B )为非参数自变量。

建立如下模型:
)
()()ln()
()
,(~210851.1B te Z te M K u Y E u Tweedie y i ++++==βββϕθ
其中包含行驶里程数、区域、无赔款折扣等级和车型等26个指示变量,)1,0(=i i β为待估计参数,te( )为非参数估计的张量积光滑函数。

利用R 软件,调用mgcv 包中的gam 函数对模型参数进行估计,得到的结果同样不理想。

为更好地拟合数据,有必要更改模型的联结函数。

根据Tweedie 分布常用的联结函数:对数函数、对等函数和逆函数。

分别对数据进行拟合,结果表明Tweedie 分布的联结函数取对等函数时效果最佳。

由此模型更改为:
)()()()
,(~210851.1B te Z te M K Y E u Tweedie y i ++++==βββϕθ
其参数估计值如表二,非参数自变量K 和Z 对响应变量的影响通过图形体现,灰色部分代表光滑曲线的置信区间,详情如图三所示。

表2 GAM_ Tweedie 回归模型的参数估计值
因子水平 Estimate 因子水平 Estimate
Intercept 5460.48 *** M5 -410.59
K2 113.71 M6 -242.47
K3 158.77 M7 -929.38
K4 -801.84 * M8 156.07
K5 -947.86 ** M9 -124.8
M2 -509.75 te(B) *
M3 -76.25 te(Z)
M4 -2174.46 ***
Signif. codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05‘.’ 0.1 ‘ ’1
图三 非参数自变量影响函数
3.3.4 模型的评价
首先,仅从模型参数估计结果看,显然GAM_ Tweedie模型比GLM_ Tweedie模型拟合效果要好。

另外,通过AIC信息准则来判断两个模型的拟合效果。

GLM_ Tweedie模型的AIC的值为34763.42,GAM_ Tweedie模型的AIC的值为34750.43。

GAM_ Tweedie 模型的AIC值小于GLM_ Tweedie模型的AIC值,则GAM_ Tweedie模型对索赔额数据的拟合效果更好。

3.4结果分析
从GAM_ Tweedie模型的估计结果来看,每年行驶里程数对总索赔额的影响是单调递增的,当行驶的里程数越大,发生的总索赔额越大,这与常理相符。

并且行驶里程数小于20000时,对总索赔额具有正向的影响作用,超过20000公里时,为负向影响。

车型对总索赔基本是具有负向的影响作用。

其中,四号车型的估计值最大,说明其对总索赔额的影响最强,三号车型估计值最小,其对总索赔额的影响最弱。

此外,对于非参数变量无赔款折扣等级和行驶区域具有类似的特征,但无赔款折扣的斜率比行驶区域的斜率大,说明其对总索赔额变动的影响更加灵敏。

无赔款折扣等级在第一、二、三、四风险等级都具有负向的影响性,其他与之相反。

但随着风险等级的不断增加,总索赔额是不断增加的,这不符合现实状况。

随着无赔款折扣等级的增加,说明该汽车以往及以后发生事故的概率逐渐变小,从而能够享受到更优惠的无赔款折扣等级,所以总索赔额应该是不断下降的。

行驶区域等级变化,总索赔额也逐渐升高。

第一、二、三风险等级都具有负向的影响性,其他为正向影响。

这主要与汽车主要行驶的地形有关,如崎岖陡峭难行的山地更容易发生事故,而平坦宽敞易行的平原发生事故概率低,具体风险等级对应何种地形,本文不做详细分析。

因此,通过以上的实证分析,对总索赔额数据构建GAM_ Tweedie模型分析从参数和非参数两个角度去分析各因素对响应变量的影响,该方法有效。

但不足之处是对于这种因子数据用光滑函数进行拟合时,不尽如意。

本文只对GAM_ Tweedie模型在汽车保险定价中的应用做了初步探索,GAM的广泛应用性还有待进一步研究,实证结果表明,GAM更适合协变量为非线性的假设,相信这可以为保险定价提供一种新的借鉴.
四、结论
广义线性模型在车险费率厘定中应用广泛,其假设协变量的影响为预测函数的线性形式,但在实际的情况下,许多对索賠频率、索賠强度或纯保费的影响因素不仅仅是表现成线
性形式的,而单纯地用线性估计会造成一些变量的不显著而丢失重要影响因素。

本文通过对瑞典汽车第三者责任保险的一组详细损失数据构建GAM_ Tweedie模型进行拟合估计,在同条件下与GLM_ Tweedie模型对比,结果表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响。

在车险费率厘定中,出于追求更好拟合效果的考虑,首先在响应变量的分布选择方面,可以对索賠频率、索賠强度或纯保费拟合不同的分布,得出最佳的指数族分布。

然后模型选择方面,可以先用散点图粗略地观察自变量与响应变量的关系,对于线性关系明显的可以尝试应用最多的GLM,对于线性关系不强的变量再进行GAM拟合,通过改变其联结函数,使得拟合效果达到最优。

参考文献
[1]De Jong P,Heller G Z.Generalized Linear Models for InsuranceData[M].Cambridge: Cambridge University Press,2008.
[2] Bailey Robert A.and Leroy J. Simon,Two Studies in Automobile InsuranceRatemaking[J] ,PCAS 卷XLVII, Numbers 87 &88,Casualty Actuarial Society, 1960,192 .
[3]Tweedie M C K.An Index Which Distinguishes Between SomeImportant Exponential Families[C]/ /Ghosh J K,Roy J.Statistics:Applications and New Directions.Proceedings of the IndianStatistical Institute Golden Jubilee International Conference,1984: 579 -604.
[4] P.Mccullach and J.A.Nelder,”Generalized Linear Models”[M],第二版.Chapmanand Hall,伦敦,1989.
[5] Duncan Anderson ,Claudine Modlin ,Ernesto Schirmacher, “A Practitioner's Guideto Generalized Linear Models” Discussion Paper on Applying and EvaluatingGeneralized Linear Models,2004,P4-82.
[6] Danny Samson.Designing an auto mobile insurance classification system[J].European Journal ofOperationa l Research,1986(27):235-241.
[7] Danny Samson.Linear Model as Aidin Insurance Decision Making:The Estimation of Auto mobile Insurance Claims[J1.Journal of Business Research,1987(15):247-256.
[8] 张连增,孙维伟.广义线性混合模型在保险索赔中的应用及R实现[J].江西财经大学学报,2013,(4):48-58.DOI:10.3969/j.issn.1008-2972.2013.04.006.
[9] 王维.车险定价中的索赔次数分布模型及其应用[D].中国人民大学,2009.
[10] 黄顺林,张颖,陈娜等.基于Tweedie和零调整逆高斯回归的索赔额模型[J].统计与决策,2010,(4):27-29 .
[11]童丽娟.GAM在汽车保险定价中的应用研究[J].数学的实践与认识,2011,41(17):64-69.
[10] 孟生旺,徐昕.非寿险费率厘定的索赔频率预测模型及其应用[J].统计与信息论坛,2012,27(9):14-19.DOI:10.3969/j.issn.1007-3116.2012.09.003.
[12] 孙维伟.基于Tweedie类分布的广义可加模型在车险费率厘定中的应用[J].天津商业大学学报,2014,34(1):60-67.DOI:10.3969/j.issn.1674-2362.2014.01.010.
[13] 孟生旺,王选鹤.GAMLSS模型及其在车损险费率厘定中的应用[J].数理统计与管理,2014,33(4):583-591.DOI:10.13860/ki.sltj-20140722-012.
[14] 孟生旺.汽车保险的精算统计模型[M].中国统计出版社.。

相关文档
最新文档