广义线性模型与汽车保险费率厘定
我国车险费率厘定的实证研究——基于广义线性模型的分析

我国车险费率厘定的实证研究——基于广义线性模型的分析赵慧卿;王汉章【摘要】Automobile insurance industry has been developing rapidly in China. Scientific and fair rate making system is important for the sound development of automobile insurance industry in China. The paper evaluates rate making with the generalized linear models of loss frequency and loss severity, and analyses respectively the impacts of automobile, hmnan and area on loss frequency and loss severity.%目前,我国的机动车保险业进入快速发展阶段。
科学、公平的费率厘定方法,对我国车险行业健康发展具有积极意义。
从索赔频率和索赔额度两个方面利用广义线性模型估计保险费率,分析了从车、从人、从地三个因素的变动对索赔频率和索赔额度的影响。
【期刊名称】《天津商业大学学报》【年(卷),期】2011(031)005【总页数】5页(P8-12)【关键词】费率厘定;广义线性模型;索赔频率;索赔额度【作者】赵慧卿;王汉章【作者单位】天津商业大学经济学院,天津300134;天津商业大学经济学院,天津300134【正文语种】中文【中图分类】F840汽车保险是财产保险中的主要险种,其盈亏直接关系到整个财产保险行业的经济效益。
2003年以前,国内保险公司的车险业务采用保监会制定的统一条款和费率体系,较高的费率不但违背了费率厘定和市场竞争的公平原则,而且使得行业缺乏竞争力。
随着国外保险公司的纷纷进入,我国车险市场的竞争愈加激烈。
广义线性模型在中国车险费率厘定中的研究的开题报告

广义线性模型在中国车险费率厘定中的研究的开题报告
题目:广义线性模型在中国车险费率厘定中的研究
摘要:
车险是指机动车辆保险,通常包括车辆损失险和第三者责任险两个方面。
中国的车险市场随着人口和汽车保有量的增加而快速发展。
对于保险公司来说,正确估计风
险和定价是保持竞争力和获得利润的关键之一。
广义线性模型(GLM)是一种广泛应用于风险管理和保险精算的统计方法,它将响应变量(即赔款金额)与协变量(即车辆基本信息,行驶记录等)建立了预测模型。
本研究将探讨GLM在中国车险费率厘定中的应用,并且使用真实数据对其进行验证。
本研究的主要目的是确定中国车险的主要风险因素,并建立车险的最佳定价模型,以提高精算师和保险公司的精算水平以及保险公司的竞争优势。
本研究的详细内容包
括建立车险GLM模型、对模型进行评估和验证、分析和讨论研究结果,并提出相关建议和未来展望。
研究方法将提取中国大量的车险数据进行GLM模型的建立和验证,并且比较模
型的预测结果和实际建模过程中发现的因素。
最后,本研究将探讨利用机器学习算法
来改进车险GLM模型的可靠性和预测精度。
本研究的成果将对中国车险市场具有重要的理论和实践意义,对提高保险公司的精算水平,增强竞争力和获得利润等方面都有积极的推动作用。
关键词:车险;广义线性模型;精算;风险定价。
广义线性模型及其在车险定价中的应用

广义线性模型及其在车险定价中的应用作者:张天舒来源:《科技创新与应用》2015年第36期摘要:文章简单分析了传统非寿险精算方法存在的缺陷,引入了非寿险精算的经典模型——广义线性模型,并通过R语言对实例进行了分析,并给出广义线性模型在车险定价中的一般步骤。
关键词:非寿险;广义线性模型;车险定价广义线性模型(Generalized Linear Models,简称GLM)是1972年由Nelder和Wedderburn提出的,通过对经典线性回归模型进行了进一步的推广,建立了统一的理论和计算框架,推进了回归模型在统计学中的发展。
继20世纪80年代Nelder和MaCullagh将GLM 引入到精算学后,20世纪90年代,英国的精算师首次将广义线性模型引入到非寿险定价中,这大大解决了传统的非寿险定价方法--单项分析法所面临的局限性,直至现在汽车保险和商业保险等非寿险仍旧使用这一方法。
近年来,GLM在理论和应用方面都得到了快速的发展,包括在拓展模型,模型的诊断以及参数估计方法等方面的研究都不断趋近于成熟,适用与GLM 的计算机软件也日益增多,包含GLM专用程序GLIM(Genneralized Linear Interactive Modelling),SAS统计软件(Genmod模块),统计软件R中相应的程序包也可以完成GLM 常见模型的估计和假设检验问题。
在中国车险定价中,得益于保监会在2010年出台的《关于在深圳开展商业车险定价机制改革试点的通知》,为广义线性模型在车险定价方面提供了制度上的保障。
1 传统的非寿险定价方法1.1 单项分析法(One-Way Analysis)单项分析法是指每次仅计算一个费率因子对其保险产品价格的影响。
由于忽略各个费率因子之间的相互关系,容易导致定价结果的严重扭曲,只有当各个费率因子之间是相互独立的,这种方法所得到的结论才是稳定可靠的。
例如,在汽车保险定价中,对车龄进行单项分析,结果表明汽车时间越长,保险成本越高。
广义线性模型在汽车保险定价的应用

广义线性模型在汽车保险定价的应用一、概述随着汽车保有量的不断增长,汽车保险行业面临着日益复杂的定价挑战。
传统的定价方法往往基于经验或简单的统计模型,难以准确反映车辆风险的实际情况。
寻求一种更为科学、精确的定价方法成为了汽车保险行业的迫切需求。
广义线性模型作为一种强大的统计工具,能够处理多种类型的数据和复杂的非线性关系,为汽车保险定价提供了新的思路和方法。
广义线性模型(Generalized Linear Model,GLM)是线性模型的扩展,它允许因变量的分布超出正态分布的范畴,比如二项分布、泊松分布等。
通过引入链接函数,广义线性模型能够将因变量的期望与线性预测变量建立起联系,从而适用于更广泛的实际问题。
在汽车保险定价中,广义线性模型可以综合考虑车辆类型、驾驶记录、事故历史、地理位置等多种因素,对风险进行更为全面和准确的评估。
广义线性模型还具有灵活性和可扩展性强的优点。
通过调整模型中的变量和参数,可以适应不同的定价场景和需求。
同时,广义线性模型还可以与其他统计方法和机器学习算法相结合,进一步提高定价的精度和效率。
本文将重点探讨广义线性模型在汽车保险定价中的应用,包括模型构建、变量选择、参数估计等方面。
通过实例分析和实证研究,展示广义线性模型在汽车保险定价中的优势和应用效果,为汽车保险行业的定价决策提供有益的参考。
1. 汽车保险定价的重要性汽车保险定价的重要性在于其直接关系到保险公司的盈利能力和市场竞争力,同时也影响到广大车主的保险费用和保障程度。
一个科学合理的定价策略能够准确反映车辆的风险水平,从而确保保险公司在承担风险的同时实现稳健经营。
合理的定价还能够吸引更多的潜在客户,提高保险公司的市场份额。
随着汽车保有量的不断增加和道路交通环境的日益复杂,汽车保险定价面临着越来越多的挑战。
传统的定价方法往往基于历史数据和经验判断,难以准确反映车辆的实际风险。
而广义线性模型作为一种强大的统计工具,能够综合考虑多种影响因素,对汽车保险定价进行更加精准和科学的预测。
基于GAM_Tweedie模型的车险定价研究

基于GAM_Tweedie模型的车险定价研究摘要:广义线性模型作为车险费率厘定的主流方法,其假设协变量的影响为预测函数的线性形式,但在实际的情况下,许多对索賠频率、索賠强度或纯保费的影响因素不仅仅是表现成线性形式的,单纯地用线性估计会造成一些变量的不显著而丢失重要影响因素。
本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,通过与Tweedie广义线性模型对比,表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响。
关键词:广义线性模型,车险费率厘定,Tweedie分布,广义加法模型一、引言车险定价实则是对索赔频率、索赔强度或纯保费进行预测。
在车险定价实务中,经常假设索赔频率与索赔强度相互独立,并分别建立索赔频率和索赔强度的广义线性模型。
在独立的假设下,可以把索赔频率与索赔强度的预测值相乘从而求得纯保费的预测值。
这种方法简单易行,在非寿险精算实务中得到广泛的应用,但其忽略了索赔频率与索赔强度之间可能存在的相依关系,从而造成预测的偏差。
而在纯保费的预测中,主要是应用Tweedie广义线性模型。
Tweedie广义线性模型,是假定保单的累积赔付额服从Tweedie分布,对赔付额的均值函数建立回归模型。
其要求协变量的影响为预测函数的线性形式,但在实际的情况下,许多对纯保费的影响因素不仅仅是表现成线性形式的,如空间协变量,大多数情况下其对响应变量均值函数的影响是非线性的,如果单纯地用线性估计会造成一些变量的不显著而丢失重要的影响因素。
为了更好的拟合数据,从而有必要对其进行优化推广,在广义线性模型中纳入平滑预测项,将其推广到广义加法模型。
从线性和非线性两个方面去分析各因素对预测函数不同的影响程度。
本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,利用R软件对模型的参数进行估计检验。
通过与Tweedie广义线性模型对比,表明Tweedie 广义加法模型可以更好的解释各因素对索赔额的影响,从而改进了传统广义线性模型对纯保费的预测精度。
广义线性模型在车辆保险风险评价中的应用

广义线性模型在车辆保险风险评价中的应用摘要本文以广义线性模型为基础,通过SAS软件中genmod过程对保险索赔数据进行了模拟。
SAS软件中genmod过程可以拟合各种各样的统计模型。
而该过程的一种典型用法就是进行Logistic回归泊松分布。
泊松分布可以用来模拟在一个多向列联表中单元计数的分布。
本文通过对一组车辆保险投保及索赔相关数据进行Logistic 回归,通过SAS软件中genmod过程对数据进行处理,对该输出结果结果进行统计分析,得到在汽车投保及索赔过程中,车型及投保人的年龄这两个因素对投保人投保及保险索赔数量的影响都是显著的结论。
关键词:Logistic回归车辆保险一、研究背景随着社会的进步,经济的发展,人们抵御风险的能力大提高。
保险的基本原则是累计千千万万人的财力,结成一个抵御化解风险的大集体,在这个大集体中每个人都是付出者,但同时也是受益者。
通过付出,在遭遇事故时,得到及时的救助,这就是保险的基本功能。
保险的作用是规避风险,买保险就是把自己的风险转移出去,而接受风险的机构就是保险公司。
保险公司接受风险转移是因为可保风险还是有规律可循的。
通过研究风险的偶然性去寻找其必然性,掌握风险发生、发展的规律,为众多有危险顾虑的人提供了保险保障。
机动车辆保险即“车险”,是以机动车辆本身及其第三者责任等为保险标志的一种运输工具保险。
其保险客户,主要是拥有各种机动交通工具的法人团体和个人;其保险标的,主要是各种类型的汽车,但也包括电车、电瓶车等专用车辆及摩托车等。
2012年3月份,中国保监会先后发布了《关于加强机动车辆商业保险条款费率管理的通知》和《机动车辆商业保险示范条款》,推动了车辆保险的改革。
二、数据来源通过对可能影响车辆保险投保及索赔情况的2个因素设计调查问卷,并应用随机抽样调查的方法,采取不记名问卷调查的形式,在某保险公司投保人及保险工作人员中进行随机抽样调查。
所调查的被调查者中一人一份问卷,最后共收回10份有效调查问卷。
广义线性模型与保费点数计价系统

简便实用的保费呈 现方式。其计价模 型的形式 为:
P = Bx (1 I
(92 参见文献[ ]他 们提 出 了处 理正态 和正 态数据 的 17 ) 8,
统一 模 型框 架 , 括 线 性 回 归 、 差 分 析 . g ̄c 归 和 对 包 方 1 ii回 o t 数线性模型。 对 于 一般 的线 性 回归 模 型 ( L G M)
M dl. 称 G I . oe 筒 s LM)
G I2 系统要 素同 C M , L1 : / 1 . 2 即保持线 性结构 。 L
分布。
价系统( 参见文 献 [ I p4 ) 1] l5 。本 文介绍 另一种方 法来{ 6 I 订点数计价系统 , 用具 有对 数莲 接形 式 的广 义线 性模 先 型耐理赔历史进 行拟 台 , 选择 拟台较 优 的分 布形 式 建立
广 义 线 性 模 型 , 后 再 将 模 型 转 换 为 点 数 计 价 系 统 。通 然 过 一 个 汽 车 保 险 的 实 例 来 介 绍 这 种 方 法 , 方 法 在 非 寿 该 险 乃 至 寿 险 宴 务 中具 有 较 普 遍 的 意 义 。
…
则
算 费率 P。
.
Байду номын сангаас
m 这些 值。 Y的值其实 并无数 量 的意 义 , 只是 指示对
风险点数表和点数 费率表构成 了点数 计价 系统 。如
何 合 理 地 制 订 这 两 张 表 成 为 制 订 点 数 计 价 系统 的 关 键 , 通 常 的方 法 采用 边 际 总 和法 中 的 乘 法 模 型 来 嗣 订 点 数 计
象 所 属 的类 别 , 时 E 此 Y总 落 在 一 个 有 界 的 范 围 内 , Y 如
广义线性模型在保险领域的应用

广义线性模型在保险领域的应用作者:武亦文李宛虹来源:《商情》2018年第08期【摘要】随着保险精算评估方法的快速发展,广义线性模型在保险领域的应用越来越广泛。
本文详细介绍了广义线性模型的理论基础,并且分别阐述了在不同的保险领域广义线性模型的应用。
对优化保险精算分析方法具有一定的借鉴意义。
【关键词】广义线性模型;保险精算;定价;评估一、背景介绍广义线性模型(Generalized Linear Models)在精算中的应用起始于20世纪80年代。
其应用涉及到精算学的各个领域,如生命表的修匀、损失分布、信度理论风险分类、准备金和费率估计等方面。
广义线性模型的建立,极大地推动了以统计方法为基石的精算学的发展。
广义线性模型是线性模型的扩展,其特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构,主要是通过联结函数,建立响应变量的数学期望值与线性组合的预测变量之间的关系。
广义线性模型可以同时考虑所有的定价因素,并在人工参与的基础上对这些因素的相关性以及各因素之间的相互作用进行调整。
该方法可以通过很多软件实现,比如SAS、R,计算效率很高。
二、广义线性模型的理论基础古典线性回归模型中,将因变量表示为均值和一个随机扰动变量的和,而均值则表示为解释变量的线性组合。
线性回归模型虽然很容易通过代数方法求解,但在精算应用中,这种假设通常很难得到满足。
(一)要求因变量服从正态分布且具有相同方差在很多情况下是不现实的,譬如索赔频率和续保率等数据通常不会服从正态分布。
虽然可以通过数据变换来满足这一假设,如对因变量的观察值取对数,但是通常难以给出对数据进行这种变换的合理解释。
(二)在许多实际问题中,尤其是在保险实践中,因变量的取值往往是非负的,如索赔次数和赔款等变量。
因变量服从正态分布的假设显然不能满足这一要求。
(三)如果因变量是严格非负的,那么从直观上看,当因变量的均值趋于零时,其方差也应该趋于零。
换言之,因变量的方差是其均值的函数。
广义线性模型在车险费率厘定中的应用

广义线性模型在车险费率厘定中的应用作者:李桂伟来源:《科学与财富》2017年第25期摘要:线性回归模型主要适用于因变量为连续型(特别是服从正态分布)的随机变量的情况。
Nelder和Wedderburn(1972)推广了线性回归模型,提出了广义线性模型(GLM),该模型通过一个已知的连接函数将因变量的数学期望与自变量的线性函数联系起来,并将因变量的分布推广到了指数族分布,可以处理因变量为常见的一些离散型和连续型随机变量的回归分析问题,有着更为宽广的应用领域。
近年来,GLM在理论和应用方而都得到了快速的发展,其在车险中的应用也趋向于成熟和广泛,本文通过一个实例,结合SAS软件来介绍了其在分类费率厘定中的应用,为车险费率厘定提供参考。
关键词:广义线性模型费率厘定一、引言2016年我国汽车产销量是1826万辆,从单车2000元左右到几千元不等的保费来看,车险市场容量很可能稳定在2000亿以上,在我国各财产保险公司中,汽车保险业务保费收入占其总保费收入的50%以上,部分公司60~70%以上。
汽车保险业务已经成为财产保险公司的“吃饭险种”。
汽车保险业务的效益已成为财产保险公司效益的“晴雨表”,所以说,如何合理的进行车险费率厘定,不管是对财产保险公司来说,还是对投保人来说都有极为重要的现实意义。
对于广义线性模型的应用,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn 在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加。
二、基本原理2.1指数族分布若随机变量ζ的概率分布(离散型)或概率密度(连续型)具有如下形式:其中为已知连续函数,二阶可微,φ为未知参数,则称服从指数族分布。
2.2连接函数设因变量y和自变量X1,…,Xp的n组独立观测值为(yi;xi1,…xip),i=1,…,n,y,服从指数族分布。
广义线性模型在车险精算定价中的实证研究

1 研究背景及概述 自从 2008 年以来,汽车行业迈入了稳步向前的发展。 近三年来,2015 年国内乘用车销量 2058 万辆,同比增长 13.3% ;2016 年 国 内 乘 用 车 销 量 2385 万 辆 , 同 比 增 长 15.9%淤,受购置税优惠政策刺激和新能源汽车市场快速发 展的推动,产销量迎来井喷式爆发,同比环比值达到了历 史最高点,2016 年新车产销量增幅较往年显著提高,一方 面是由于新车购置税推出优惠政策的刺激,另一方面也说 明了目前新车市场仍然没有饱和,有很大的提升空间; 2017 年国内乘用车销量 2376.4 万辆,同比增长 2.1%,消 费升级推动了原有消费群体的换购需求。同时习主席在十 九大的报告中指出,实施乡村振兴战略,农业农村农民是 关系国计民生的根本性问题,汽车行业需要为三农问题做 出更大的贡献。目前大城市的交通体系完善,私家车的普 及程度高,然而非城镇地区私家车普及率低交通不便,应 该有效促进农村地区的私家车普及。中国居民人均可支配 收入持续增长,居民消费能力提升,三四五六线城市人口 基数大且汽车保有量低,经济水平逐年提高,新车除了增长速度,衍生产业的发展是中国汽车市场走向 成熟的另一个标志,尤其是汽车保险。根据保监会统计信 息,2016 年各上市财产保险公司保费收入合计增长 7.4%, 其中车险是财产保险公司的主要业务险种,对于大部分财 产保险公司来说,车险业务份额占财产保险业务量的 75% 要要要要要要要要要要要要要要要要要要要要要要要
Beijing 100029,China)
广义线性模型与汽车保险费率厘定

连接函数是用来描述系统要素与随机要素期望值之间关系的函数形式。作为连接函数必须严格单调且充分光滑,即有足够阶数的导数。
EMBED Equation.DSMT4
EMBED Equation.DSMT4 (由于: EMBED Equation.DSMT4 )
1、指数族分布
设Y为随机变量,若其密度函数为:
EMBED Equation.DSMT4
其中a( )、b( )、c( )为已知函数, EMBED Equation.DSMT4 称为典型参数, EMBED Equation.DSMT4 称为散度参数。由Y的对数似然可以计算得:
一、导论
对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。
EMBED Equation.DSMT4
EMBED Equation.DSMT4
Y的方差是 EMBED Equation.DSMT4 的二阶导数与 EMBED Equation.DSMT4 的积, EMBED Equation.DSMT4 只依赖于典型参数,因而只依赖于 EMBED Equation.DSMT4 ,所以,一般记 EMBED Equation.DSMT4 的二阶导数为 EMBED Equation.DSMT4 ,并称 EMBED Equation.DSMT4 为方差函数。此外,一般取 EMBED Equation.DSMT4 , EMBED Equation.DSMT4 称为权数。
大额索赔条件下的车险费率厘定

王 缔,男 ,辽宁鞍山人,博士生,研究方向:非寿险精算,机器学习。
58
张连增,王 缔:大额索赔条件下的车险费率厘定
和正常索赔两类,然后分别对不同分类部分运用指 数族分布(例如伽玛分布)建立模型[8]75-126。
(一)索赔频率分布模型 对于广义计数分布的一种流行方法是用一个复
合求和的形式,具体公式如下:
犕
犖 = ∑犣犼 犼=1
(1)
根据犕 和犣具体形式的选择不同,可以得到不同的分
布形式。索赔频率模型通常采用的分布为负二项分
布、零膨胀泊松分布或者 Hurdle泊松分布等。
1.负二项分布模型。假定 犖狘Θ~犘(λ·Θ),其
针对索赔次数,本文分别对其建立泊松模型、负 二项模型、零 膨 胀 泊 松 模 型、零 膨 胀 负 二 项 模 型 和 Hurdle模型,并且 对 这 些 模 型 进 行 分 析 比 较,得 到 合理的预测模型。针对索赔额,本文建立分类索赔 模型。分类索赔模型就是将索赔额转化为大额索赔
收稿日期:2018-06-03 基金项目:国家自然科学基金青年项目《基于相依结构的多元索赔准备金评估随机性方法研究》(71401041);南开大学基
摘要:车险费率厘定是财险公司设计产品的核心内容之一。在传统的纯保费预测模型中,通常建立复合 泊松-伽玛模型,该方法没有考虑到大额索赔出现的情况。为此,提出了一种处理大额索赔的频率-强度方 法。基于一组机动车损失数据,对索赔频率和索赔强度分别建模。比较不同分布的索赔频率模型,得到零膨 胀负二项模型效果较好;在索赔强度建模中,得到大额索赔伽玛模型比伽玛模型效果好。实证检验了带有大 额索赔的频率-强度模型在车险费率厘定中的优越性。
双重广义线性模型在车损险费率厘定中的应用

双重广义线性模型在车损险费率厘定中的应用赵明清;陈玉澎;张晓晓【期刊名称】《统计与信息论坛》【年(卷),期】2016(031)010【摘要】Double generalized linear model is an extension of the generalized linear model.It is used to establish the generalized linear model of mean and dispersion parameter,which improves the flexibility and adaptability of the model.The double generalized linear model is applied to the vehicle damage insurance ratemaking,not only the relationship between rate expectations and the rate factor is considered,but also the relationship between the degree of dispersion and the rate factors.The loss data of the insurance company in Europe is used as the sample to carry out the empirical research.The rate determining model is established with bonus,zone,make and annual mileage as the rate factors.The results show that the insurance rate structure is reasonable and practical.%双重广义线模型是对广义线性模型的扩展,其对反应变量的均值与散度参数同时建立模型,提高了模型运用的灵活性与适应性。
广义线性模型及其在车险定价中的应用

广义线性模型及其在车险定价中的应用文章简单分析了传统非寿险精算方法存在的缺陷,引入了非寿险精算的经典模型——广义线性模型,并通过R语言对实例进行了分析,并给出广义线性模型在车险定价中的一般步骤。
标签:非寿险;广义线性模型;车险定价广义线性模型(Generalized Linear Models,简称GLM)是1972年由Nelder 和Wedderburn提出的,通过对经典线性回归模型进行了进一步的推广,建立了统一的理论和计算框架,推进了回归模型在统计学中的发展。
继20世纪80年代Nelder和MaCullagh将GLM引入到精算学后,20世纪90年代,英国的精算师首次将广义线性模型引入到非寿险定价中,这大大解决了传统的非寿险定价方法--单项分析法所面临的局限性,直至现在汽车保险和商业保险等非寿险仍旧使用这一方法。
近年来,GLM在理论和应用方面都得到了快速的发展,包括在拓展模型,模型的诊断以及参数估计方法等方面的研究都不断趋近于成熟,适用与GLM的计算机软件也日益增多,包含GLM专用程序GLIM(Genneralized Linear Interactive Modelling),SAS统计软件(Genmod模块),统计软件R中相应的程序包也可以完成GLM常见模型的估计和假设检验问题。
在中国车险定价中,得益于保监会在2010年出台的《关于在深圳开展商业车险定价机制改革试点的通知》,为广义线性模型在车险定价方面提供了制度上的保障。
1 传统的非寿险定价方法1.1 单项分析法(One-Way Analysis)单项分析法是指每次仅计算一个费率因子对其保险产品价格的影响。
由于忽略各个费率因子之间的相互关系,容易导致定价结果的严重扭曲,只有当各个费率因子之间是相互独立的,这种方法所得到的结论才是稳定可靠的。
例如,在汽车保险定价中,对车龄进行单项分析,结果表明汽车时间越长,保险成本越高。
但是导致这一现象的很大原因可能是女性驾驶员驾驶旧车,这才导致了旧车的保险成本较高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
广义线性模型与汽车保险费率厘定胡三明西南财经大学保险学院【摘要】本文回顾了汽车保险费率厘定模型的发展历程,并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍,最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用,具有较强的实践意义。
【关键词】广义线性模型分类费率厘定一、导论对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。
对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。
最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。
广义线性模型(GLM)是传统线性模型以及许多最常见的最小偏差法的延伸,从技术角度看,比标准的迭代模型更有效率,它提供的统计诊断功能,有助于挑选重要的变量并且确认模型的假设条件。
如今,广义线性模型在欧盟和许多其他市场,被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。
广义线性模型的个别特例很早就已出现,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加,1983年McCullagh和Nelder出版了系统的论著,并于1989年再版。
二、广义线性模型(一)、线性模型一个传统的线性模型具有如下形式:'i iy xβε=+i其中iy是响应变量的第i次观测,ix是协变量,表示第i 次观测数据,未知系数向量β通过对数据iy的最小二乘拟合估计出来。
假定εi是均值为零,方差为常数的独立正态随机变量。
对于一般的线性回归模型(LM)'i iy xβε=+i可以分解为三个要素:LM1:随机要素,即Y服从正态分布,()iE yμ=;LM2:系统要素,'ixηβ=;LM3:连接要素,ημ=;(二)、广义线性模型尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题:(1) 将数据分布假设为正态分布并不合理;(2) 当数据的均值被限制在一定的范围内时,传统的线性模型就不适用了,因为线性预测值'ixβ可以取任意值;(3) 假定数据的方差对于所有观测都是一个常数并不现实。
广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。
一个广义线性模型包括以下组成部分:GLM1:随机要素,Y 服从比正态分布更一般的分布,即指数族分布;GLM2:系统要素同LM2,即保持线性结构; GLM3:连接要素,()g ημ=其中g 为严格单调可微的函数,称为连接函数。
GLM 的通常表述如下:()1i i ij j i j E Y g X μβξ-⎛⎫==+ ⎪⎝⎭∑()()i i iV Var Y φμω=其中:i Y :响应变量向量;()g x :连接函数;ij X :自变量矩阵;j β:待估计的参数向量;i ξ:干扰项向量;φ:方差函数()V x 的散布参数;()V x :方差函数;i ω:信度或权重;i Y 、ij X 、iω和i ξ依赖于对已知数据的处理,()g x 和()V x 则根据事先设定的模型得出,而φ或为已知,或为估计值。
1、指数族分布设Y 为随机变量,若其密度函数为:()()()();;exp ,y b f y c y a θθθφφφ⎧⎫⎛⎫-⎪⎪=+ ⎪⎨⎬ ⎪⎪⎪⎝⎭⎩⎭其中a( )、b( )、c( )为已知函数,θ称为典型参数,φ称为散度参数。
由Y 的对数似然可以计算得:()()'E y b μθ== ()()()''Var y a b φθ=Y 的方差是()b θ的二阶导数与()a φ的积,()b θ只依赖于典型参数,因而只依赖于μ,所以,一般记()b θ的二阶导数为()V μ,并称()V μ为方差函数。
此外,一般取() a φφω=,ω称为权数。
对于一个指数族分布,当()b θ确定后其分布形式即确定了,所以只要方差函数V 确定了,对应的指数族的形式(如果存在)也就确定了。
常见的几种分布都属于指数族,如下所示:表一、常见指数族分布参数表2、连接函数连接函数是用来描述系统要素与随机要素期望值之间关系的函数形式。
作为连接函数必须严格单调且充分光滑,即有足够阶数的导数。
()()()()exp ,i i i Y i y b f y c y a θθφφ⎧⎫-⎪⎪=+⎨⎬⎪⎪⎩⎭()()()()()()()()11'1'1exp ,i i i y b g b b g c y a ηηφφ----⎧⎫-⎪⎪=+⎨⎬⎪⎪⎩⎭(由于:()()()1'1bg θηη--==)当θη=时,上式可以简化为()()()exp ,i i i y b c y a ηηφφ⎧⎫-⎪⎪+⎨⎬⎪⎪⎩⎭我们称之为自然连接函数,其最重要的优点在于它使广义线性模型下统计推断的大样本理论变得更易于处理。
当然,实际处理过程中,连接函数的选取主要取决于问题本身。
3、参数估计设1y ,2y ,…,n y 独立同分布,服从指数族分布:()()()();;exp ,i i i i y b f y c y a θθθφφφ⎧⎫⎛⎫-⎪⎪=+ ⎪⎨⎬ ⎪⎪⎪⎝⎭⎩⎭则(1y ,2y ,…,n y )的对数似然函数为:()()()(),,i i i y b L c y a θθβφφφ⎧⎫⎛⎫-⎪⎪=+ ⎪⎨⎬ ⎪⎪⎪⎝⎭⎩⎭∑ ()()()0,i i i i ii i iii i y b l c y a θθθμηφβθφμηβ⎧⎫⎛⎫-∂∂∂∂∂⎪⎪==+ ⎪⎨⎬ ⎪∂∂∂∂∂⎪⎪⎝⎭⎩⎭∑由于:()()()()()()'''''''1111...i i i i i i i i i i i i i i i i i i i p ip ijib b b g g g x x x μθμθθθμθημημμμημηηβββ∂∂=⇒=⇒=∂∂∂∂=⇒=⇒=∂∂∂=++⇒=∂ 则:()()()()'''11i j ij j i i iy lx a b g μβφθμ-∂=∂∑ ()()()'11...jijijjj j p jp y x V g x x ωμμββ=-++∑4、假设检验同一般回归分析一样,广义线性模型的选择以及解释变量的显著性检验问题都可化为线性假设检验:原假设0:H 0C βα= 备择假设1:H0C βα≠,其中0β为P 维, C 为已知的r ×p 行满秩常数矩阵。
(1)、Wald 检验 检验统计量为:()()()1'1'n n n n C C C C ωβαβα-Λ-=-Λ-这里,n β为0β的极大似然估计,n Λ为()()0COV s β的估计。
当原假设成立时,即0C βα=,带入n ωΛ,得:()()()()1'1'00n n nn C C CC ωββββ-Λ-=-Λ-于是()2nr ωχΛ,因此,当n ωΛ>()2r αχ时,拒绝原假设。
(2)、约束检验以n β记为原假设0C βα=约束条件下的MLE(极大似然估计)。
构建统计量:()()()'1n n n n n u s s βββ-=Λ 当u 大于某个常数时,拒绝原假设。
此检验的直观背景如下:因为()0n s β=,若原假设成立,则n β和n β均为0β的估计,理应比较接近,因此,()()0n n s s ββ≈=,这时u 取很小的值。
反之,u 取较大的值。
可以证明,当原假设成立,且满足一定的条件时,有:()2nu r χ,n →∞因此,上文所提及的常数可取()2r αχ,()0,1α∈ 为给定的置信水平。
(3)、拟似然比检验以()n l β记为对数似然函数,则n β和n β分别为0β的不受任何约束的MLE 以及受到原假设约束的MLE 。
检验统计量为:()()()2n n n n n l λββ=-因为()n n l β为()n l β的最大值,总有n λ>0。
若原假设成立,则n β和n β均为0β的相合估计,理应比较接近,n λ倾向于小;反之,n λ倾向于大。
可以证明,当原假设成立,有:()2nu r χ因此,上文所提及的常数可取n λ>()2r αχ为检验的否定域。
()0,1α∈ 为给定的置信水平。
三、应用探讨1、数据情况说明下表是某保险公司汽车保险的历史理赔资料①,从表中我们不难看出,影响该公司汽车保险费用的因素主要有三类,分别是:被保险人的年龄、车型和车龄。
其中被保险人的年龄又细分为17-20、21-24、25-29、30-34、35-39、40-49、50-59和60+八类;车型具体可分为A、B、C和D四种;车龄同样也分为0-3、4-7、8-9和10+四个类别。
①数据来源于《广义线性模型于保费点数计价系统》,统计研究,2002年第6期,毛泽春、刘锦萼2、模型选择我们运用SAS 的Genmod 程序对上述数据构建广义线性模型,分别用正态(Normal )分布、伽码(Gamma )分布和逆高斯(Inverse Gaussian )分布,连接函数均为对数连接(LOG )。
不同分布下的拟合优度比较详见下表:从上表我们可以看出,正态分布的总离差最大(拟合优度较差),而逆高斯分布的总离差最小(拟合优度较好),伽码分布居中,但是伽码分布的对数似然值却最大(为-701.01),因此,仅仅从总离差的角度就可以拒绝正态分布。
对于各个参数的显著性检验,我们则通过SAS 软件的Genmod 程序的type1检验得出。
表四——表六分别列出了伽码分布、正态分布和逆高斯分布的tpye1分析结果,其中,伽码分布和正态分布中,所有的参数均能通过显著性检验,但是在逆高斯分布中参数车型未能通过显著性检验(2统计量为7.79,P 值为0.0507),因而,逆高斯分布也被拒绝。
综合上述的总离差分析,选择伽码分布作为最终的拟合分布。