广义线性模型.PPT
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
广义线性模型具有以下三个特征:
1.假定观测量是相互独立的随机变量Yi ,i 1, , n. , 其密度函数为指数散布族.最重要的例子有: · 正态随机变量 N (i , i ); · 泊松随机变量 Possion(i );
· 总体服从泊松分布 Possion(i ) 的样本容量为
ni 1/ i 的样本均值;
从泊松分布的索赔次数,则由(8.2)表示的 BS 恰是一 2
统计量
13
现就(8.2)中的 BS 针对每一参数求偏导,即得一 正规方程组:
逐项置换法
14
性质 8.3.7( Bailey Simon 方法导致“安全保费” )可以
证明,利用这一方法所得保费总额要较观测到的损失总额多.
即:若 ˆi 与 ˆ j 表示(8. 4 )的解,则有
6
2 .一个线性预估量i j xij j , ,它是诸参数 1, , p 的
线性函数,可以作为模型观察值的估计。
3 .设 Yi 的期望值 i ,则可用联结函数与线性预估量i 的关 系: i g(i ) .
7
注8.2.1(典则联结)
注8.2.2 (方差函数)
以下依方差函数中 的幂次的升幂序,分别表述
之:
1 .具有常值方差 2 0 的正态分布(同方差性) 2 .方差与均值相等的泊松分布以及泊松总体的 样本均值.对前者,我们有 2 1,对后者而言, 方差与均值成正比,即有 2 1;
8
3 .如列举的参数化所示, (, ) 句分布具有固
定的形状参数,从而其变异系数 / 取常值,故 有 2 2;
·
i
与二项随机变量的积:
i
B( 1
i
,
i
)
(从而表示
1/i 次试验中的成功的次数
5
•伽玛随机变量
( 1 , 1 ) i ii
•逆高斯随机变量
IG( 1 , 1 ).
ii ii2
i 上面所列的分布的均值。
i 是与均值无关,但与随机变量的方差有关的一个参数。
我们取 i 等于 / wi ,并称 为散布参数,而称 wi 为权重.
1
• 回归分析中假定随机扰动服从这样的一些 正态分布:其方差取常值,而均值则为附 属数据的线性函数.
• 很多精算问题可以利用特殊的广义线性模 型来处理,如方差分析,泊松回归以及 Logistic对数(logit )与概率(Probit ) 模型等的几类 。
2
精算数据与模型
• 实践中采集的数据往往显示方差要大于均 值.
25
§8.4偏差与比例偏差
26
例 8.4.1(正态分布)假设Y1, ,Yn 是相互独立的正 态随机变量,其中 Yi 是 wi 个相互独立且服从 N (i,) 分布的随机变量的平均,于是 Yi N(i , / wi ). 现记 L 为关于上述诸观测量参数的似然函数。再记 Lˆ 和 L 分别表示在 L 中当以 ˆi 和 i 置换 i 后所得之值,我 们有
• 用于描述索赔额的分布通常具有厚重的右 尾.
• 有待建模的现象极少关于附属数据是可加 的,一般往往可用乘法模型.
3
广义线性模型
• 它允许偏离均值的随机误差服从不是正态分布。如,随机 误差可服从指数散布族中的任一种分布,包含了泊松分布、 (负)二项分布、伽玛分布与逆高斯分布等.
• 并不要求随机变量的均值是解释变量的线性函数。但进行 某些变换后它仍是是线性的.譬如,当对数时,我们可以 用乘法模型替代了加法模型.
4 .如列举Βιβλιοθήκη , 必参数化所示, IG(, ) 分布的方
差等于
2
2
3.
9
§8.3 若干传统的估计方法与广义线 性模型
我们将风险因子评级成 I 与 J 个风险类而生成关于诸
观测量 Yij (i 1, , I;1, , J ) 的一个表格.如:
观测量 Yij 便可表示具有特征 i 与 j 的所有司机的已观测
该模型的参数是 , i 与 j . 至少应有二个约束条件。
不妨先假定 1 1.
11
方法 8.3.5( Bailey Simon 方法=关于泊松总体的最小
2 估计)利用 Bailey Simon 方法,可乘模型中的参数估 计量ˆi 与 ˆ j 由下述解确定:
12
这一方法之所以受到重视可如下解释:若以 Sij 表示服
在可乘模型中,为估计参数我们需解下述含 I J 个未知 数,且由 I J 个方程组成的方程组:
18
解上述方程组的方法之一是从关于 j 的任意正
初值开始,采用逐次置换法解之.为此可将该方 程组改写成下述形式:
19
性质 8.3.9(对数线性泊松的 GLM =边缘总和法) 假设位于单元 (i, j) 中的被保险人共有 wij 位,其中每一人引 发的索赔次数皆服从 Possion(ij ) 分布;再假定 ij i j , 则由极大似然法与边缘总和法给出的 i 与 j 的估计值是相
15
首先可将(8.4)中的第一组方程改写为
设随机变量U 为一离散型分布 Pr[U d j ] p j , 其中:
则其二阶矩
EU 2
ˆ
2 i
。
16
由 Jensen 不等式, E[U 2 ] (E[U ])2, 可知:
因此
17
方法8.3.8 (边缘总和法) 在一个“良好”的收费系统内,对于一个拥有众多被 保险人的组合来说,保费总额相等于观测到的损失总 额.
就上式中的 SS 针对每一参数求偏导,可得一正 规方程组,我们将其写成一种适合于逐次置换的 形式:
22
23
方法 8.3.11(直接法=关于伽玛分布的极大似然 法)直接法通过求解下述方程组而确定关于参数
i 和 j 的估计量:
24
例 8.3.12(上述诸方法的数值说明)我们将上述 4 种方
法运用于下表中的数据,数据的形式为 wij yij , i, j 1, 2.
到的事故总次数.
i 表示某一保单的签约年, j 表示发展年,而观测量Yij
便表示在日历年 i j 1针对附属于年i 的诸保单而支付的
总索赔额.
10
假设观测量 Yij 概率分布服从一广义线性模型的假定.确
切地说,假定它们可视为是一个以 i 与 j 作为解释变量的对
数线性模型.即 Yij 的期望值可表为
同的。
20
证明 因为位于单元 (i, j) 的索赔总数服从 Possion(wijij ) 分布,故以 sij 为观察到的索赔总数的诸参数 ij 的极大似然
函数可表为
若将下述关系式代入上式:
对 i 与 j 求其最大值,则恰可导出方程组(8.11).
21
方法8.3.10(最小二乘法=关于正态的极大似然法) 下述(8.15)中诸项具有相同的均值,因此将它 们相加是有意义的.参数i 与 j 的估计量由下述 解确定:
广义线性模型具有以下三个特征:
1.假定观测量是相互独立的随机变量Yi ,i 1, , n. , 其密度函数为指数散布族.最重要的例子有: · 正态随机变量 N (i , i ); · 泊松随机变量 Possion(i );
· 总体服从泊松分布 Possion(i ) 的样本容量为
ni 1/ i 的样本均值;
从泊松分布的索赔次数,则由(8.2)表示的 BS 恰是一 2
统计量
13
现就(8.2)中的 BS 针对每一参数求偏导,即得一 正规方程组:
逐项置换法
14
性质 8.3.7( Bailey Simon 方法导致“安全保费” )可以
证明,利用这一方法所得保费总额要较观测到的损失总额多.
即:若 ˆi 与 ˆ j 表示(8. 4 )的解,则有
6
2 .一个线性预估量i j xij j , ,它是诸参数 1, , p 的
线性函数,可以作为模型观察值的估计。
3 .设 Yi 的期望值 i ,则可用联结函数与线性预估量i 的关 系: i g(i ) .
7
注8.2.1(典则联结)
注8.2.2 (方差函数)
以下依方差函数中 的幂次的升幂序,分别表述
之:
1 .具有常值方差 2 0 的正态分布(同方差性) 2 .方差与均值相等的泊松分布以及泊松总体的 样本均值.对前者,我们有 2 1,对后者而言, 方差与均值成正比,即有 2 1;
8
3 .如列举的参数化所示, (, ) 句分布具有固
定的形状参数,从而其变异系数 / 取常值,故 有 2 2;
·
i
与二项随机变量的积:
i
B( 1
i
,
i
)
(从而表示
1/i 次试验中的成功的次数
5
•伽玛随机变量
( 1 , 1 ) i ii
•逆高斯随机变量
IG( 1 , 1 ).
ii ii2
i 上面所列的分布的均值。
i 是与均值无关,但与随机变量的方差有关的一个参数。
我们取 i 等于 / wi ,并称 为散布参数,而称 wi 为权重.
1
• 回归分析中假定随机扰动服从这样的一些 正态分布:其方差取常值,而均值则为附 属数据的线性函数.
• 很多精算问题可以利用特殊的广义线性模 型来处理,如方差分析,泊松回归以及 Logistic对数(logit )与概率(Probit ) 模型等的几类 。
2
精算数据与模型
• 实践中采集的数据往往显示方差要大于均 值.
25
§8.4偏差与比例偏差
26
例 8.4.1(正态分布)假设Y1, ,Yn 是相互独立的正 态随机变量,其中 Yi 是 wi 个相互独立且服从 N (i,) 分布的随机变量的平均,于是 Yi N(i , / wi ). 现记 L 为关于上述诸观测量参数的似然函数。再记 Lˆ 和 L 分别表示在 L 中当以 ˆi 和 i 置换 i 后所得之值,我 们有
• 用于描述索赔额的分布通常具有厚重的右 尾.
• 有待建模的现象极少关于附属数据是可加 的,一般往往可用乘法模型.
3
广义线性模型
• 它允许偏离均值的随机误差服从不是正态分布。如,随机 误差可服从指数散布族中的任一种分布,包含了泊松分布、 (负)二项分布、伽玛分布与逆高斯分布等.
• 并不要求随机变量的均值是解释变量的线性函数。但进行 某些变换后它仍是是线性的.譬如,当对数时,我们可以 用乘法模型替代了加法模型.
4 .如列举Βιβλιοθήκη , 必参数化所示, IG(, ) 分布的方
差等于
2
2
3.
9
§8.3 若干传统的估计方法与广义线 性模型
我们将风险因子评级成 I 与 J 个风险类而生成关于诸
观测量 Yij (i 1, , I;1, , J ) 的一个表格.如:
观测量 Yij 便可表示具有特征 i 与 j 的所有司机的已观测
该模型的参数是 , i 与 j . 至少应有二个约束条件。
不妨先假定 1 1.
11
方法 8.3.5( Bailey Simon 方法=关于泊松总体的最小
2 估计)利用 Bailey Simon 方法,可乘模型中的参数估 计量ˆi 与 ˆ j 由下述解确定:
12
这一方法之所以受到重视可如下解释:若以 Sij 表示服
在可乘模型中,为估计参数我们需解下述含 I J 个未知 数,且由 I J 个方程组成的方程组:
18
解上述方程组的方法之一是从关于 j 的任意正
初值开始,采用逐次置换法解之.为此可将该方 程组改写成下述形式:
19
性质 8.3.9(对数线性泊松的 GLM =边缘总和法) 假设位于单元 (i, j) 中的被保险人共有 wij 位,其中每一人引 发的索赔次数皆服从 Possion(ij ) 分布;再假定 ij i j , 则由极大似然法与边缘总和法给出的 i 与 j 的估计值是相
15
首先可将(8.4)中的第一组方程改写为
设随机变量U 为一离散型分布 Pr[U d j ] p j , 其中:
则其二阶矩
EU 2
ˆ
2 i
。
16
由 Jensen 不等式, E[U 2 ] (E[U ])2, 可知:
因此
17
方法8.3.8 (边缘总和法) 在一个“良好”的收费系统内,对于一个拥有众多被 保险人的组合来说,保费总额相等于观测到的损失总 额.
就上式中的 SS 针对每一参数求偏导,可得一正 规方程组,我们将其写成一种适合于逐次置换的 形式:
22
23
方法 8.3.11(直接法=关于伽玛分布的极大似然 法)直接法通过求解下述方程组而确定关于参数
i 和 j 的估计量:
24
例 8.3.12(上述诸方法的数值说明)我们将上述 4 种方
法运用于下表中的数据,数据的形式为 wij yij , i, j 1, 2.
到的事故总次数.
i 表示某一保单的签约年, j 表示发展年,而观测量Yij
便表示在日历年 i j 1针对附属于年i 的诸保单而支付的
总索赔额.
10
假设观测量 Yij 概率分布服从一广义线性模型的假定.确
切地说,假定它们可视为是一个以 i 与 j 作为解释变量的对
数线性模型.即 Yij 的期望值可表为
同的。
20
证明 因为位于单元 (i, j) 的索赔总数服从 Possion(wijij ) 分布,故以 sij 为观察到的索赔总数的诸参数 ij 的极大似然
函数可表为
若将下述关系式代入上式:
对 i 与 j 求其最大值,则恰可导出方程组(8.11).
21
方法8.3.10(最小二乘法=关于正态的极大似然法) 下述(8.15)中诸项具有相同的均值,因此将它 们相加是有意义的.参数i 与 j 的估计量由下述 解确定: