第四章 非完整样本数据情况下表格(生存模型-中国精算研究院,周渭兵)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
dx bx (1 r ) k x
对于特例C : 假定区间( x, x 1]上nx个观察对象,有 x个人的si 1, c 则 E ( Dx ) nx c x q x k x s q x d x 在线性假设下,q x s q x s 得到:x q
在随机事件中如果死亡 和退出是独立的,则有
p x t p xd t p xw t
在一般评估中采用以下 表达式:
' d) ' d) q x( r 1 s r p x( r s r
s ' d) 1 exp x( u du r
'( ) t r px r '( ) t r px r (d ) qx ( w) qx '( d ) x t '( w ) x t 1 ( ) (d ) t p x x t dt 0 1 ( ) ( w) t p x x t 来自t 0退出概率密度
4.3 非完整样本数据情况下 表格生存模型的矩估计 4.3.1 单风险情况下的矩估计 对于某研究团体,已知 成员的基本数据如:出 生 日期、进入观察日期、 死亡日期等。那么可以 得到成员 i对应于( x, x 1]的有序数组为( ri , x si)。 x 1、基本矩关系 如果nx为区间(x,x 1]上的总人数。则总的期 望死亡 人数为: E ( Dx )
si q x
i 1
n
si q x
dx dx
si q x
dx
n
qx
si
i 1
例4.3:在下面一个由 人组成的样本中,以日 5 历年1987年 为观察期间估计 30. q
观察者 1 2 3 4 5 生日 1957.7.1 1957.4.1 1957.1.1 1956.7.1 1956.4.1 死亡日期 1987.10.1 1987.4.22
s r qx r
1 s r p x r
在年龄x r时活着,在年龄 t死亡的 x 密度函数为:
t r px r
x t
1、单风险环境:当只有 死亡是随机事件时
t px , qx
2、双风险环境:当死亡 和退出都是随机风险时 。 退出:所有随机减少( 不包括死亡)统称为从 研究中退出。
dx nx
2、特殊情形
B : 令ri 0, si 1 E ( Dx )
i 1 dx
n
A : 令r
1 ri q x ri
dx
1 ri q x ri
n
(1 ri ) q x
qx
(1 ri )
i 1
C : 令ri 0, si 1 E ( Dx )
第四章 非完整样本数据情况 下表格生存模型的估计
• 4.1 观察期年龄 • 一、什么是不完整的样本数据 • 在某一确定观察期内,对某一对象的观察有 的从初期开始,有的从中期开始(中途加入), 有的活着离开,有的生存到观察期末,有的在观 察期内死亡,这种情况称为不完整的样本数据。 • 二、“退出”“结束”。 • 观察期内活着离开的行为叫退出。 • 生存到观察期末的现象叫结束。 • 观察期末的年龄叫计划结束年龄。 • 对于第i个成员,我们给出进入观察的年龄 yi 和 • 计划结束年龄 zi ( yi zi ) ,这种观察年龄长度
' w) ' w q x( r 1 s r p x( r) s r
p d p w s r px r s r x r s r x r
s ' w) 1 exp x( u du r
死亡概率密度
5、矩估计的性质 (1)证明q x是无偏的 Qx
Dx
( si ri )
i 1
n
,
n n
E (Q x )
E ( Dx )
( si ri )
i 1
n
si ri q xri
i 1 n
( si ri )
i 1
qx
( si ri )
i 1
i 1
n
si ri q x ri
dx
(4.3.1)
式中:Dx为在区间(x,x 1]上的死亡人数随机变量 d x为 。 实际所观察的死亡人数 。
假定死亡在( , x 1]服从均匀分布,则有 x
si ri q x ri
si ri)q x ( ( s r) d
(1)如果zi x, 无贡献
zi
x
x 1
(2)如果yi x 1,无贡献
x
x 1
yi
(3)如果yi x, zi x 1, 全部进入考察。
yi
x
x 1
zi
(4) x yi x 1或x zi x 1 或x yi zi x 1
2、令观察对象i在x ri (0 ri 1)处进入区间(x.x 1], (1) 如果观察对象i在x si处为所观察的结束者 , 则其暴露数为 si ri )。 ( (2) 如果观察对象i在x ti处被观察退出( i si) t , 则其暴露数为 ti ri )。 ( (3) 如果观察对象i在区间( x, x 1]上死亡时,均令 si 1. 例4 7 在某研究样本中有三个 观察对象,其有序组均 为 (ri , si)(0,0.75)(i 1,2,3), 对象1在x 0.75时仍在样本中, , 对象2在x 0.5处退出,对象 在x 0.5处死亡。求 3 精算暴露数。
用序数组(yi , zi)表示。 例4.1 某研究样本由一互助组 织组成,观察期 为2000年7月 日至2006年6月30日,成员乙生于 1 1953年6月30日,并在2002年1月 日加入改组织, 1 乙的有序组( i , zi)为多少? y 解:(yi , zi) (48.5,53)
三、在不完整数据下估 S ( x)或l x的基本方法 计 . 1、先估计x岁生存的人在 x 1)岁前死亡的q x, ( 然后得到条件概率 x ; p 2、由S ( x) p 0 p1 p x 1 . 估计q x具体过程: 为了估计q x, 需要了解第i个人的有序数组 (yi , zi)与区间(x,x 1]的关系。
qx
mx 1 1 2
mx
b 假设l x t 服从指数分布(常死力 假设)假设 qx 1 e 1 em x
矩估计运用预计暴露数 得到的q x为一个近视值。 4、分组 对于特例B : 假定区间( x, x 1]上nx个观察对象,有 x个人的ri 0, b 其余k x nx bx的0 ri 1, 假定k x个人的ri的均值为r , 则 E ( Dx ) bx q x k x 1 r q x r d x 在双曲线假设下, r q x r 1 r)q x ( 1 得到:x q
si
ri
x
yi
有
zi
x 1
有0 ri 1或0 si 1 将观察( yi , zi )变为观察(ri , si )
特例A : 在区间(x, x 1],如果有ri 0, si 1; 特例B : 在区间(x, x 1],如果有0 ri 1, si 1; 特例C : 在区间(x, x 1],如果有ri 0,0 si 1. 例4.2 一个观察期开始于 1985年1月 日,结束于某 1 一指定成员的生日, 年1月 日已在研究群体中 1985 1 的3个成员的生日日期如下 : 成员 成员 1 成员2 成员3 生日 1964.4.1 1964.7.1 1965.10.1
3、暴露数 对于第i个观测对象,其在 x, x 1]上的有序组 ( 为(ri , si),则其总暴露数:
(s r )
i i i 1
n
(4.3.4)
(1)预计暴露数:即令在区 ( x, x 1]死亡的人的si 1下 间 计算得到的暴露数。矩 估计分母就是样本的预 计暴 露数。如例4.3. (2)确切暴露数:通过公式 4.3.4)得到的就是确切 ( 暴露数。
分别求出在区间( ,21], 21,22]的(ri , si ). 20 ( 1、求(yi , zi); 2、求(ri , si )。
4.2 单风险和双风险环境
x
x ri
x si
x 1
有0 ri 1或0 si 1 将观察( yi , z i )变为观察( ri , si )
例4.3中的确切暴露数为
(s r ) 0.5 0.75 0.75
i i i 1
5
0.5 0.25 2.75 (3)、确切暴露数的的意义 mx
观察到的在区间 ( x , x 1]死亡人数 在区间 ( x , x 1]的确切暴露数
a 假设l x t 服从均匀分布假设
例4.5 已知在区间( ,33]上发生了 次死亡,死亡年龄 32 4 如下表所示:对所有的 死亡对象都有 i 1, i 1,2,3,4, s 已知m x 0.016, 则qx的矩估计为多少? 32. x
死亡年龄
1 32.25
2 32.5
3 32.6
4 32.75
例4.6 在估计(x, x 1]区间上的死亡概率时, 在x岁时有 1000个观察对象,在 1 时加入了 x 2 100个观察对象,已知在该 区间上观察到 个 70 死亡事件,在年龄内死 力常数假设下, x ? q
' p x( d )表示死亡不在 t岁前发生的概率 x t ' p x( w)表示退出不在 t岁前发生的概率 x t
相应的有:x( d ) . q'
' p x( d ) t
t ' d) exp x( u du 0
' p x( d ) t
t ' d) exp x( u du 0
Var Q x nx , ri , si
si ri q x ri (1 si ri q x ri ) n si ri i 1
2
px qx n si ri i 1
2
4.3.2 矩估计的精算法 一、精算暴露数的概念 精算暴露数:实际观察 的暴露数,而不是预计 暴露数。 1、令观察对象 的预计结束年龄为 i, i z () 1 如果x zi x 1, 则称第i个观察对象预计在年龄i x si (0 si 1)处退 z 出[ x, x 1]区间。 (2) 如果zi x 1, 则称第i个观察对象在区间x, x 1]上是生存的,或说预计 [ 在x si ( si 1)岁退出。
' q x( d )
1 ' d) 1 exp x( u du 0
或
' p x( w) t
t ' w) exp x( u du 0
' q x( w)
1 ' w) 1 exp x( u du 0
i 1 n
( si ri )
qx ( 2)求矩估计方差 假设Di为第i个对象的死亡数的随机 变量。有
Dx VarDx
D
i 1 n i 1
n
i n
E D
i i 1
n i 1
si ri q x ri (1 si ri q x ri )
i i i 1 n
则由(4.3.1 )式,得到 E ( Dx ) q x qx
dx
i 1
x
( 4.3.2)
( si ri)
n
( 4.3.3)
上式就是单风险情况下 的矩估计的一般形式。
2、特殊情形: A : 令ri 0, si 1 E ( Dx ) n x q x d x qx
dx n x (1 s ) c x
其余nx c x的si 1, 假定cx个人的si的均值为s,
例4.4 假设在区间( , x 1]上有nx个观察对象,其中 x bx个人的ri 0, 其余的nx bx个人的0 ri r 1, 所有的 si 1, 求q x的估计量。(假设 r q x r (1 r ) q x) 1
对于特例C : 假定区间( x, x 1]上nx个观察对象,有 x个人的si 1, c 则 E ( Dx ) nx c x q x k x s q x d x 在线性假设下,q x s q x s 得到:x q
在随机事件中如果死亡 和退出是独立的,则有
p x t p xd t p xw t
在一般评估中采用以下 表达式:
' d) ' d) q x( r 1 s r p x( r s r
s ' d) 1 exp x( u du r
'( ) t r px r '( ) t r px r (d ) qx ( w) qx '( d ) x t '( w ) x t 1 ( ) (d ) t p x x t dt 0 1 ( ) ( w) t p x x t 来自t 0退出概率密度
4.3 非完整样本数据情况下 表格生存模型的矩估计 4.3.1 单风险情况下的矩估计 对于某研究团体,已知 成员的基本数据如:出 生 日期、进入观察日期、 死亡日期等。那么可以 得到成员 i对应于( x, x 1]的有序数组为( ri , x si)。 x 1、基本矩关系 如果nx为区间(x,x 1]上的总人数。则总的期 望死亡 人数为: E ( Dx )
si q x
i 1
n
si q x
dx dx
si q x
dx
n
qx
si
i 1
例4.3:在下面一个由 人组成的样本中,以日 5 历年1987年 为观察期间估计 30. q
观察者 1 2 3 4 5 生日 1957.7.1 1957.4.1 1957.1.1 1956.7.1 1956.4.1 死亡日期 1987.10.1 1987.4.22
s r qx r
1 s r p x r
在年龄x r时活着,在年龄 t死亡的 x 密度函数为:
t r px r
x t
1、单风险环境:当只有 死亡是随机事件时
t px , qx
2、双风险环境:当死亡 和退出都是随机风险时 。 退出:所有随机减少( 不包括死亡)统称为从 研究中退出。
dx nx
2、特殊情形
B : 令ri 0, si 1 E ( Dx )
i 1 dx
n
A : 令r
1 ri q x ri
dx
1 ri q x ri
n
(1 ri ) q x
qx
(1 ri )
i 1
C : 令ri 0, si 1 E ( Dx )
第四章 非完整样本数据情况 下表格生存模型的估计
• 4.1 观察期年龄 • 一、什么是不完整的样本数据 • 在某一确定观察期内,对某一对象的观察有 的从初期开始,有的从中期开始(中途加入), 有的活着离开,有的生存到观察期末,有的在观 察期内死亡,这种情况称为不完整的样本数据。 • 二、“退出”“结束”。 • 观察期内活着离开的行为叫退出。 • 生存到观察期末的现象叫结束。 • 观察期末的年龄叫计划结束年龄。 • 对于第i个成员,我们给出进入观察的年龄 yi 和 • 计划结束年龄 zi ( yi zi ) ,这种观察年龄长度
' w) ' w q x( r 1 s r p x( r) s r
p d p w s r px r s r x r s r x r
s ' w) 1 exp x( u du r
死亡概率密度
5、矩估计的性质 (1)证明q x是无偏的 Qx
Dx
( si ri )
i 1
n
,
n n
E (Q x )
E ( Dx )
( si ri )
i 1
n
si ri q xri
i 1 n
( si ri )
i 1
qx
( si ri )
i 1
i 1
n
si ri q x ri
dx
(4.3.1)
式中:Dx为在区间(x,x 1]上的死亡人数随机变量 d x为 。 实际所观察的死亡人数 。
假定死亡在( , x 1]服从均匀分布,则有 x
si ri q x ri
si ri)q x ( ( s r) d
(1)如果zi x, 无贡献
zi
x
x 1
(2)如果yi x 1,无贡献
x
x 1
yi
(3)如果yi x, zi x 1, 全部进入考察。
yi
x
x 1
zi
(4) x yi x 1或x zi x 1 或x yi zi x 1
2、令观察对象i在x ri (0 ri 1)处进入区间(x.x 1], (1) 如果观察对象i在x si处为所观察的结束者 , 则其暴露数为 si ri )。 ( (2) 如果观察对象i在x ti处被观察退出( i si) t , 则其暴露数为 ti ri )。 ( (3) 如果观察对象i在区间( x, x 1]上死亡时,均令 si 1. 例4 7 在某研究样本中有三个 观察对象,其有序组均 为 (ri , si)(0,0.75)(i 1,2,3), 对象1在x 0.75时仍在样本中, , 对象2在x 0.5处退出,对象 在x 0.5处死亡。求 3 精算暴露数。
用序数组(yi , zi)表示。 例4.1 某研究样本由一互助组 织组成,观察期 为2000年7月 日至2006年6月30日,成员乙生于 1 1953年6月30日,并在2002年1月 日加入改组织, 1 乙的有序组( i , zi)为多少? y 解:(yi , zi) (48.5,53)
三、在不完整数据下估 S ( x)或l x的基本方法 计 . 1、先估计x岁生存的人在 x 1)岁前死亡的q x, ( 然后得到条件概率 x ; p 2、由S ( x) p 0 p1 p x 1 . 估计q x具体过程: 为了估计q x, 需要了解第i个人的有序数组 (yi , zi)与区间(x,x 1]的关系。
qx
mx 1 1 2
mx
b 假设l x t 服从指数分布(常死力 假设)假设 qx 1 e 1 em x
矩估计运用预计暴露数 得到的q x为一个近视值。 4、分组 对于特例B : 假定区间( x, x 1]上nx个观察对象,有 x个人的ri 0, b 其余k x nx bx的0 ri 1, 假定k x个人的ri的均值为r , 则 E ( Dx ) bx q x k x 1 r q x r d x 在双曲线假设下, r q x r 1 r)q x ( 1 得到:x q
si
ri
x
yi
有
zi
x 1
有0 ri 1或0 si 1 将观察( yi , zi )变为观察(ri , si )
特例A : 在区间(x, x 1],如果有ri 0, si 1; 特例B : 在区间(x, x 1],如果有0 ri 1, si 1; 特例C : 在区间(x, x 1],如果有ri 0,0 si 1. 例4.2 一个观察期开始于 1985年1月 日,结束于某 1 一指定成员的生日, 年1月 日已在研究群体中 1985 1 的3个成员的生日日期如下 : 成员 成员 1 成员2 成员3 生日 1964.4.1 1964.7.1 1965.10.1
3、暴露数 对于第i个观测对象,其在 x, x 1]上的有序组 ( 为(ri , si),则其总暴露数:
(s r )
i i i 1
n
(4.3.4)
(1)预计暴露数:即令在区 ( x, x 1]死亡的人的si 1下 间 计算得到的暴露数。矩 估计分母就是样本的预 计暴 露数。如例4.3. (2)确切暴露数:通过公式 4.3.4)得到的就是确切 ( 暴露数。
分别求出在区间( ,21], 21,22]的(ri , si ). 20 ( 1、求(yi , zi); 2、求(ri , si )。
4.2 单风险和双风险环境
x
x ri
x si
x 1
有0 ri 1或0 si 1 将观察( yi , z i )变为观察( ri , si )
例4.3中的确切暴露数为
(s r ) 0.5 0.75 0.75
i i i 1
5
0.5 0.25 2.75 (3)、确切暴露数的的意义 mx
观察到的在区间 ( x , x 1]死亡人数 在区间 ( x , x 1]的确切暴露数
a 假设l x t 服从均匀分布假设
例4.5 已知在区间( ,33]上发生了 次死亡,死亡年龄 32 4 如下表所示:对所有的 死亡对象都有 i 1, i 1,2,3,4, s 已知m x 0.016, 则qx的矩估计为多少? 32. x
死亡年龄
1 32.25
2 32.5
3 32.6
4 32.75
例4.6 在估计(x, x 1]区间上的死亡概率时, 在x岁时有 1000个观察对象,在 1 时加入了 x 2 100个观察对象,已知在该 区间上观察到 个 70 死亡事件,在年龄内死 力常数假设下, x ? q
' p x( d )表示死亡不在 t岁前发生的概率 x t ' p x( w)表示退出不在 t岁前发生的概率 x t
相应的有:x( d ) . q'
' p x( d ) t
t ' d) exp x( u du 0
' p x( d ) t
t ' d) exp x( u du 0
Var Q x nx , ri , si
si ri q x ri (1 si ri q x ri ) n si ri i 1
2
px qx n si ri i 1
2
4.3.2 矩估计的精算法 一、精算暴露数的概念 精算暴露数:实际观察 的暴露数,而不是预计 暴露数。 1、令观察对象 的预计结束年龄为 i, i z () 1 如果x zi x 1, 则称第i个观察对象预计在年龄i x si (0 si 1)处退 z 出[ x, x 1]区间。 (2) 如果zi x 1, 则称第i个观察对象在区间x, x 1]上是生存的,或说预计 [ 在x si ( si 1)岁退出。
' q x( d )
1 ' d) 1 exp x( u du 0
或
' p x( w) t
t ' w) exp x( u du 0
' q x( w)
1 ' w) 1 exp x( u du 0
i 1 n
( si ri )
qx ( 2)求矩估计方差 假设Di为第i个对象的死亡数的随机 变量。有
Dx VarDx
D
i 1 n i 1
n
i n
E D
i i 1
n i 1
si ri q x ri (1 si ri q x ri )
i i i 1 n
则由(4.3.1 )式,得到 E ( Dx ) q x qx
dx
i 1
x
( 4.3.2)
( si ri)
n
( 4.3.3)
上式就是单风险情况下 的矩估计的一般形式。
2、特殊情形: A : 令ri 0, si 1 E ( Dx ) n x q x d x qx
dx n x (1 s ) c x
其余nx c x的si 1, 假定cx个人的si的均值为s,
例4.4 假设在区间( , x 1]上有nx个观察对象,其中 x bx个人的ri 0, 其余的nx bx个人的0 ri r 1, 所有的 si 1, 求q x的估计量。(假设 r q x r (1 r ) q x) 1