随机准备金-拔靴法bootstrapping方法

合集下载

统计中的 Bootstrap 方法是指什么?与 Monte Carlo 方法有什么联系与区别?

统计中的 Bootstrap 方法是指什么?与 Monte Carlo 方法有什么联系与区别?

统计中的Bootstrap 方法是指什么?与Monte Carlo 方法有什么联系与区别?【JackDiamond的回答(73票)】:风马牛不相及,举个简单的例子(关于一个分布的平均值)来帮你理解bootstrap 和Monte Carlo,比如现在有一个分布F...1. Bootstrap: 如果我无法知道F的确切分布,手上仅有一组从F中iid抽样的样本(X_1, ..., X_n),我想检验“F的均值是否为0”。

看起来这个不可能,因为我只有一个ar{X}的点估计,而并不知道ar{X}的分布。

Bootstrap的魔术是现在我把(X_1, ..., X_n)这个样本当做总体,从中(有放回地)重新抽样,重抽样样本大小仍为n,那么每一次重抽样就可以得到一个“样本均值”,不断地重抽样我就得到了一个ar{X}的“分布”。

这样接下来我就可以构造confidence interval并做检验了。

虽然实践中bootstrap的重抽样步骤都是用Monte Carlo方法来模拟重抽样样本统计量的分布,但是严格地说这个分布原则上可以精确计算。

而如果待估统计量比较简单,bootstrap的结果有时甚至可以直接用(X_1, ..., X_n)的某种统计量表示出来,从而并不需要真正地“重抽样”。

当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂,所以用模拟代替计算。

(关于bootstrap的更多讨论见此答案下的评论,特别是Lee Sam提的问题)2. Monte Carlo: 如果我知道F的确切分布,现在想计算mean(F),但是F的形式太复杂(或者我这人太懒);另一方面我又知道如何从F中抽样,于是就抽一个样本出来,拿样本均值充数。

一般来说bootstrap干的事大都跟这个例子中干的事差不多,而Monte Carlo的应用要广泛和多元化得多了。

所以两者连“区别”都谈不上,就是两码事。

【赵卿元的回答(20票)】:谢邀。

bootstrap检验法

bootstrap检验法

bootstrap检验法Bootstrap检验法1. 前言假设你有一个样本数据集合,你想要知道这个数据集的某些特征(比如均值、中位数、标准差、相关系数等)是否显著不同于其它数据集的这些特征,那么你可以使用假设检验。

经典的假设检验(如t检验、ANOVA、卡方检验等)需要满足一些假设前提条件,比如正态分布、方差齐性等。

如果这些前提条件得不到满足,则假设检验的结果可能会出现误差。

Bootstrap检验法是一种非参数检验方法,不需要满足前提条件,因此可以在不确定数据分布的情况下,对统计量进行检验,从而得出更加鲁棒的结果。

本文将介绍Bootstrap检验法的原理、应用场景以及示例代码,帮助读者更好地理解和应用该检验方法。

2. 原理Bootstrap检验法基于自助法(Bootstrap)的思想。

自助法是一种经验估计的方法,它通过从原始数据集中有放回地抽取n个样本,生成一个新的数据集,重复抽样m次得到m个样本,再对这m个样本进行统计量的计算,形成该统计量分布的样本估计。

Bootstrap检验法则是基于自助法生成的m个样本估计,对所感兴趣的两个样本进行比较的非参数检验。

通常使用百分位数法进行Bootstrap检验。

该方法将两个样本生成的m 个统计量分布进行合并,计算出合并后的统计量分布的百分位数,得到该百分位数两侧的统计量分布,以此作为假设检验的P值。

3. 应用场景Bootstrap检验法可用于比较两个数据集随机变量的各种统计量,比如均值、中位数、标准差、相关系数等。

适用于以下场景:1)样本量较小的情况。

2)数据集分布无法确定的情况。

3)数据集不满足方差齐性等前提条件的情况。

4. 示例代码以下代码演示如何使用Python的Scipy库进行Bootstrap检验:```pythonfrom scipy import statsimport numpy as np# 生成两个不同分布的样本数据集data1 = stats.norm.rvs(loc=2, scale=1, size=100)data2 = stats.norm.rvs(loc=3, scale=1, size=50)# 计算两个样本的均值差值diff_mean = np.mean(data1) - np.mean(data2)# 执行自助抽样n=10000次num_samples = 10000diff_mean_samples = np.empty(num_samples)for i in range(num_samples):bootstrap1 = np.random.choice(data1, size=100, replace=True)bootstrap2 = np.random.choice(data2, size=50, replace=True)diff_mean_samples[i] = np.mean(bootstrap1) - np.mean(bootstrap2)# 计算Bootstrap检验的p值p_value = (np.sum(diff_mean_samples >= diff_mean) +np.sum(diff_mean_samples <= -diff_mean)) / num_samplesprint('Bootstrap检验的p值为:', p_value)```上述代码中,首先生成了两个不同的数据集`data1`和`data2`,分别对应了两个分布。

Bootstrapping算法

Bootstrapping算法

Bootstrapping算法,指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布之新样本。

bootstrapping的运用基于很多统计学假设,因此假设的成立与否会影响采样的准确性。

统计学中,bootstrapping可以指依赖于重置随机抽样的一切试验。

bootstrapping可以用于计算样本估计的准确性。

对于一个采样,我们只能计算出某个统计量(例如均值)的一个取值,无法知道均值统计量的分布情况。

但是通过自助法(自举法),我们可以模拟出均值统计量的近似分布。

有了分布很多事情就可以做了(比如说有你推出的结果来进而推测实际总体的情况)。

bootstrapping方法的实现很简单,
(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。

(2)根据抽出的样本计算给定的统计量T。

(3)重复上述N次(一般大于1000),得到N个统计量T。

(4)计算上述N个统计量T的样本方差,得到统计量的方差。

优点:简单易于操作。

缺点:bootstrapping的运用基于很多统计学假设,因此假设的成立与否会影响采样的准确性。

基于Bootstrap方法的随机性准备金进展法及R实现_张连增

基于Bootstrap方法的随机性准备金进展法及R实现_张连增
山西财经大学学报
2011 年 4 月 第 33 卷 第 4 期
Joumal of Shanxi Finance and Economics University
Apr., 2011 Vol. 3 3 No. 4
金 融·投 资
基 于 Bootstrap 方 法 的 随 机 性 准 备 金 进 展 法 及 R 实现
张连增, 段白鸽
(南开大学 经济学院, 天津 300071 )
[摘
要]在传统准备金进展法的基础上, 结合模型假设提出了一种新的思路, 将传统的确定性准备金进展法合理转化为随
机性方法, 并将 Bootstrap 方法应用于准备金进展法中, 得到了未决赔款准备金的预测分布, 进而由该分布得到了各个分位数以 及相关的分布度量 (如均值、 方差等 ) , 最后通过精算实务中的数值实例加以实证分析。 [关键词]确定性准备金进展法; 过度分散泊松模型; 预测均方误差; Bootstrap 方法 [中图分类号]F842 [文献标识码] A [文章编号] 1007- 9556 (2011 ) 04- 0018- 07
n-j
(13 ) (14 )
I i, j
γ +…+γ =1
P 1
P n
对于增量已报案赔款 X , 过度分散泊松模型可 以表述为: 对所有的 i 和 j, XIi, 而且都服从 j 相互独立, 过度分散泊松分布, 参数由式 (15 ) 、 (16 ) 、 (17 ) 确定。 ·19·
I I E (XIi, ) Var (XIi, ) (XIi, ) (15 ) j =m i, j, j =IE j =Im i, j
P i, j n
^
n
^
^

拔靴法--Bootstrap--R语言实现

拔靴法--Bootstrap--R语言实现
输出rlo t1 = NULL for (i in 1:10000){
x1=rpois(30,10);y1=median(x1);t1=c(t1,y1) } # Bootstrap t2 = NULL x0 = rpois(30,10) for (i in 1:10000){
x2=sample(x0,30,T);y2=median(x2);t2=c(t2,y2) } par(mfrow=c(1,2)) hist(t1,xlab = "Median",main = "Monte Carlo") hist(t2,xlab = "Median",main = "Bootstrap")
登录后才能查看或发表评论立即登录或者逛逛博客园首页
拔靴法 --Bootstrap--R语言实现
拔靴法属于重复抽样(resampling)方法,与Monte Carlo相比,二者真实的母体不同。它是将已有的观察值作为母体重复抽样, 以求取原先资料不足二无法探讨的资料特性。 举个例子,假设x1,x2,...,xn为来自同一分配的观察值,我们想了解这个分配的中位数。 设一组有Poisson分配抽出的随机样本,6 7 7 7 7 8 ... 15 15 17 20,共30个。已知样本中位数为10。 这里我们分别用MC方法和拔靴法模拟10000次,看中位数的分布。

统计学中的Bootstrap方法

统计学中的Bootstrap方法

统计学中的Bootstrap方法引言统计学是一门研究如何收集、整理、分析和解释数据的学科。

在统计学中,Bootstrap方法是一种常用的统计推断方法,它可以通过重复抽样来评估统计量的抽样分布。

本文将介绍Bootstrap方法的原理、应用和优点。

一、Bootstrap方法的原理Bootstrap方法是由Bradley Efron于1979年提出的一种非参数统计推断方法。

它的基本思想是通过从原始样本中有放回地进行随机抽样,形成多个“伪样本”,然后利用这些“伪样本”来估计统计量的抽样分布。

具体步骤如下:1. 从原始样本中有放回地抽取n个样本观测值,形成一个“伪样本”;2. 重复步骤1,生成B个“伪样本”;3. 对每个“伪样本”,计算统计量的值;4. 利用这些统计量的值构建抽样分布。

二、Bootstrap方法的应用Bootstrap方法在统计学中有广泛的应用,以下是一些常见的应用领域:1. 参数估计:Bootstrap方法可以用于估计参数的抽样分布和置信区间。

通过从原始样本中重复抽样,可以得到参数的分布情况,从而估计参数的置信区间。

2. 假设检验:Bootstrap方法可以用于假设检验,特别是在小样本情况下。

通过生成多个“伪样本”,可以计算统计量的抽样分布,并进行假设检验。

3. 回归分析:Bootstrap方法可以用于回归分析中的参数估计和模型选择。

通过对原始样本进行重复抽样,可以得到回归参数的抽样分布,从而进行模型的评估和选择。

4. 非参数统计推断:Bootstrap方法是一种非参数统计推断方法,可以用于估计分布函数、密度函数等非参数统计量的抽样分布。

三、Bootstrap方法的优点Bootstrap方法相对于传统的统计推断方法有以下优点:1. 不依赖于分布假设:Bootstrap方法是一种非参数方法,不需要对数据的分布进行假设。

这使得它在实际应用中更加灵活和适用。

2. 考虑了样本的不确定性:Bootstrap方法通过重复抽样,考虑了样本的不确定性。

稳健性检验方法

稳健性检验方法

稳健性检验方法稳健性检验是指在统计学中用来检验模型的稳定性和鲁棒性的一种方法。

在实际应用中,由于数据的不确定性和复杂性,我们需要对模型进行稳健性检验,以确保模型的可靠性和有效性。

本文将介绍稳健性检验的基本原理、常用方法以及实际应用。

一、稳健性检验的基本原理。

稳健性检验的基本原理是通过对模型的参数进行一定的扰动,来检验模型对数据的变化和异常值的敏感程度。

在实际应用中,我们经常会遇到数据的异常值、缺失值等问题,这些问题可能会对模型的参数估计产生影响。

稳健性检验可以帮助我们评估模型对这些问题的鲁棒性,从而提高模型的可靠性和泛化能力。

二、稳健性检验的常用方法。

1. Bootstrapping(自助法)。

Bootstrapping是一种常用的稳健性检验方法,它通过对原始数据进行重抽样来估计参数的分布。

在每次重抽样中,我们可以得到一个新的参数估计值,通过对这些值的分布进行分析,可以评估模型对数据的变化和异常值的敏感程度。

2. Robust regression(鲁棒回归)。

Robust regression是一种通过对残差进行加权来减小异常值对参数估计的影响的方法。

它可以有效地降低异常值对模型的影响,提高模型的稳健性。

3. Sensitivity analysis(敏感性分析)。

敏感性分析是一种通过对模型参数进行一定范围内的变化来评估模型的稳健性的方法。

通过对参数进行逐步调整,我们可以了解模型对参数变化的敏感程度,从而评估模型的稳健性。

三、稳健性检验的实际应用。

稳健性检验在实际应用中具有重要的意义。

在金融领域,由于金融数据的复杂性和波动性,我们经常需要对模型进行稳健性检验,以确保模型对市场波动和异常事件的鲁棒性。

在医学领域,稳健性检验也被广泛应用于临床试验和流行病学研究中,以评估模型对异常数据和缺失数据的处理能力。

总之,稳健性检验是保证模型可靠性和有效性的重要手段。

通过对模型的稳健性进行评估,我们可以更好地理解模型对数据的敏感程度,从而提高模型的预测能力和泛化能力。

bootstrap方法理论一,二

bootstrap方法理论一,二

/
999
=
0.0731 。
4.如果τˆ > Cα∗ 或 pˆ ∗ (τˆ) < α 则拒绝零假设。
当 B 是有限的,可行的 P 值 pˆ ∗ (τˆ) 依赖于使用 bootstrap 样本重复抽样得到的随机变量个
数。在 B → ∞ ,大样本准则显示 bootstrap P 值为
pˆ ∗(τˆ) ≡ Prμˆ (τ ≥ τˆ)
yt∗
=
β1
+
β2
y∗ t −1
+
ut∗ , ut∗

NID(0, s2 )

(4)关键在于零假设。如,如果参数 β = ⎡⎣β1 β2 ⎤⎦ ,零假设 β2 = 0 ,则实际估计的模型是
y = X1β1 + u ,因此使用 β = ⎡⎣β1 0⎤⎦ 生成 bootstrap 样本。
如果不需要假设误差项是正态分布,但是可以假设误差项是独立同分布。则可以使用半参
rejection probability function (RPF)定义为,
R(α , μ) ≡ Prμ (πτ ≤ α ) 明显地, R(α , μ) 依赖于α 和 DGP μ 。
对于确定性检验,RPF 等于α 。 对于主轴量检验,RPF 是平滑的,但一般不等于α 。
对于非主轴量检验,RPF 是非平滑的。
对于这类主轴量检验,bootstrap 样本很容易生成。因为所有这些统计量都是 M X ε 的函数,
我们只要生成 ε ∗ ∼ N (0, I) ,这里不需要计算 u∗ , y∗ 。注意:这些假设没有滞后自变量和其他
依赖于滞后自变量的回归变量。 三、参数 bootstrap 估计
对于线性回归模型,参数 bootstrap 估计如下:

bootstrap法

bootstrap法

bootstrap法Bootstrap法是一种常用的统计学方法,它可以用来评估统计学中的参数估计和假设检验的准确性。

Bootstrap法最初由布拉德利·埃夫隆和皮特·哈尔在1979年提出,并在之后的几十年里得到了广泛的应用。

本文将介绍Bootstrap法的基本原理、应用场景以及实现方法。

一、Bootstrap法的原理Bootstrap法的基本思想是通过从样本中重复抽取数据来估计统计量的分布。

具体而言,Bootstrap法包括以下步骤:1. 从原始数据样本中随机抽取一个固定数量的样本(通常与原始样本大小相同),并将其作为一个新的样本。

2. 重复步骤1多次,通常是1000次或更多次。

3. 对每个新样本计算统计量(如均值、方差、中位数等)。

4. 将所有计算出的统计量按升序排列。

5. 根据需要计算出置信区间和标准误等统计量。

Bootstrap法的核心在于重复抽样。

通过从原始数据样本中重复随机抽样,我们可以获得更准确的统计量估计和假设检验结果。

在某些情况下,原始数据可能不符合正态分布或其他假设检验的前提条件。

Bootstrap法可以通过生成新的样本来解决这些问题。

二、Bootstrap法的应用场景Bootstrap法可以用于各种统计学应用中,包括参数估计、假设检验、回归分析、时间序列分析等。

以下是Bootstrap法的一些常见应用场景:1. 参数估计:Bootstrap法可以用来估计统计量的标准误和置信区间,如均值、中位数、方差、相关系数等。

2. 假设检验:Bootstrap法可以用来检验假设检验的显著性,如两个总体均值是否相等、回归系数是否显著等。

3. 回归分析:Bootstrap法可以用来估计回归系数的标准误和置信区间,以及模型的预测误差等。

4. 时间序列分析:Bootstrap法可以用来估计时间序列模型的参数和预测误差,以及分析时间序列的置信区间和假设检验结果等。

三、Bootstrap法的实现方法Bootstrap法的实现方法相对简单,可以使用各种编程语言和软件包来实现。

Bootstrap方法简介

Bootstrap方法简介

Bootstrap 方法简介1 Bootstrap 抽样方法Bootstrap 方法是Efron 在 1977 年提出的一种数据处理方法,其本质上是对已知数据的再抽样。

Bootstrap 的数学原理大致如下:1(,,)n T T T =是来自总体分布函数为()F T 的独立同分布随机样本。

()n F T 是由样本T 得到的分布函数(在产品可靠性分析中,()n F T 一般是指数函数或多参数weibull 函数),由()n F T 得到的参数估计ˆˆ()F θθ=,它可以作为样本参数θ的准确值。

再从新总体()nF T 中抽取与样本T 相同的伪样本1(,,)m m T T T =,一般取m n =。

用伪样本m T 求出参数θ的估计值。

重复操作M 次(一般取1000M =)可得到M 个基于伪样本m T 而得到的θ估计值[4]。

Bootstrap 方法在应用中,重复抽样带来的误差不可避免。

误差主要来源于样本数据的抽样误差和从样本分布中的再抽样误差。

对于再抽样误差,只要 Bootstrap 再抽样样本数充分大,由样本分布所得的再抽样误差就会趋于消失,Bootstrap 估计的所有误差就会接近于抽样误差[5] 。

Bootstrap 方法根据抽样方式的不同可分为参数和非参数两种。

非参数方法主要用于在不知道抽样函数服从什么分布情况下,对经验分布不做过多的假设,把试验数据按从小到大排序获得经验分布,然后从中抽取伪样本的一种方法;参数方法主要用于经验分布已知情况下,当试验数据分布明确时,运用参数方法比运用非参数方法效率更高[6]。

由于多方面的原因,使得收集到的故障间隔时间数据中常含有分离群数据,这些数据会导致估计精度降低。

但是,对于高可靠度的现代机电产品来说收集到的每一个数据都来之不易,所以不易轻易舍去。

因此,可以应用改进的参数 Bootstrap 方法,具体过程如下:(1) 将试验样本数据12(,,,)n X X X X =从小到大排序,每次从中去掉一个样本 i X ,剩下1n -个样本用传统方法建模,得出样本分布函数(1)()n i F T -的估计参数值ˆm 和ˆη。

1615_准备金计算的随机模型_陈东辉

1615_准备金计算的随机模型_陈东辉
4
In early development Evolving or adaptive model KF/DGLM/Bayesian
一、准备金的不确定性
传统比率模型
准备金的结果是单一固定数值 无法测算误差、区间,无法统计检验
随机模型
“进展因子”成为模型中的参数估计 准备金具有概率分布,模型结果是置信区间 可以计算参数误差、随机误差 可以对模型的合理性进行统计检验
度 变 化
事 故 年
C(i,j)
赔付年度变化趋势
18
二、准备金随机方法
回归模型(GLM)
参数的选择很灵活,既可以使用因子,也可以使用趋势 样本非常小,参数不能太多,模型应尽量简化
参数随时间变化 – 动态模型 引入个体赔案信息 – 基于个体赔案的模型
19
二、准备金随机方法
GLM Example – PICC Motor 模型结构:Cape Cod + Hoerl Curve Goodness of fit -- reasonable Parameter Error:6.1%;Process Error:2.9%; COV:6.7%
10
二、准备金随机方法
随机链梯法 - Mack方法
通过原点的线性回归模型:C(t+1) = b * C(t) + e 样本观测值:C(1),C(t) – 黑线斜率 利用这些观测值估计b,红线斜率
无偏估计 = ∑C(t+1)/ ∑C(t) (加权平均因子)
C(t+1)
C(t)
C(t+1)
C(t)
40% 30% 20% 10% 0% 146 150 153 156 160 163 167 170 173 177 180 184 187 190 194 Empirical Lognormal

经济统计学中的bootstrap方法

经济统计学中的bootstrap方法

经济统计学中的bootstrap方法引言:经济统计学是应用统计学原理和方法来分析和解释经济现象的学科。

在经济统计学中,bootstrap方法是一种重要的统计推断技术。

本文将介绍bootstrap方法的基本原理、应用领域以及优缺点。

一、bootstrap方法的基本原理bootstrap方法是由统计学家Bradley Efron于1979年提出的一种非参数统计推断方法。

它的基本原理是通过从原始样本中有放回地抽取大量的重复样本,构建一个与原始样本具有相同分布特征的抽样分布,从而进行统计推断。

具体而言,bootstrap方法包括以下几个步骤:1. 从原始样本中有放回地抽取n个样本观测值,构成一个bootstrap样本。

2. 根据bootstrap样本计算所关心的统计量,如均值、方差等。

3. 重复步骤1和步骤2,得到大量的bootstrap样本和对应的统计量。

4. 利用bootstrap样本和对应的统计量构建抽样分布,通过对抽样分布进行分析和推断。

二、bootstrap方法的应用领域bootstrap方法在经济统计学中有广泛的应用,特别是在以下几个方面:1. 参数估计:bootstrap方法可以用于估计参数的标准误、置信区间等。

通过构建抽样分布,可以对参数进行推断,从而得到更准确的估计结果。

2. 假设检验:bootstrap方法可以用于检验统计假设的显著性。

通过构建抽样分布,可以计算出统计量的分布特征,从而进行假设检验。

3. 预测分析:bootstrap方法可以用于预测模型的准确性和稳定性。

通过构建抽样分布,可以评估模型的预测误差和置信区间,从而提高预测的准确性。

4. 非参数统计:bootstrap方法可以用于非参数统计推断。

由于bootstrap方法不依赖于任何分布假设,因此适用于各种复杂的经济统计问题。

三、bootstrap方法的优缺点bootstrap方法作为一种强大的统计推断技术,具有以下优点:1. 不依赖分布假设:bootstrap方法不需要对数据的分布做出假设,适用于各种类型的数据。

拔靴法,自助法

拔靴法,自助法

拔靴法的基本原理及应用一、拔靴法的由来1977年美国斯坦福大学统计学教授Efron提出Bootstrapping 方法。

Bootstrapping的名字来源于英文短语“to pull oneself up by one’s bootstrap”中文翻译是“靠自己的力量振作起来”。

引用到中国后有两个中文名字,既叫“拔靴法”,又叫“自助法”。

二、拔靴法的基本原理及应用例:有一款研发的新药可以治疗某一种疾病。

我们想要知道这款新药对治疗疾病是否有效。

于是我们找来8个病人,让他们8个病人吃下这种新药,来测验这个新药是否对这种疾病有效。

数轴0点代表病人吃药后身体状态没好也没坏,跟不吃药没什么区别。

数轴负值表示病人吃药后身体状态变坏,数轴负值表示病人吃药后身体状态变好。

圆点代表8个病人吃药后的身体状态,其中有3个人吃药后身体变坏(-3.2,-2.8,-1.8),5个人吃药后身体变好(1.7,2,2.1,2.8,3.2)。

有的病人吃药后身体状态变好,有的病人吃药后身体状态变坏,那么这个新药到底对疾病有没有效果呢?我们可以计算一下8个病人吃药后身体状态的平均值M。

均值M=(-3.2-2.8-1.8+1.7+2.2.1+2.8+3.2)÷ 8=0.58个病人吃药后身体状态的均值为0.5。

我们由此可以得出新药物对疾病的效果就是0.5吗?当然不能!因为我们无法控制随机事件。

吃药后身体变好的5个病人,可能他们一开始身体就更健康,这是一个随机事件。

吃药后身体变坏的3个病人,可能他们的生活方式不健康,这又是一个随机事件。

单单通过这8个人的测验,我们无法确定是因为新药导致了他们身体的变化,还是因为随机事件导致了他们身体的变化。

如何解决这个问题呢?通常的做法就是进行费时费力费钱的多次重复测验。

我们做第1次测验时,8个病人身体状态的均值为0.5。

我们找另外8个病人重复第1次的测验,做第2次测验。

注意,样本抽样为不重复抽样,也就是说,我们第2次测验找的这8个病人,不能包含第1次测验的8个病人。

术语表

术语表

0-92×2 interactions, 454-455 2×2 交互作用2×2 tables, 712-713 2×2 列联表2×2×2 interactions, 479 2×2×2 交互作用AAbsolute values, 53 绝对值Absolute zero, 6 绝对零Addition rule, 116-117, 693-694 加法法则Additive model, 431 方差分析的相加模型Additivity, 409-410 相加性Adjacent value, 76 邻近值Adjusted R, 599-600 修正RAgreement 一致性:Contingency table for, 722 列联表measuring inter-rater, 721-723 测量评分者间一致性Alpha level (α) α水平:experimentwise ( EW α), 387,395 以实验为单位α水平familywise, 449 以族系为单位α水平null hypothesis testing and, 128-129 零假设检验Alpha per comparison, 388, 395-396 每次比较的α水平Alternative hypothesis ( A H ), 131, 137-138 备择假设Alternative hypothesis distribution (AHD), 222-224 备择假设分布American Psychological Association (APA), style, 146, 174,210,368-369 美国心理学会论文写作格式Analysis of change, 560 变化分析Analysis of covariance (ANCOVA), 548,641-659 协方差分析: assumptions, 653-654 假设Mixed-design ANOVA and, 657 混合设计ANOVApost hoc comparisons, 651-652 事后比较step-by-step procedure, 645-651 步骤with intact groups, 658-659 自然组的协方差分析Analysis of variance (ANOVA) 方差分析:higher-order, 480 高阶的HSD vs., 402 Tukey 氏HSD 检验regression approach,627-628, 641-651, 652-653 回归方法assumptions, 653-654 假设controlling variance, methods of, 637-638 方差控制法covariates, two or more, 656 两个或多个协变量dummy coding, 628 虚拟编码effect coding, 629-630 效应编码equivalence testing, 630-631 对等性检验factorial, 655-656 因子general linear model, 630 一般线性模型higher-order, 633 高阶intact groups, 658-659 自然组post hoc comparisons, 651-652 事后比较power and effect size, 653 检验力与效应量regression plane, 628-629 回归平面two-way ANOVA, 621-633 两因素方差分析unbalanced designs, 633-637 非平衡设计See also Multivariate analysis of variance (MANOVA) 多元方差分析; One-way independent ANOVA 单因素方差分析;One-way repeated-measures ANOVA 单因素重复测量方差分析; Three-way ANOVA 三因素方差分析;Two-way independent ANOVA 两因素独立方差分析;Two-way mixed design ANOVA 两因素混合设计方差分析;Two-way repeated-measures ANOVA 两因素重复测量方差分析Analyzing unbalanced designs 分析非平衡设计:MethodⅠ(regression) approach, 635-636 方法一:回归法MethodⅡ(proportional) approach, 636-637 方法二:比例法MethodⅢ(hierarchical) approach, 637 方法三:分层法A posterori comparisons, 364 事后比较See also Post hoc comparisons 参见事后比较A priori comparisons, 364, 385-388 事前比较See also Planned comparisons 参见事前比较Apparent limits, 33 表观极限Applied statistics, 1 应用统计学Arithmetic mean, measures of central tendency, 46-47 算术均数, 集中趋势测量Array, data, 21-22 数列Association: 联系Measuring strength of, 718-721 测量联系强度Pearson’s Chi-square test of ,708-709 皮尔逊卡方检验Strength of for a two-sample t test, 310-312 两样本t 检验的联系强度Average, weighted, 65-66 加权平均BBackward elimination, and predictors, 595-596 逆向删除和预测变量Balanced design, ANOVA, 428 平衡设计Bar graph, 24-25 条形图Bayesian Theorem, 151 贝叶斯定理Applying to NHT, 151-153 应用到零假设检验Before-after design, 317-318, 321,331 前-后设计mixed design, 547-548 前-后混合设计Behrens-Fisher problem, 208 Behrens-Fisher 问题Bernouilli, Jacques, 678Bernouilli trials, 678 贝努里序列Beta weights, 575-577, β权重Between-groups factors 组间因子as an experimental variable, 536 组间因子作为实验变量as a grouping variable, 535-536 组间因子作为分组变量Between-subjects factors, 528 被试间因子variability, analyzing, 530-532 分析变异Biased estimator, 56, 177 有偏估计值Biased sample variance, 56 有偏样本方差Biased standard deviation, 57 有偏标准差Bimodal distribution, 677-678 双峰分布appropriate use for NHT, 689-690 针对零假设检验的恰当使用assumptions of sign test, 688-689 符号检验的假设asymmetrical, 681-682 不对称constructing, 696 建构双峰分布gambler’s fallacy, 689 赌徒谬误interpreting results, 688 解释结果N=4, 679-680N=12, 680-681normal approximation, 682-683 正态近似testing, 686-688 检验z test for propotions, 683-684 比率z 检验Biserial r, 312-313 二列相关系数Bivariate normal distribution, linear correlation and, 273-274 双变量正态分布, 线性相关Bivariate outliers, 262-263 双变量极端值Bonferroni-Dunn test, 377, 387 Bonferroni-Dunn 检验Bonferroni inequality, 395-396 Bonferroni 不等式Bonferroni tests, 395-396 Bonferroni 检验modified, 410-412 修正nonorthogonal planned comparisons and, 410 非正交事前比较Bootstrapping, 183-184 拔靴法Box-and-whisker plots (boxplots), 75-77 箱线图Brown-Forsythe ANOVA, 378 Brown-Forsythe 方差分析CCapture percentage (CP),172-173 俘获百分比Carryover effects, 332, 495 延滞效应Categorical scales, 3 类别量尺Causation and correlation, 263-264 因果与相关Ceiling effect, 61-62 天花板效应Cell frequencies, 709 单元频数Cell means, 428 单元均数graphing the, 430,431 图示单元均数separating interaction from, 436-437 分离交互作用Celsius (Centigrade) temperature scale, 6 摄氏温度Central Limit Theorem (CLT), 110, 114-116, 207 中心极限定理t test and confidence interval, 173 t 检验和置信区间Central tendency 集中趋势:measures of, 46-50 测量skewed distribution and, 59 偏态分布Median 中数;Mode 众数Chi-square distribution, 701 卡方分布critical values, 702-703 临界值table of, 771 卡方分布表tails of, 703-704 卡方分布的尾Chi-square statistic, 702 卡方统计量Chi-square tests, 700,701 卡方检验assumptions, 713-714 假设publishing results, 715 发表结果two-variable contingency tables, 708 两变量列联表uses for, 714-715Circularity. See Sphericity 球形Class intervals, 32-35 组距Coding: 编码dummy, 628 虚拟编码effect, 629-630 效应编码proportional, 634-635 比率编码Coefficient of determination, 294-295 决定系数Coefficient of multiple determination, 572-573 多元决定系数Coefficient of nondetermination, 295 未决定系数Cohen, Jacob, 225-227,230,233,247,279,314,363,375,450,513,527,721-723 Cohen’s d. See d. 参见d.Cohen’s kappa. See Kappa, measure of agreement. 见Kappa,一致性的测量Combinations, and binomial distribution, 629 组合,二项分布Comparisons. See Planned comparison; Post hoc comparisons.比较。

Bootstrapping

Bootstrapping

Bootstrapping转⾃:Bootstrapping从字⾯意思翻译是拔靴法,从其内容翻译⼜叫⾃助法,是⼀种再抽样的统计⽅法。

⾃助法的名称来源于英⽂短语“to pull oneself up by one’s bootstrap”,表⽰完成⼀件不能⾃然完成的事情。

1977年美国Standford⼤学统计学教授Efron提出了⼀种新的增⼴样本的统计⽅法,就是Bootstrap⽅法,为解决⼩⼦样试验评估问题提供了很好的思路。

Bootstrapping算法,指的就是利⽤有限的样本资料经由多次,重新建⽴起⾜以代表母体的新样本。

bootstrapping的运⽤基于很多统计学假设,因此假设的成⽴与否影响采样的准确性。

统计学中,bootstrapping可以指依赖于重置随机抽样的⼀切试验。

bootstrapping可以⽤于计算样本估计的准确性。

对于⼀个采样,我们只能计算出某个(例如)的⼀个取值,⽆法知道均值统计量的分布情况。

但是通过(⾃举法)我们可以模拟出均值统计量的近似分布。

有了分布很多事情就可以做了(⽐如说有你推出的结果来进⽽推测实际总体的情况)。

bootstrapping⽅法的实现很简单,假设抽取的样本⼤⼩为n:在原样本中有放回的抽样,抽取n次。

每抽⼀次形成⼀个新的样本,重复操作,形成很多新样本,通过这些样本就可以计算出样本的⼀个分布。

新样本的数量通常是1000-10000。

如果计算成本很⼩,或者对精度要求⽐较⾼,就增加新样本的数量。

优点:简单易于操作。

缺点:bootstrapping的运⽤基于很多统计学假设,因此假设的成⽴与否会影响采样的准确性。

1、⾃助法的基本思路:如果不知道总体分布,那么,对总体分布的最好猜测便是由数据提供的分布。

⾃助法的要点是:①假定观察值便是总体;②由这⼀假定的总体抽取样本,即再抽样。

由原始数据经过再抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)或⾃助样本(bootstrapsamples)。

Bootstrap方法的原理

Bootstrap方法的原理

Bootstrap方法的原理Bootstrap方法是一种统计学中常用的非参数统计方法,用于估计统计量的抽样分布。

它的原理是通过从原始样本中有放回地抽取大量的重复样本,然后利用这些重复样本进行统计推断。

Bootstrap方法的原理可以分为以下几个步骤:1. 抽样:从原始样本中有放回地抽取大量的重复样本。

这意味着每次抽样都是独立的,每个样本都有相同的概率被选中。

抽样的次数通常为几千次甚至更多,以确保得到足够多的样本。

2. 统计量计算:对于每个重复样本,计算所关心的统计量。

统计量可以是均值、中位数、方差等,具体根据问题的需求而定。

3. 统计量分布估计:将得到的统计量按照大小排序,然后根据排序结果计算置信区间或者计算假设检验的p值。

置信区间可以用来估计统计量的不确定性,p值可以用来判断统计量是否显著。

4. 结果解释:根据统计量的分布估计结果,对原始样本进行统计推断。

例如,可以利用置信区间判断总体均值的范围,或者利用p值判断两个样本的差异是否显著。

Bootstrap方法的原理基于自助法(bootstrapping)的思想,即通过从原始样本中有放回地抽取样本,模拟出多个类似于原始样本的重复样本。

这样做的好处是可以利用这些重复样本来估计统计量的抽样分布,而无需对总体分布做出任何假设。

Bootstrap方法的优点在于它不依赖于总体分布的假设,适用于各种类型的数据和统计量。

它可以提供更准确的估计和更可靠的推断结果,尤其在样本量较小或总体分布未知的情况下。

此外,Bootstrap方法还可以用于模型选择、参数估计和预测等统计问题。

总之,Bootstrap方法通过重复抽样和统计量计算来估计统计量的抽样分布,从而进行统计推断。

它的原理简单而直观,适用范围广泛,是统计学中常用的非参数统计方法之一。

自举法(Bootstrapping)

自举法(Bootstrapping)

⾃举法(Bootstrapping)
⾃举法是在1个容量为n的原始样本中重复抽取⼀系列容量也是n的随机样本,并保证每次抽样中每⼀样本观察值被抽取的概率都是1/n(复置抽样)。

这种⽅法可⽤来检查样本统计数θ的基本性质,估计θ的标准误和确定⼀定置信系数下θ的置信区间。

⾃助法(Bootstrap Method)是Efron(1979)於Annals of Statistics所发表的⼀个办法,是近代统计发展上极重要的⼀个⾥程碑,⽽在执⾏上常需借助於现代快速的电脑。

举例来说,当⽤样本平均来估算母群体期望值时,为对此⼀估算的误差有所了解,我们常⽤信赖区间(confidence interval)的办法来做推估,此时得对样本平均的sampling distribution有所了解。

在基本统计教本上,当样本所来⾃的母群体,可⽤常态分配描述时,其sampling distribution可或为常态分配或为t分配。

但当样本所来⾃的母群体,不宜⽤常态分配描述时,我们或⽤电脑模拟或⽤渐进分析的办法加以克服。

当对母群体的了解不够深时,渐进分析的办法是较有效的⽅法,故中央极限定理(Central Limit Theorem),Edgeworth Expansion (small sample theory)等办法及其可⾏性及限制等於⽂献中⼴被探讨,⼈们虽不全然喜欢这些办法,但也找不出更理性的⽅法来取代渐进分析的办法。

⽽⾃助法确是⼀个相当具说服⼒的⽅法,更提供了统计⼯作者另⼀个寻找sampling distribution 的办法,故在近年来於⽂献中⼴被探讨。

bootstrap拔靴法介绍

bootstrap拔靴法介绍

估计值α和t统 计值
计算α和t统计 量的百分位数
Bootstrap
• 步骤五
重复步骤二至四 10,000次
模拟的数据的实证分布
比较、结论
模型 • Fama-French三因素模型
• α;回归系数;残差的时间序列
数据
样本 • 606个月份样本值 (July 1963-Dec 2013)
Bootstrap
• 步骤二


时间段的随机抽样


存取抽样数据(残差值和三因子)

形成时间序列

Bootstrap
• 步骤三
原假设:α为0
������������,������和fama-french因素已知 ������������,������ =������������ ������������������������ +
������������������������������������ +ℎ������ ������������������������ + ������������,������
模拟的 月度收 益率时 间序列
Bootstrap
• 步骤四
������������,������ ,三因子,������������,������ 已知
组会报告——文献汇报
Bootstrap方法介绍
1
问:池塘有多少鱼?

Bootstrap
• 基本抽样方法
Bootstrap
非正态分布 非独立性 多重比较问题
• 方法适用性
Bootstrap
• 步骤一
• ������������,������=������������ + ������������������������������������+ ������������������������������������ +ℎ������ ������������������������ + ������������,������
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

灰色区域的LDF是通过拔靴带法得到的一个拔靴带样本
14
© 2012 CPCR. All rights reserved.
针对LDF的拔靴带法举例
得到的未来赔款预测的一个拔靴带样本如下:
年度 1 2 3 4 1 1000 1200 1000 1200 2 1500 1600 1400 1680 3 终极 准备金 1600 1600 0 1700 1700 0 1493.333 1493.333 93.33333 1785 1785 585 Total: 678.3333
以上仅是一个拔靴带样本,我们需要重复m次,比如10 万次,得到总准备金的均值约是693,标准差约是88 本质上类似于针对LDF的随机链梯法
15
© 2012 CPCR. All rights reserved.
E&V提出的拔靴带法举例
已知的实际累积赔款三角形如下:
年度 1 2 3 4 1 1000 1200 1000 1200 2 1500 1600 1400 3 1600 1700 Ult 1600
重新构造一个增量三角形
年度 1 2 3 4 1 1,078.88 1,242.02 1,000.00 1,192.34 2 474.02 454.93 410.63 3 94.79 74.04 Ult -
重构增量三角形的算法为 ������‘ = ������ + ������ ∙ ������
3
© 2012 CPCR. All rights reserved.
拔靴带法的典故
术语“Bootstrap”来自短语“to pull oneself up by one's bootstraps” 源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他 想到了拎着鞋带将自己提起来 计算机的引导程序boot也来源于此 意义:不靠外界力量,而靠自身提升自己的性能,翻译 为自助/自举
7
© 2012 CPCR. All rights reserved.
非参数Bootstrap举例
这时,我们采用非参数拔靴带法得到10个拔靴带样本
X1 0 2 0 10 0 2 0 2 2 0 5 5 X2 10 10 10 2 10 2 0 10 2 2 5 10 X3 6 0 10 2 2 2 2 6 5 0 5 6 X4 0 0 2 10 6 0 10 2 10 10 2 10 X5 10 2 10 10 5 2 0 10 0 5 2 10 X6 10 10 0 2 2 10 6 2 10 2 0 10 X7 2 0 2 2 2 10 6 0 10 2 10 10 X8 10 4 0 10 10 0 10 2 4 6 2 10 X9 5 0 2 10 2 10 4 2 0 6 10 10 X10 2 0 2 10 10 10 0 2 0 2 0 10
4
© 2012 CPCR. All rights reserved.
拔靴带法的分类
非参数bootstrap
参数boots rights reserved.
非参数Bootstrap
什么是非参数bootstrap方法?
• 非参数Bootstrap方法是在得到一组随机样本 X=(X1,…,Xn)且分布F(x)未知的情况下,利用对原始样 本X进行n次重复抽样获得的样本来研究F(x)的统计特征 θ。 • 非参数Bootstrap方法的具体做法是:对原始样本X有放 回的重复抽样n次,每次抽取一个,得到的样本称为一个 Bootstrap样本,计算此样本下θ的估计值;然后重复抽 取Bootstrap样本m次,即可得到θ估计值的分布,它可 近似作为θ的分布。
拔靴带法及其在赔款准备金评 估中的应用
李晓翾, 中国/英国精算师
非寿险随机准备金评估技术研讨会
深圳 ▪ 2012年8月8日
主 要 内 容
拔靴带法简介 拔靴带法在准备金评估中的应用 拔靴带法在Excel中的实现 拔靴带法与GLM框架的关系
2
© 2012 CPCR. All rights reserved.
实际上,这个样本是从正态分布N(10,5)产生的
10
© 2012 CPCR. All rights reserved.
参数Bootstrap举例
接下来,我们要利用参数Bootstrap技术做统计推断 首先,从N(9.51, 5.06)重新抽取10个拔靴带样本如下:
从10个拔靴带样本中重新计算了正态分布的参数 这样,我们就实现了建模中的参数不确定性
拔靴带法简介
什么叫bootstrap方法?
• Bootstrap方法最初是由美国斯坦福大学的Bradley Efron 教授 于1979年在归纳前人研究成果的基础上提出来的 • Bootstrap是一种通过对总体分布未知的观测数据进行模拟再抽 样来对其分布特征进行统计推断的统计方法 • Bootstrap的基本思想是:在原始数据的范围内做有放回的抽样, 得到大量的bootstrap样本并计算相应的统计量,从而完成对其 真实总体分布的统计推断 • Bootstrap方法的出现,在一定程度上解决了无法获得大量样本 可能导致的推断失误
11
© 2012 CPCR. All rights reserved.
主 要 内 容
拔靴带法简介 拔靴带法在准备金评估中的应用 拔靴带法在Excel中的实现 拔靴带法与GLM框架的关系
12
© 2012 CPCR. All rights reserved.
拔靴带法在准备金评估中的应用
Bootstrap是一种统计方法,它在准备金评估中的应用 方式也有多种 最著名的应用是England与Verrall在1999年将拔靴带法 引入到随机准备金领域中,主要是针对拟合残差引入了 拔靴带法 也有人将拔靴带法应用到损失进展因子上也形成一种随 机性准备金方法
6
© 2012 CPCR. All rights reserved.
非参数Bootstrap举例
假设得到样本X=(0,0,2,2,2,4,5,6,10,10,10),我们想判断 样本背后的总体分布的VaR 90% 单从随机样本计算出来的VaR 90%为10,它正确吗? 实际上,这个样本是从分布DUniform(0,10)产生的,所 以VaR 90%的真实值应为9
20
© 2012 CPCR. All rights reserved.
E&V提出的拔靴带法举例
把增量三角形转变为累积三角形
年度 1 2 3 4 1 1,078.88 1,242.02 1,000.00 1,192.34 2 1,552.90 1,696.96 1,410.63 3 1,647.69 1,771.00 Ult 1,647.69
拟合的累积赔款三角形如下:
年度 1 2 3 4 1 1068.82 1135.62 995.56 1200 2 1503.03 1596.97 1400 3 1600 1700 Ult 1600
17
© 2012 CPCR. All rights reserved.
E&V提出的拔靴带法举例
拟合的增量赔款三角形(E)如下:
链梯法是从前往后的预测,而不是从后向前的预测
链梯法中各个增量赔款是相关的,而不是相互独立的 链梯法的上半个三角形是不变的,而不是随机的
所以,拔靴带法准备金的期望值并不等于链梯法的值
23
© 2012 CPCR. All rights reserved.
E&V拔靴带法的ODP版本
18
© 2012 CPCR. All rights reserved.
E&V提出的拔靴带法举例
得到的残差三角形(e)如下:
年度 1 2 3 4 1 -2.1051 1.9104 0.1409 2 3.1573 -2.8561 -0.2210 3 0.3077 -0.2985 Ult -
残差的算法为 ������ =
VaR 90%=
从而得到VaR 90%的平均值为9.1,样本标准差为1.912 从而我们推断,VaR 90%有很大可能在9.1左右
8
© 2012 CPCR. All rights reserved.
参数Bootstrap
什么参数bootstrap方法?
• 参数Bootstrap方法是在得到一组随机样本X=(X1,…,Xn) 且已知其总体分布F(x)的情况下,利用对原始样本X进行 n次重复抽样获得的样本来研究F(x)的参数特征θ。 • 参数Bootstrap方法的具体做法是:用原始样本X对F(x) 做参数估计θ;然后从估计的F(x)中重复抽取Bootstrap 样本m次,用每个Bootstrap样本来得到参数θ估计值的 分布,近似作为θ的分布。
得到损失进展因子如下:
年度 1-2 2-3 1 1.5 1.066667 2 1.333333 1.0625 3 1.4 4 选定值: 1.40625 1.064516 3-Ult 1
1
其中选定值为全部年度加权平均
16
© 2012 CPCR. All rights reserved.
E&V提出的拔靴带法举例
以上仅是一个拔靴带样本,我们需要重复m次,比如10 万次,得到总准备金的均值约是689,标准差约是52
21
© 2012 CPCR. All rights reserved.
E&V提出的拔靴带法举例
22
© 2012 CPCR. All rights reserved.
对E&V拔靴带法的说明
E&V提出的拔靴带法并不是基于标准链梯法模型,因此 它也不是用来预测链梯法的波动性的,这是因为拔靴带 法违背了链梯法的一些基本法则:
相关文档
最新文档