参数模型与非参数模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
Bootstrap样本
在一次bootstrap采样中,某些原始样本可能没被 采到,另外一些样本可能被采样多次 在一个bootstrap样本集中不包含某个原始样本 X i 的概率为 n 1 e1 0.368 1 X j X i , j 1,...n n
X 2 X 1, X 3 , X 1, X 4 , X 5
6
… *
计算bootstrap样本
重复B次,
1. 随机选择整数 i1 ,..., in,每个整数的取值范围为[1, n], 选择每个[1, n]之间的整数的概率相等,均为1 n 2. 计算bootstrap样本为:X * X i1 ,..., X in
2
2
2
xdF x
n
i 1
问题:若 F Tn 的形式很复杂(任意统计量),如何 3 计算/估计?
Bootstrap简介
Bootstrap是一个很通用的工具,用来估计标准误差、置 信区间和偏差。由Bradley Efron于1979年提出,用于计 算任意估计的标准误差 术语“Bootstrap”来自短语“to pull oneself up by one’s bootstraps” (源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具, 所以他想到了拎着鞋带将自己提起来)
假设我们想知道 Tn的方差 F Tn 如果 F Tn 的形式比较简单,可以直接用上节课学习 F 的嵌入式估计量 ˆ Tn 作为 F Tn 的估计 n Tn n1 X i ,则 例:
n
i 1
F Tn n ,其中 n x dF x , 2 2 2 ˆ X i X n n ˆ n,其中 F ˆ Tn
的差别可以忽略不计
9
模拟
更一般地,对任意均值有限的函数h,当 B 有
P 1 B h Tn ,b h t d G n t h Tn B b1
则当 h Tn ,b Tn ,b Tn 时,有
2
2 P 2 1 B Tn ,b Tn Tn Tn Tn B b1
Web上有matlab代码:
BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander, http://www.csp.curtin.edu.au/downloads/bootstrap_ toolbox.html Matlab函数:bootstrp
Bootstrap也可用于偏差、置信区间和分布估计等计算
1
本节课内容
重采样技术(resampling)
Bootstrap 刀切法(jackknife)
2
引言
Tn g X 1 ,..., X n 是一个统计量,或者是数据的某个函数, Tn 数据来自某个未知的分布F,我们想知道 的某些性质 (如偏差、方差和置信区间)
上节课内容总结
统计推断基本概念
统计模型:参数模型与非参数模型 统计推断/模型估计:点估计、区间估计、假设检验 估计的评价:无偏性、一致性、有效性、MSE
偏差、方差、区间估计
CDF估计:
点估计、偏差、方差及区间估计
统计函数估计
点估计 区间估计/标准误差
影响函数 Bootstrap
一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括
8
模拟
假设我们从 Tn 的分布Gn中抽取IID样本 Tn ,1 ,..., Tn , B , 当 B 时,根据大数定律, P 1 B Tn Tn ,b tdGn t Tn B b1 也就是说,如果我们从 Gn中抽取大量样本,我们 可以用样本均值 Tn来近似 Tn 当样本数目B足够大时,样本均值 Tn与期望 Tn 之间
5
重采样
通过从原始数据 X X 1 ,..., X n 进行n次有放回采 * * * X X ,..., X 样n个数据,得到bootstrap样本 b 1 n
对原始数据进行有放回的随机采样,抽取的样本数目 同原始样本数目一样
如:若原始样本为 X X 1 , X 2 , X 3 , X 4 , X 5 则bootstrap样本可能为 X 1* X 2 , X 3 , X 5 , X 4 , X 5
用模拟样本的方差来近似方差 Tn
10
模拟
怎样得到 Tn 的分布?
已知的只有X,但是我们可以讨论X的分布F * * 如果我们可以从分布F中得到样本 X 1 ,..., X n ,我们可以计算
* Tn* g X 1* ,..., X n
ˆ 代替(嵌入式估计量) 怎样得到F?用 F n ˆ 中采样? 怎样从 F n ˆ 对每个数据点 X 1 ,..., X n 的质量都为1/n 因为 F n ˆ 中抽取一个样本等价于从原始数据随机抽取一个样本 所以从 F n * * ˆ,可以通过有放回地随机 也就是说:为了模拟 X 1 ,..., X n ~ Fn
计算机的引导程序boot也来源于此 意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/ 自举
1980年代很流行,因为计算机被引入统计实践中来
4
百度文库
Bootstrap简介
Bootstrap:利用计算机手段进行重采样 一种基于数据的模拟(simulation)方法,用于统计推断。 基本思想是:利用样本数据计算统计量和估计样本分布, 而不对模型做任何假设(非参数bootstrap) 无需标准误差的理论计算,因此不关心估计的数学形式有 多复杂 Bootstrap有两种形式:非参数bootstrap和参数化的 bootstrap,但基本思想都是模拟
Bootstrap样本
在一次bootstrap采样中,某些原始样本可能没被 采到,另外一些样本可能被采样多次 在一个bootstrap样本集中不包含某个原始样本 X i 的概率为 n 1 e1 0.368 1 X j X i , j 1,...n n
X 2 X 1, X 3 , X 1, X 4 , X 5
6
… *
计算bootstrap样本
重复B次,
1. 随机选择整数 i1 ,..., in,每个整数的取值范围为[1, n], 选择每个[1, n]之间的整数的概率相等,均为1 n 2. 计算bootstrap样本为:X * X i1 ,..., X in
2
2
2
xdF x
n
i 1
问题:若 F Tn 的形式很复杂(任意统计量),如何 3 计算/估计?
Bootstrap简介
Bootstrap是一个很通用的工具,用来估计标准误差、置 信区间和偏差。由Bradley Efron于1979年提出,用于计 算任意估计的标准误差 术语“Bootstrap”来自短语“to pull oneself up by one’s bootstraps” (源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具, 所以他想到了拎着鞋带将自己提起来)
假设我们想知道 Tn的方差 F Tn 如果 F Tn 的形式比较简单,可以直接用上节课学习 F 的嵌入式估计量 ˆ Tn 作为 F Tn 的估计 n Tn n1 X i ,则 例:
n
i 1
F Tn n ,其中 n x dF x , 2 2 2 ˆ X i X n n ˆ n,其中 F ˆ Tn
的差别可以忽略不计
9
模拟
更一般地,对任意均值有限的函数h,当 B 有
P 1 B h Tn ,b h t d G n t h Tn B b1
则当 h Tn ,b Tn ,b Tn 时,有
2
2 P 2 1 B Tn ,b Tn Tn Tn Tn B b1
Web上有matlab代码:
BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander, http://www.csp.curtin.edu.au/downloads/bootstrap_ toolbox.html Matlab函数:bootstrp
Bootstrap也可用于偏差、置信区间和分布估计等计算
1
本节课内容
重采样技术(resampling)
Bootstrap 刀切法(jackknife)
2
引言
Tn g X 1 ,..., X n 是一个统计量,或者是数据的某个函数, Tn 数据来自某个未知的分布F,我们想知道 的某些性质 (如偏差、方差和置信区间)
上节课内容总结
统计推断基本概念
统计模型:参数模型与非参数模型 统计推断/模型估计:点估计、区间估计、假设检验 估计的评价:无偏性、一致性、有效性、MSE
偏差、方差、区间估计
CDF估计:
点估计、偏差、方差及区间估计
统计函数估计
点估计 区间估计/标准误差
影响函数 Bootstrap
一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括
8
模拟
假设我们从 Tn 的分布Gn中抽取IID样本 Tn ,1 ,..., Tn , B , 当 B 时,根据大数定律, P 1 B Tn Tn ,b tdGn t Tn B b1 也就是说,如果我们从 Gn中抽取大量样本,我们 可以用样本均值 Tn来近似 Tn 当样本数目B足够大时,样本均值 Tn与期望 Tn 之间
5
重采样
通过从原始数据 X X 1 ,..., X n 进行n次有放回采 * * * X X ,..., X 样n个数据,得到bootstrap样本 b 1 n
对原始数据进行有放回的随机采样,抽取的样本数目 同原始样本数目一样
如:若原始样本为 X X 1 , X 2 , X 3 , X 4 , X 5 则bootstrap样本可能为 X 1* X 2 , X 3 , X 5 , X 4 , X 5
用模拟样本的方差来近似方差 Tn
10
模拟
怎样得到 Tn 的分布?
已知的只有X,但是我们可以讨论X的分布F * * 如果我们可以从分布F中得到样本 X 1 ,..., X n ,我们可以计算
* Tn* g X 1* ,..., X n
ˆ 代替(嵌入式估计量) 怎样得到F?用 F n ˆ 中采样? 怎样从 F n ˆ 对每个数据点 X 1 ,..., X n 的质量都为1/n 因为 F n ˆ 中抽取一个样本等价于从原始数据随机抽取一个样本 所以从 F n * * ˆ,可以通过有放回地随机 也就是说:为了模拟 X 1 ,..., X n ~ Fn
计算机的引导程序boot也来源于此 意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/ 自举
1980年代很流行,因为计算机被引入统计实践中来
4
百度文库
Bootstrap简介
Bootstrap:利用计算机手段进行重采样 一种基于数据的模拟(simulation)方法,用于统计推断。 基本思想是:利用样本数据计算统计量和估计样本分布, 而不对模型做任何假设(非参数bootstrap) 无需标准误差的理论计算,因此不关心估计的数学形式有 多复杂 Bootstrap有两种形式:非参数bootstrap和参数化的 bootstrap,但基本思想都是模拟