贝叶斯估计课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
而, p(B1) 10(0.9)9(0.1) 0.387 , p(B2) 10(0.7)9(0.3) 0.121
此时, (1) 0.7 , (2 ) 0.3 p(B) 0.307 (1 B) 0.883 , (2 B) 0.117
经理看到, 经过二次试验对1 (高质量产品占90%)的概率
• 贝叶斯推断的基本方法是将关于未知参数的先 验信息与样本信息综合,再根据贝叶斯定理,得 出后验信息,然后根据后验信息去推断未知参数 (茆诗松和王静龙等,1998年)。 “贝叶斯提出了一种归纳推理的理论(贝叶斯定 理),以后被一些统计学者发展为一种系统的统计 推断方法,称为贝叶斯方法.”──摘自《中国大百 科全书》(数学卷)
总体信息 样本信息
而贝叶斯学派认为是三种信息:
总体信息 样本信息 先验信息
总体信息
即总体分布或总体所属分布族给我们的 信息。譬如,“总体是正态分布”就给我 们带来很多信息:他的密度函数是一条钟 形曲线;他的一切一阶距都存在;有关正 态变量(服从正态分布随机变量)的一些 事件的概率可以计算;由正态分布可以导 出分布,分布和分布等重要分布,还有许 多成熟的点估计、区间估计和假设检验方 法可供我们选用。总体信息是很重要的信 息,为了获得此信息,往往耗资巨大。
第一章先验分布与后验分布
统计学有两个主要学派:频率学派与贝叶斯学派. 它们之间有异同,贝叶斯统计是在与经典统计的争 论中发展起来,主要的争论有: 1.未知参数可否作为随机变量? 2.事件的概率是否一定的频率解释? 3.概率是否可用经验来确定? ……….
§1.1 先介绍三种信息的概念
经典统计学派规定统计推断使用两种信息:
K
全概率公式:P(x) P(x | i )P(i ) i 1
Bayes公式(后验概率公式):P(i | x)
P(x | i )P(i )
K
P(x | i )P(i )
i 1
注:把事件i,x看为随机变量,上公式则为Bayes后验分布
§1.2贝叶斯公式的密度函数形式
1、 依 赖 于 参 数 的 密 度 函 数 在 经典 统 计 中 记 为
作为 的先验分布,则 的后验分布服从 分布:
~ Be(x 1, n x 1) Be(251528 ,241946 )
其中, x 251527 , n 251527 241945 493472
p{ 0.5 x}
(n 2)
0.5
SAS函数
x (1 )nxd 1.1451042 0
i) n
i,i
1,2,...,n
若这个分布的概率绝大部分在 0附近, 那么,该产品为"信得过产品",
可见假定以后每天都抽取几件产品与历史资料的不合格率分布一致,
使用单位就可以确认为"免检产品".
基于上述三种信息(总体信息、样本信息和先验信息)进行的 统计推断被称为贝叶斯统计学。它与经典统计学的主要差别在于 是否利用先验信息。贝叶斯统计学派把任意一个未知参数都看成 随机变量,应用一个概率分布去描述它的未知状况,该分布称为 先验分布。
某学生第一次看到他的数学老师,即有反应:老师 30岁到40之间,极可能35岁左右(左右可理解为正负 3岁,极可能可理解为90%的可能).
P(32≤X≤38)=0.90
三种信息
例2 :"免检产品"的确定
工厂每天都抽取几件产品,以估计不合格率 ,根据历史资料,
对过去的不合格率构造一个分布(先验分布)
P(
贝 叶 斯 统 计(Bayesian Statistics)
(Bayes,Thomas)(1702─1761)
贝叶斯是英国数学家.1702年生于伦敦;1761年4月17日 卒于坦布里奇韦尔斯.
贝叶斯是一位自学成才的数学家.曾助理宗教事务,后来 长期担任坦布里奇韦尔斯地方教堂的牧师.1742年,贝叶斯被 选为英国皇家学会会员.
如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶 斯公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝 叶斯估计量、贝叶斯方法、贝叶斯统计等等.
贝叶斯方法(Bayesian approach )
• 贝叶斯方法是基于贝叶斯定理而发展起来用于系 统地阐述和解决统计问题的方法(Samuel Kotz和 吴喜之,2000)。
m(x) (x 1)(n x 1)
这个分布不是别的,就是参数为 x 1的 n x 1 的 贝 塔 分 布 , 这 个 分 布 记 为 beta(x 1, n x 1) 。
信息验前分布
例 Laplace在1786年研究了巴黎的男婴出生的比 率,他希望检验男婴出生的概率 是否大于0.5.为 此,他收集到1745~1770年在巴黎出生的婴儿数据. 其中,男婴251527个,女婴241945个,他选用U(0,1)
样本信息
从总体中抽取的样本给我们提供的信息。
这是最“新鲜”的信息,并且愈多愈 好。人们希望对样本的加工和处理对总体 的某些特征作出较为精确的统计推断。没 有样本就没有统计学可言。这是大家都理 解的事实。
样本信息
基于上述两种信息进行的统计推断称为经典统计学, 它的基本观点是把数据(样本)看成是具有一定概率 分布的总体,所研究的对象是这个总体而不局限于数 据本身。这方面最早的工作是高斯 (Gauss,C.F.1777~1855)和勒让德 (Legendre,A.M.1752~1833)的误差分析,正态分 布和最小二乘法。从十九世纪末到二十世纪上半叶, 经皮尔逊(Pearson,K.1857~1936)、费歇 (Fisher,R.A.1890~1962)奈曼(Neyman.J.)等 人的杰出工作创立了经典统计学。随着经典统计学的 持续发展与广泛的应用,它本身的缺陷也逐渐暴露出 来了。
§1.2贝叶斯公式的密度函数形式
3. 从贝叶斯观点看,样本 x (x1, xn ) 的产生要分两步
进行。首先设想从先验分布 ( ) 产生一个样本 ' ,这一步 是“老天爷”做的,人们是看不到的,故用“设想”二字。
第二步是从总体分布 p(x | ' ) 产生一个样本 x (x1, xn ) ,
发生的概率 也说不出是大是小,在这种场合下,贝叶斯建议用区间 (0,1) 上
的均匀分布U (0,1) 作为 的先验分布。因为它在 (0,1) 上每一点都是机会均等,
没有偏爱。贝叶斯的这个建议被后人称为贝叶斯假设。这时 的先验分布为
(
)
1 0
0 1
其它场合
样本X与参数 的联合分布是
h(x, )
f
(
x
对 作出推断的只是条件分布 ( | x)
§1.2贝叶斯公式的密度函数形式
(后验分布 posterior distribution)。它的计算公式是
( | x) h(x, ) p(x | ) ( )
m(x) p(x | ) ( )d
这就是贝叶斯公式的密度函数形式。这个在样本 x 给定 下, 的条件分布被称为 的后验分布。它是集中了总 体、样本和先验等三种信息中有关 的一切信息,而又 排除一切与 无关的信息之后所得到的结果。
p(x; ) ,它表示在参数空间 {} 中不同的 对应不 同的分布。可在贝叶斯统计中记为 p(x |) ,它表示 在随机变量 给定某个值时,总体指标 X 的条件分 布。
2、 根据参数 的先验信息确定先验分布 () (prior
distribution)。这是贝叶斯学派在最近几十年里重点 研究的问题。已获得一大批富有成效的方法。
后验分布是三种信息的综合,先验分布反应人们在抽样前 对参数的认识,后验分布反应人们在抽样后对参数的认识
Bayes统计推断原则:对参数 所作任何推断(参数估计,假
设检验等)都必须建立在后验分布基础上.
§1.2贝叶斯公式的密度函数形式
例:为了提高某产品质量,公司经理考虑投资100万改进设 备,下属部门提出两种实施意见: 意见1:改进生产设备后,高质量产品占90% 意见2:改进生产设备后,高质量产品占70% 但经理根据以往两部门建议情况认为.意见1的可信度只 有40%,而意见案2的可信度只有60%,
信息处理
样本信息
先验信息
贝叶斯定理
后验信息
统计推断
从概率论的Bayes公式谈起
设自然状态有k种, 1,2,…, k, P(i)表示自然状态i发生的先验概率分布, P(x︱i)表示在状态i条件,事件为x的概 率。 P(i ︱x )为i发生的后验概率。
全概率公式:P(x)为x在各种状态下可能出现
的概率综合值。
这个样本是具体的,人们能看得到的,此样本 x 发生的概
n
率是与如下联合密度函数成正比。 p(x | ' ) p(xi | ') i 1 这个联合密度函数是综合了总体信息和样本信息,常称
为似然函数,记为 L( ') 。
§1.2贝叶斯公式的密度函数形式
4. 由于 ' 是设想出来的,它仍然是未知的,它是 按先验分布 ( ) 而产生的,要把先验信息进行综
x (x1, xn) 之后,我们应该依据 h(x, ) 对 作出推断。为此我们需 把 h(x, ) 作如下分解:
h(x, ) ( | x)m(x)
其中 m(x) 是 x 的边缘密度函数.
m(x) h(x, )d p(x | ) ( )
它与 无关,或者说,m(x) 中不含 的任何信息。因此能用来
(x 1)(n x 1) 0
推断:男婴出生的概率大于0.5
ˆ x 251527 0.5097
由Bayes公式, (1 A) p( A1) (1) / p( A) 0.700 (1 A) p( A2 ) (2 ) / p( A) 0.300
即经过试验 A,经理, 对1,2的可信程度,从0.4,0.6调整为0.7,0.3
为保险,经理又作小型试验得事 件, B {试产10个产品,有9个全是高质量产品 }
即经理主观概率 : (1) 0.4, (2 ) 0.6
为保险, 经理作小型试验得事件,
A {试产5个产品,全是高质量产品}
而, p(A1) 0.95 0.590 , p(A2) 0.75 0.168
由全概率公式, p(A) p(A1) (1) p(A2) (2) 0.337
§1.2贝叶斯公式的密度函数形式
合,不能只考虑 ' ,而应对 的一切可能加以考
虑。故要用 ( ) 参与进一步综合。这样一来,样
本 x 和参数 的联合分布 h(x, ) p(x | ) ( )
把三种可用的信息都综合进去了。
§1.2贝叶斯公式的密度函数形式
我们的任务是要对未知参数 作出统计推断。在没有样本信
息时,人们只能根据先验分布对 作出推断。在有样本观察值
先验信息
即在抽样之前有关统计问题的一些信息,一般说 来,先验信息主要来源于经验和历史资料。
例1:有一英国妇女,对奶茶能辨别出先倒进茶 还是先倒进奶,做十次试验她都正确说出。 若H0 : 每次成功概率P 0.5, 那么十次猜中的概率为 P10 (10) 0.510 0.0009766,这是几乎不可能发生的 小概率事件,可见应拒绝H0, P 0.5.是经验在起作用.
,
方差Var( X
)
(
)2 (
1)
当 1时,贝塔分布退化为[0,1] 区间上的均匀分布。
信息验前分布
例 设事件 A 的概率为 ,为了估计 而作 n 次独立观察,其中事件 A 出现的次数为 X ,显然, X 服从二项分布 b(n, ) ,即
f
(X
x
|
)=
n x
x
(1
)nx
,
x
1,
,n
这就是似然函数。假如在试验前我们对事件 A 没有什么了解,从而对其
已上升到0.883,可投资了.
贝塔分布(beta distribution)
若 0, 0为两个实数,则由下列密度函数
f
(x)
1
B( ,
)
x
1 (1
x)
1
0
0 x 1 x 0, x 1
其中
B(
,
)
( )( ) ( )
,确定的随机变量
X
的分布称为贝塔分
布,记为beta(, )
贝塔分布beta(, ) 的均值 E( X )
)
(
)
n x
x
(1
)
n
x
,
x
0,1,...,
n,0
1
此式在定义域上与二项分布有差别。再计算的边缘分布
信息验前分布
m(x)
1
h(x, )d
0
n
x
1
0
x (1 )nx d
n
x
(x
1)(n x (n 2)
1)
最后可得 的后验分布
( | x) )(nx , 1)1 0 1
此时, (1) 0.7 , (2 ) 0.3 p(B) 0.307 (1 B) 0.883 , (2 B) 0.117
经理看到, 经过二次试验对1 (高质量产品占90%)的概率
• 贝叶斯推断的基本方法是将关于未知参数的先 验信息与样本信息综合,再根据贝叶斯定理,得 出后验信息,然后根据后验信息去推断未知参数 (茆诗松和王静龙等,1998年)。 “贝叶斯提出了一种归纳推理的理论(贝叶斯定 理),以后被一些统计学者发展为一种系统的统计 推断方法,称为贝叶斯方法.”──摘自《中国大百 科全书》(数学卷)
总体信息 样本信息
而贝叶斯学派认为是三种信息:
总体信息 样本信息 先验信息
总体信息
即总体分布或总体所属分布族给我们的 信息。譬如,“总体是正态分布”就给我 们带来很多信息:他的密度函数是一条钟 形曲线;他的一切一阶距都存在;有关正 态变量(服从正态分布随机变量)的一些 事件的概率可以计算;由正态分布可以导 出分布,分布和分布等重要分布,还有许 多成熟的点估计、区间估计和假设检验方 法可供我们选用。总体信息是很重要的信 息,为了获得此信息,往往耗资巨大。
第一章先验分布与后验分布
统计学有两个主要学派:频率学派与贝叶斯学派. 它们之间有异同,贝叶斯统计是在与经典统计的争 论中发展起来,主要的争论有: 1.未知参数可否作为随机变量? 2.事件的概率是否一定的频率解释? 3.概率是否可用经验来确定? ……….
§1.1 先介绍三种信息的概念
经典统计学派规定统计推断使用两种信息:
K
全概率公式:P(x) P(x | i )P(i ) i 1
Bayes公式(后验概率公式):P(i | x)
P(x | i )P(i )
K
P(x | i )P(i )
i 1
注:把事件i,x看为随机变量,上公式则为Bayes后验分布
§1.2贝叶斯公式的密度函数形式
1、 依 赖 于 参 数 的 密 度 函 数 在 经典 统 计 中 记 为
作为 的先验分布,则 的后验分布服从 分布:
~ Be(x 1, n x 1) Be(251528 ,241946 )
其中, x 251527 , n 251527 241945 493472
p{ 0.5 x}
(n 2)
0.5
SAS函数
x (1 )nxd 1.1451042 0
i) n
i,i
1,2,...,n
若这个分布的概率绝大部分在 0附近, 那么,该产品为"信得过产品",
可见假定以后每天都抽取几件产品与历史资料的不合格率分布一致,
使用单位就可以确认为"免检产品".
基于上述三种信息(总体信息、样本信息和先验信息)进行的 统计推断被称为贝叶斯统计学。它与经典统计学的主要差别在于 是否利用先验信息。贝叶斯统计学派把任意一个未知参数都看成 随机变量,应用一个概率分布去描述它的未知状况,该分布称为 先验分布。
某学生第一次看到他的数学老师,即有反应:老师 30岁到40之间,极可能35岁左右(左右可理解为正负 3岁,极可能可理解为90%的可能).
P(32≤X≤38)=0.90
三种信息
例2 :"免检产品"的确定
工厂每天都抽取几件产品,以估计不合格率 ,根据历史资料,
对过去的不合格率构造一个分布(先验分布)
P(
贝 叶 斯 统 计(Bayesian Statistics)
(Bayes,Thomas)(1702─1761)
贝叶斯是英国数学家.1702年生于伦敦;1761年4月17日 卒于坦布里奇韦尔斯.
贝叶斯是一位自学成才的数学家.曾助理宗教事务,后来 长期担任坦布里奇韦尔斯地方教堂的牧师.1742年,贝叶斯被 选为英国皇家学会会员.
如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶 斯公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝 叶斯估计量、贝叶斯方法、贝叶斯统计等等.
贝叶斯方法(Bayesian approach )
• 贝叶斯方法是基于贝叶斯定理而发展起来用于系 统地阐述和解决统计问题的方法(Samuel Kotz和 吴喜之,2000)。
m(x) (x 1)(n x 1)
这个分布不是别的,就是参数为 x 1的 n x 1 的 贝 塔 分 布 , 这 个 分 布 记 为 beta(x 1, n x 1) 。
信息验前分布
例 Laplace在1786年研究了巴黎的男婴出生的比 率,他希望检验男婴出生的概率 是否大于0.5.为 此,他收集到1745~1770年在巴黎出生的婴儿数据. 其中,男婴251527个,女婴241945个,他选用U(0,1)
样本信息
从总体中抽取的样本给我们提供的信息。
这是最“新鲜”的信息,并且愈多愈 好。人们希望对样本的加工和处理对总体 的某些特征作出较为精确的统计推断。没 有样本就没有统计学可言。这是大家都理 解的事实。
样本信息
基于上述两种信息进行的统计推断称为经典统计学, 它的基本观点是把数据(样本)看成是具有一定概率 分布的总体,所研究的对象是这个总体而不局限于数 据本身。这方面最早的工作是高斯 (Gauss,C.F.1777~1855)和勒让德 (Legendre,A.M.1752~1833)的误差分析,正态分 布和最小二乘法。从十九世纪末到二十世纪上半叶, 经皮尔逊(Pearson,K.1857~1936)、费歇 (Fisher,R.A.1890~1962)奈曼(Neyman.J.)等 人的杰出工作创立了经典统计学。随着经典统计学的 持续发展与广泛的应用,它本身的缺陷也逐渐暴露出 来了。
§1.2贝叶斯公式的密度函数形式
3. 从贝叶斯观点看,样本 x (x1, xn ) 的产生要分两步
进行。首先设想从先验分布 ( ) 产生一个样本 ' ,这一步 是“老天爷”做的,人们是看不到的,故用“设想”二字。
第二步是从总体分布 p(x | ' ) 产生一个样本 x (x1, xn ) ,
发生的概率 也说不出是大是小,在这种场合下,贝叶斯建议用区间 (0,1) 上
的均匀分布U (0,1) 作为 的先验分布。因为它在 (0,1) 上每一点都是机会均等,
没有偏爱。贝叶斯的这个建议被后人称为贝叶斯假设。这时 的先验分布为
(
)
1 0
0 1
其它场合
样本X与参数 的联合分布是
h(x, )
f
(
x
对 作出推断的只是条件分布 ( | x)
§1.2贝叶斯公式的密度函数形式
(后验分布 posterior distribution)。它的计算公式是
( | x) h(x, ) p(x | ) ( )
m(x) p(x | ) ( )d
这就是贝叶斯公式的密度函数形式。这个在样本 x 给定 下, 的条件分布被称为 的后验分布。它是集中了总 体、样本和先验等三种信息中有关 的一切信息,而又 排除一切与 无关的信息之后所得到的结果。
p(x; ) ,它表示在参数空间 {} 中不同的 对应不 同的分布。可在贝叶斯统计中记为 p(x |) ,它表示 在随机变量 给定某个值时,总体指标 X 的条件分 布。
2、 根据参数 的先验信息确定先验分布 () (prior
distribution)。这是贝叶斯学派在最近几十年里重点 研究的问题。已获得一大批富有成效的方法。
后验分布是三种信息的综合,先验分布反应人们在抽样前 对参数的认识,后验分布反应人们在抽样后对参数的认识
Bayes统计推断原则:对参数 所作任何推断(参数估计,假
设检验等)都必须建立在后验分布基础上.
§1.2贝叶斯公式的密度函数形式
例:为了提高某产品质量,公司经理考虑投资100万改进设 备,下属部门提出两种实施意见: 意见1:改进生产设备后,高质量产品占90% 意见2:改进生产设备后,高质量产品占70% 但经理根据以往两部门建议情况认为.意见1的可信度只 有40%,而意见案2的可信度只有60%,
信息处理
样本信息
先验信息
贝叶斯定理
后验信息
统计推断
从概率论的Bayes公式谈起
设自然状态有k种, 1,2,…, k, P(i)表示自然状态i发生的先验概率分布, P(x︱i)表示在状态i条件,事件为x的概 率。 P(i ︱x )为i发生的后验概率。
全概率公式:P(x)为x在各种状态下可能出现
的概率综合值。
这个样本是具体的,人们能看得到的,此样本 x 发生的概
n
率是与如下联合密度函数成正比。 p(x | ' ) p(xi | ') i 1 这个联合密度函数是综合了总体信息和样本信息,常称
为似然函数,记为 L( ') 。
§1.2贝叶斯公式的密度函数形式
4. 由于 ' 是设想出来的,它仍然是未知的,它是 按先验分布 ( ) 而产生的,要把先验信息进行综
x (x1, xn) 之后,我们应该依据 h(x, ) 对 作出推断。为此我们需 把 h(x, ) 作如下分解:
h(x, ) ( | x)m(x)
其中 m(x) 是 x 的边缘密度函数.
m(x) h(x, )d p(x | ) ( )
它与 无关,或者说,m(x) 中不含 的任何信息。因此能用来
(x 1)(n x 1) 0
推断:男婴出生的概率大于0.5
ˆ x 251527 0.5097
由Bayes公式, (1 A) p( A1) (1) / p( A) 0.700 (1 A) p( A2 ) (2 ) / p( A) 0.300
即经过试验 A,经理, 对1,2的可信程度,从0.4,0.6调整为0.7,0.3
为保险,经理又作小型试验得事 件, B {试产10个产品,有9个全是高质量产品 }
即经理主观概率 : (1) 0.4, (2 ) 0.6
为保险, 经理作小型试验得事件,
A {试产5个产品,全是高质量产品}
而, p(A1) 0.95 0.590 , p(A2) 0.75 0.168
由全概率公式, p(A) p(A1) (1) p(A2) (2) 0.337
§1.2贝叶斯公式的密度函数形式
合,不能只考虑 ' ,而应对 的一切可能加以考
虑。故要用 ( ) 参与进一步综合。这样一来,样
本 x 和参数 的联合分布 h(x, ) p(x | ) ( )
把三种可用的信息都综合进去了。
§1.2贝叶斯公式的密度函数形式
我们的任务是要对未知参数 作出统计推断。在没有样本信
息时,人们只能根据先验分布对 作出推断。在有样本观察值
先验信息
即在抽样之前有关统计问题的一些信息,一般说 来,先验信息主要来源于经验和历史资料。
例1:有一英国妇女,对奶茶能辨别出先倒进茶 还是先倒进奶,做十次试验她都正确说出。 若H0 : 每次成功概率P 0.5, 那么十次猜中的概率为 P10 (10) 0.510 0.0009766,这是几乎不可能发生的 小概率事件,可见应拒绝H0, P 0.5.是经验在起作用.
,
方差Var( X
)
(
)2 (
1)
当 1时,贝塔分布退化为[0,1] 区间上的均匀分布。
信息验前分布
例 设事件 A 的概率为 ,为了估计 而作 n 次独立观察,其中事件 A 出现的次数为 X ,显然, X 服从二项分布 b(n, ) ,即
f
(X
x
|
)=
n x
x
(1
)nx
,
x
1,
,n
这就是似然函数。假如在试验前我们对事件 A 没有什么了解,从而对其
已上升到0.883,可投资了.
贝塔分布(beta distribution)
若 0, 0为两个实数,则由下列密度函数
f
(x)
1
B( ,
)
x
1 (1
x)
1
0
0 x 1 x 0, x 1
其中
B(
,
)
( )( ) ( )
,确定的随机变量
X
的分布称为贝塔分
布,记为beta(, )
贝塔分布beta(, ) 的均值 E( X )
)
(
)
n x
x
(1
)
n
x
,
x
0,1,...,
n,0
1
此式在定义域上与二项分布有差别。再计算的边缘分布
信息验前分布
m(x)
1
h(x, )d
0
n
x
1
0
x (1 )nx d
n
x
(x
1)(n x (n 2)
1)
最后可得 的后验分布
( | x) )(nx , 1)1 0 1