第三章分布函数的计算
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X=linspace(1.4,2.1,100); P = normcdf(X,1.7,0.1); p = norminv(X,1.7,0.1); subplot(1,2,1),plot(X,p),title('身高密度函数') subplot(1,2,2),plot(X,P),title('身高分布函数')
,即当 f ( x) 是不高于 n 阶的多项式时,有
f(x)Ln(x)
对(3.1.3)两边积分,我们有
b
n
b
b
f(t)d t
a
f(xi)ali(t)d taR n(t)dt
i 0
(3.1.5)
从而我们可以得到积分的一般近似公式 :
b
n
f(t)dt
a
Ai f(xi)
i0
( 3.1.7)
b
显然 Newton—Cotes 求积公式有致命的弱点。
为改善求积公式,我们使用复合求积公式。其基本思想是 把积分区间分成若干小区间,每个小区间中用次数不高的插值 多项式近似逼近。
1)复合梯形求积公式 对区间[a, b]n等份,基点 x i a i,i h 0 , 1 ,2 , ,n ,h ( b a ) /n 对每个小区间用梯形求积公式,则
红色折线为拉格朗日插值 f(x2) 多项式
f(x4)
x0
x1
x2
x3
x4
l 代数精度概念
定义 3.1.1 若某个求积公式对于小于等于n 的多项式均能准确 地成立,但对n+1次多项式则不能。则称该求积公式具有n次 代数精度。
例3.1.1 梯形求积公式
b
b a
af( t) d t2[f( a ) f( b ) ] A 0 f(x 0 ) A 1 f(x 1 )
当 f(x)1时,左边=右边。准确地成立。
当 f(x)x 时,也准确成立。
b td b 2 ta 2 , b a [ f ( a ) f ( b ) ] b a ( a b ) b 2 a 2
a
22
2
2
当 f(x) x2 时
bt2dtb3 a3
a
3
,而
ba(a2b2)b3a3
2
3
所以梯形求积公式具有一次代数精度。
P ( x 1 X x 2 ) F ( x 2 ) F ( x 1 )
例3.1.6:男性大学生身高X的平均值为1.7米,标准差为0.1米。 1)计算身高小于1.8米大于1.6米发生的概率,即随机变量X落入 区间(1.6, 1.8)的概率。 2)求下侧概率为0.95的分位点。 解:本题利用分布函数进行计算
分布函数函数具有以下性质:
1)对任意x有
0F(x)1
2)单调不降,
x 1 x 2 F (x 1 ) F (x 2 )
利用分布函数我们可以计算随机变量X落在某一范围的概率, 或者说我们掌握了该随机变量的规律了。
例3.1.5:分别作出连续型和离散型随机变量的inv和cdf
(1)设男性大学生的身高X的平均值为1.7米,标准差为0.1米。 作密度函数和分布函数。利用MATLAB中的正态分布norminv和 normcdf命令进行计算
正态分布的密度函数 p 表达式为:
p(x)
1
x2
e 22
2
其百度文库参数:
:为平均值。是随机变量中心趋势的描述。
:为标准差。是随机变量离散程度的描述。
• 分布律(inv) 对于离散型随机变量,分布律相当于连续型随机变量的密度函数。 例3.1.4:作泊松分布随机变量的分布律图形。
p(x|)x e
x! 这里 为参数,表示随机变量的平均值和方差。
n 1 ( x ) ( x x 0 )x (x 1 ) ( x x n )
n '( x i ) ( x i x 0 ) ( x i x i 1 ) x i ( x i 1 ) ( x i x n )
Ln ( x) 称为拉格朗日插值多项式,其具有以下性质:
1) L n (x i) f(x i)i 0 ,1 ,2 , ,n。
第三章 分布函数的计算
1、密度函数和分布函数 2、分布函数的一般计算方法 3、标准正态分布的计算方法 4、统计工具箱的各种分布计算 5、统计推断原理 6、非参数统计分析 7、习题
分布函数的计算在整个信息统计分析应用中起着基础性的作用, 当我们建立了某个统计模型后,会产生很多的统计量,用它们对某 个假设进行检验。这时必须知道这些统计量的分布,某一点的概率、 某概率的分位点。在学习概率论时我们已经知道用查表的方法进行 计算。本章介绍分布函数的计算方法,以及如何用MATLAB的统计 工具箱计算各种分布的概率与分位点的计算。
2) 在上点与点之间为线性函数。
显然有以下关系式成立:
f(x)L n(x)R n(x)
(3.1.3)
其中 Rn( x) 是误差函数。
可以证明,当 f ( x) 有n+1阶有界导数时,
R n(x)(n n 1(1 x ))!f(n 1)()
(a,b)
(3.1.4)
当 f(n1)(x)0 时, Rn(x)0
1 T2n 2(Tn Hn)
n
这里 Hnh f(a(2i1)h) i1
2)复合抛物线求积公式 复合抛物线求积公式具有比复合梯形求积公式更快的收敛
0。 5
6
(3)取7个点 Cotes系数为41/840,9/35,9/280,34/105,9/280, 9/35,/41/840
1
xdx0.430964 0.5
• 复合求积公式
对于一个求积公式,我们要求它们的算法稳定并收敛,但不幸
的是 Newton—Cotes 求积公式并不稳定,在某些情况下计
计算结果为:X=1.8645,即有95%的人身高在1.86以下。
例3.1.7:设某车站7:00到7:05分等车人数为服从泊松分布的随 机变量X,均值为5。求 1)人数小于等于12发生的概率。 2)人数大于等于8发生的概率。 3)计算上侧概率为0.05的分位点。 解:本题利用分布函数进行计算
1)小于12的计算公式为:F(1)2P(X1)212e55i i1 i! P = poisscdf(12,5) % 小于12的概率 计算结果为:P=0.998 2)大于8的计算公式为:1-F(8)
例3.1.3: 对男性大学生随机抽检,共抽400名大学生测量其身高。 将身高区间(1.50, 2.1)分划分成若干段,计算每段学生身高的数 量,并作直方图。
% 第三章,例3.1.3 R = normrnd(1.7,0.1,400,1); % 产生正态分布的随机数 histfit(R,12) % 作直方图并建立拟合曲线
I a b f ( x ) d n i x 0 1x x ii 1f ( x ) d n i x 0 1 ( x i 1 2 x i) (f ( x i) f ( x i 1 ))
h
n 1
2(f(a)f(b)2i 1f(ai)h )T n
Tn 称为复合梯形公式。为便于按迭代计算,在原有的分划基 础上把区间分为 2n 等分,每个小区使用梯形公式,则有
(三)下侧概率、上侧概率和分位点 下侧概率的定义:
x
F(x)P(Xx) p(x)dx
上侧概率的定义:
1F (x)P (Xx)xp(x)dx
利用分布函数我们可以计算随机变量X落在某一范围的概率, 或者说我们掌握了该随机变量的规律了。例如随机变量X小于分位 点的概率即下侧概率,大于分位点的概率即上侧概率。而随机变量 落入x1和x2之间的概率可用以下公式计算。
其基本思想是,用简单函数来代替复杂的被积函数。例如在被
积函数的定义域内选一系列的点。
x0, x1,, xn
然后求在该点处的函数值
f(x0),f(x1) , ,f(xn)
定义插值多项式如下:
n
Ln(x) li(x)f(xi) i0
(3.1.2)
其中
li(x)(xxin) 1(n'x)1(xi)
这里
算不收敛。
例3.1.3 讨论函数
f
(x)
1 (125x2)
在区间[-1,1],用Cotes系
数计算的收敛问题。
1
1
1(125x2)dx0.54936
如用 Newton-Cotes 求积公式,则在该区间不收敛。请见以 下结果
n=1时 NC=0.07692
n=2时 NC=1.35897
n=10时 NC=0.93466 n=40时 NC=-4912.42
例3.1.2 利用梯形、抛物线及Newton—Cotes求积公式
1
(n=7)计算
xdx
0。5
解:(1)梯形求积公式
Cotes系数为1/2,1/2, hba
1
1/2
xdx ( 0.51)0.4267767
0。 5
2
(2)抛物线求积公式 Cotes系数为1/6,4/6,1/6
1
1/2
xd x ( 0.540.7 51)0.4309
(2)设X服从均值为5的泊松分布,作分布律和分布函数图形。
X=0:10; Y = poissinv(X,5); Y1= poisscdf(X,5) subplot(1,2,1),stem(X,Y),title('泊松分布律') subplot(1,2,2),stairs(X,Y1),title('泊松分布函数')
其中, Ai a li(t)dt
(3.1.7)称为Newton—Cotes型积分公式, 而Ai 为Cotes系数,其误差为
b
E a Rn(t)dt
这样我们就将一个复杂的积分问题,近似地用代数和的形式来
代替了。关于计算的精度我们可以通过 E 来估计。目前一些
数学软件如Mathematica等,可以方便地获取Cotes系数,
P(1.6<X<1.8)=F(1.8)-F(1.6) % 例 3.1.6 计算身高小于1.8米大于1.6米发生的概率 P = normcdf(1.8,1.7,0.1)- normcdf(1.6,1.7,0.1)
计算结果为:P=0.6827
X = norminv(0.95,1.70,0.1) % 计算下侧概率的分位点
大学生男性身高X、随机抽一个大学生量其身高得随机变量的 一个实现,例如x=1.75米。则X是一个连续型的随机变量。这种 随机变量服从正态分布。正态分布是统计分析中极其重要的分布。
(2)离散型随机变量 当一个随机变量X的结果空间有有限个元素或可列个元素时,
称该随机变量为离散型随机变量。
例3.1.2 离散型随机变量的例
从例3.1.3可以看出,大学生身高的一些特点。
1)首先身高在平均值附近的人数特别多。
2)从直方图中我们可以看出身高的趋势具有对称性。
3)离平均值越远数量越少。
这是典型的正态分布的特点。可以想象当我们抽样量增大应该 有一个理论函数作为极限。
• 密度函数(inv)
称这个理论函数为连续型随机变量的密度函数,上图中的红线所显 示的就是密度函数的图形。在MATLAB这密度函数用inv来表示。
P = poisscdf(12,5) % 小于12的概率
3) 按题义命令为:
x=poissinv(0.95,5) 计算结果为:x=9
2、分布函数的一般计算方法
(一) 积分计算的一般方法 分布函数的一般形式为:
x
F(x) f(x)dx
问题实际归为求积分,
(3.2.1)
b
a f (x)dx
当密度函数非常复杂或用解析方法不能积分时,我们常常使用 数值积分的方法来处理。
1、密度函数和分布函数
密度函数和分布函数是反映随机变量的总体规律的函数,当 一个变量X在没有抽样之前不知会有什么结果,但结果的范围是 知道的,这样的变量称为随机变量。随机变量可以分为: (1)连续型随机变量 (2)离散型随机变量 (1)连续型随机变量 随机变量的结果空间是实数,例如服从(0,1)上的均匀分布随 机数、人体身高随机数等。 例3.1.1 续型随机变量的例子:
设平均值为5,算出0到10的分布律
X=0:10;
Y = poissinv(X,5); % 计算泊松分布每点的概率
stem(X,Y)
% 作分布律图形
(二)分布函数cdf
分布函数是对密度函数进行积分,其表达式为:
连续型
x
F(x)P(Xx) p(x)dx
n
离散型
F(x)P(Xx) pi(xi)
i0
设某汽车站7点到7点05分等车的人数为一变量X,显然X可取 值0,1,2,3,…。则X是一个离散型的随机变量。事实上这种随 机变量称为服从泊松分布规律的随机变量。
投一硬币,正面为1,反面为0。记该随机变量为X,则其结果 空间为{0,1}。也是一个离散随机变量。
(一)密度函数和分布律
随机变量X在没有发生时我们不知到,也不能预测其结果,看 似随机变量没有规律。但是我们进行大量抽样或实验时,却可以看 见明显的规律。
,即当 f ( x) 是不高于 n 阶的多项式时,有
f(x)Ln(x)
对(3.1.3)两边积分,我们有
b
n
b
b
f(t)d t
a
f(xi)ali(t)d taR n(t)dt
i 0
(3.1.5)
从而我们可以得到积分的一般近似公式 :
b
n
f(t)dt
a
Ai f(xi)
i0
( 3.1.7)
b
显然 Newton—Cotes 求积公式有致命的弱点。
为改善求积公式,我们使用复合求积公式。其基本思想是 把积分区间分成若干小区间,每个小区间中用次数不高的插值 多项式近似逼近。
1)复合梯形求积公式 对区间[a, b]n等份,基点 x i a i,i h 0 , 1 ,2 , ,n ,h ( b a ) /n 对每个小区间用梯形求积公式,则
红色折线为拉格朗日插值 f(x2) 多项式
f(x4)
x0
x1
x2
x3
x4
l 代数精度概念
定义 3.1.1 若某个求积公式对于小于等于n 的多项式均能准确 地成立,但对n+1次多项式则不能。则称该求积公式具有n次 代数精度。
例3.1.1 梯形求积公式
b
b a
af( t) d t2[f( a ) f( b ) ] A 0 f(x 0 ) A 1 f(x 1 )
当 f(x)1时,左边=右边。准确地成立。
当 f(x)x 时,也准确成立。
b td b 2 ta 2 , b a [ f ( a ) f ( b ) ] b a ( a b ) b 2 a 2
a
22
2
2
当 f(x) x2 时
bt2dtb3 a3
a
3
,而
ba(a2b2)b3a3
2
3
所以梯形求积公式具有一次代数精度。
P ( x 1 X x 2 ) F ( x 2 ) F ( x 1 )
例3.1.6:男性大学生身高X的平均值为1.7米,标准差为0.1米。 1)计算身高小于1.8米大于1.6米发生的概率,即随机变量X落入 区间(1.6, 1.8)的概率。 2)求下侧概率为0.95的分位点。 解:本题利用分布函数进行计算
分布函数函数具有以下性质:
1)对任意x有
0F(x)1
2)单调不降,
x 1 x 2 F (x 1 ) F (x 2 )
利用分布函数我们可以计算随机变量X落在某一范围的概率, 或者说我们掌握了该随机变量的规律了。
例3.1.5:分别作出连续型和离散型随机变量的inv和cdf
(1)设男性大学生的身高X的平均值为1.7米,标准差为0.1米。 作密度函数和分布函数。利用MATLAB中的正态分布norminv和 normcdf命令进行计算
正态分布的密度函数 p 表达式为:
p(x)
1
x2
e 22
2
其百度文库参数:
:为平均值。是随机变量中心趋势的描述。
:为标准差。是随机变量离散程度的描述。
• 分布律(inv) 对于离散型随机变量,分布律相当于连续型随机变量的密度函数。 例3.1.4:作泊松分布随机变量的分布律图形。
p(x|)x e
x! 这里 为参数,表示随机变量的平均值和方差。
n 1 ( x ) ( x x 0 )x (x 1 ) ( x x n )
n '( x i ) ( x i x 0 ) ( x i x i 1 ) x i ( x i 1 ) ( x i x n )
Ln ( x) 称为拉格朗日插值多项式,其具有以下性质:
1) L n (x i) f(x i)i 0 ,1 ,2 , ,n。
第三章 分布函数的计算
1、密度函数和分布函数 2、分布函数的一般计算方法 3、标准正态分布的计算方法 4、统计工具箱的各种分布计算 5、统计推断原理 6、非参数统计分析 7、习题
分布函数的计算在整个信息统计分析应用中起着基础性的作用, 当我们建立了某个统计模型后,会产生很多的统计量,用它们对某 个假设进行检验。这时必须知道这些统计量的分布,某一点的概率、 某概率的分位点。在学习概率论时我们已经知道用查表的方法进行 计算。本章介绍分布函数的计算方法,以及如何用MATLAB的统计 工具箱计算各种分布的概率与分位点的计算。
2) 在上点与点之间为线性函数。
显然有以下关系式成立:
f(x)L n(x)R n(x)
(3.1.3)
其中 Rn( x) 是误差函数。
可以证明,当 f ( x) 有n+1阶有界导数时,
R n(x)(n n 1(1 x ))!f(n 1)()
(a,b)
(3.1.4)
当 f(n1)(x)0 时, Rn(x)0
1 T2n 2(Tn Hn)
n
这里 Hnh f(a(2i1)h) i1
2)复合抛物线求积公式 复合抛物线求积公式具有比复合梯形求积公式更快的收敛
0。 5
6
(3)取7个点 Cotes系数为41/840,9/35,9/280,34/105,9/280, 9/35,/41/840
1
xdx0.430964 0.5
• 复合求积公式
对于一个求积公式,我们要求它们的算法稳定并收敛,但不幸
的是 Newton—Cotes 求积公式并不稳定,在某些情况下计
计算结果为:X=1.8645,即有95%的人身高在1.86以下。
例3.1.7:设某车站7:00到7:05分等车人数为服从泊松分布的随 机变量X,均值为5。求 1)人数小于等于12发生的概率。 2)人数大于等于8发生的概率。 3)计算上侧概率为0.05的分位点。 解:本题利用分布函数进行计算
1)小于12的计算公式为:F(1)2P(X1)212e55i i1 i! P = poisscdf(12,5) % 小于12的概率 计算结果为:P=0.998 2)大于8的计算公式为:1-F(8)
例3.1.3: 对男性大学生随机抽检,共抽400名大学生测量其身高。 将身高区间(1.50, 2.1)分划分成若干段,计算每段学生身高的数 量,并作直方图。
% 第三章,例3.1.3 R = normrnd(1.7,0.1,400,1); % 产生正态分布的随机数 histfit(R,12) % 作直方图并建立拟合曲线
I a b f ( x ) d n i x 0 1x x ii 1f ( x ) d n i x 0 1 ( x i 1 2 x i) (f ( x i) f ( x i 1 ))
h
n 1
2(f(a)f(b)2i 1f(ai)h )T n
Tn 称为复合梯形公式。为便于按迭代计算,在原有的分划基 础上把区间分为 2n 等分,每个小区使用梯形公式,则有
(三)下侧概率、上侧概率和分位点 下侧概率的定义:
x
F(x)P(Xx) p(x)dx
上侧概率的定义:
1F (x)P (Xx)xp(x)dx
利用分布函数我们可以计算随机变量X落在某一范围的概率, 或者说我们掌握了该随机变量的规律了。例如随机变量X小于分位 点的概率即下侧概率,大于分位点的概率即上侧概率。而随机变量 落入x1和x2之间的概率可用以下公式计算。
其基本思想是,用简单函数来代替复杂的被积函数。例如在被
积函数的定义域内选一系列的点。
x0, x1,, xn
然后求在该点处的函数值
f(x0),f(x1) , ,f(xn)
定义插值多项式如下:
n
Ln(x) li(x)f(xi) i0
(3.1.2)
其中
li(x)(xxin) 1(n'x)1(xi)
这里
算不收敛。
例3.1.3 讨论函数
f
(x)
1 (125x2)
在区间[-1,1],用Cotes系
数计算的收敛问题。
1
1
1(125x2)dx0.54936
如用 Newton-Cotes 求积公式,则在该区间不收敛。请见以 下结果
n=1时 NC=0.07692
n=2时 NC=1.35897
n=10时 NC=0.93466 n=40时 NC=-4912.42
例3.1.2 利用梯形、抛物线及Newton—Cotes求积公式
1
(n=7)计算
xdx
0。5
解:(1)梯形求积公式
Cotes系数为1/2,1/2, hba
1
1/2
xdx ( 0.51)0.4267767
0。 5
2
(2)抛物线求积公式 Cotes系数为1/6,4/6,1/6
1
1/2
xd x ( 0.540.7 51)0.4309
(2)设X服从均值为5的泊松分布,作分布律和分布函数图形。
X=0:10; Y = poissinv(X,5); Y1= poisscdf(X,5) subplot(1,2,1),stem(X,Y),title('泊松分布律') subplot(1,2,2),stairs(X,Y1),title('泊松分布函数')
其中, Ai a li(t)dt
(3.1.7)称为Newton—Cotes型积分公式, 而Ai 为Cotes系数,其误差为
b
E a Rn(t)dt
这样我们就将一个复杂的积分问题,近似地用代数和的形式来
代替了。关于计算的精度我们可以通过 E 来估计。目前一些
数学软件如Mathematica等,可以方便地获取Cotes系数,
P(1.6<X<1.8)=F(1.8)-F(1.6) % 例 3.1.6 计算身高小于1.8米大于1.6米发生的概率 P = normcdf(1.8,1.7,0.1)- normcdf(1.6,1.7,0.1)
计算结果为:P=0.6827
X = norminv(0.95,1.70,0.1) % 计算下侧概率的分位点
大学生男性身高X、随机抽一个大学生量其身高得随机变量的 一个实现,例如x=1.75米。则X是一个连续型的随机变量。这种 随机变量服从正态分布。正态分布是统计分析中极其重要的分布。
(2)离散型随机变量 当一个随机变量X的结果空间有有限个元素或可列个元素时,
称该随机变量为离散型随机变量。
例3.1.2 离散型随机变量的例
从例3.1.3可以看出,大学生身高的一些特点。
1)首先身高在平均值附近的人数特别多。
2)从直方图中我们可以看出身高的趋势具有对称性。
3)离平均值越远数量越少。
这是典型的正态分布的特点。可以想象当我们抽样量增大应该 有一个理论函数作为极限。
• 密度函数(inv)
称这个理论函数为连续型随机变量的密度函数,上图中的红线所显 示的就是密度函数的图形。在MATLAB这密度函数用inv来表示。
P = poisscdf(12,5) % 小于12的概率
3) 按题义命令为:
x=poissinv(0.95,5) 计算结果为:x=9
2、分布函数的一般计算方法
(一) 积分计算的一般方法 分布函数的一般形式为:
x
F(x) f(x)dx
问题实际归为求积分,
(3.2.1)
b
a f (x)dx
当密度函数非常复杂或用解析方法不能积分时,我们常常使用 数值积分的方法来处理。
1、密度函数和分布函数
密度函数和分布函数是反映随机变量的总体规律的函数,当 一个变量X在没有抽样之前不知会有什么结果,但结果的范围是 知道的,这样的变量称为随机变量。随机变量可以分为: (1)连续型随机变量 (2)离散型随机变量 (1)连续型随机变量 随机变量的结果空间是实数,例如服从(0,1)上的均匀分布随 机数、人体身高随机数等。 例3.1.1 续型随机变量的例子:
设平均值为5,算出0到10的分布律
X=0:10;
Y = poissinv(X,5); % 计算泊松分布每点的概率
stem(X,Y)
% 作分布律图形
(二)分布函数cdf
分布函数是对密度函数进行积分,其表达式为:
连续型
x
F(x)P(Xx) p(x)dx
n
离散型
F(x)P(Xx) pi(xi)
i0
设某汽车站7点到7点05分等车的人数为一变量X,显然X可取 值0,1,2,3,…。则X是一个离散型的随机变量。事实上这种随 机变量称为服从泊松分布规律的随机变量。
投一硬币,正面为1,反面为0。记该随机变量为X,则其结果 空间为{0,1}。也是一个离散随机变量。
(一)密度函数和分布律
随机变量X在没有发生时我们不知到,也不能预测其结果,看 似随机变量没有规律。但是我们进行大量抽样或实验时,却可以看 见明显的规律。