§6.2_经验分布函数和频率直方图

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Pi=1/n,i=1,2,,n
所以,我们有必要研究随着样本的不同经验分布函 数会发生什么变化。也就是研究经验分布函数和总 体分布函数之间的关系。
定理6.2.1(格列汶科定理或Glivenko-Cantelli定理) 设F(x)是总体X的分布函数,Fn(x)是总体X的经验分 布函数,

Dn sup Fn (x) F(x)
(2)
n2h2
n2h2
n2 h2 nh
由p(x)在点x连续还知,当n

时,Efn (x)
p(x)

ER(tk , tk 1 ) nh

p(x)

tk 1 p( y)dy
tk

p(x)
p( )h
p(x)
p( )
p(x) 0
(3)
由(1-3)可知,结论成h 立。
h
作业2: 习题六的第2,3,4,5,6题,其中第6题还有求使用软件 来完成。
fn
(x)

m1 i0
Rn
(ti , ti1 ) nh
I[ti ,ti 1 )
(x)
0
x [t0 , tm ) 其它
用fn(x)作为密度函数p(x)的估计,这就是频率直方图法。
设(x1,…,xn)是得到的样本观测值,在实际使用时,我们往往用以下步 骤具体给出频率直方图
x (1)
x
x (2)
例 总体X,样本观察值1,2,2,2,3,3,3,4, 则经验分布函数为
0,
x 1;
F8 ( x) 14//88,,
1 x 2; 2 x 3;
7/8 ,
3 x 4;
1, x 4;
经验分布函数如右图所示:
关于经验分布函数,我们要注意一下几点:
由已知条件知,样本容量n充分大时,h ≤。设 x[tk,tk+1),对任给的>0,
P
fn (x)
p(x)

1
2
E
fn (x)
p(x)2
2 2
E fn (x) Efn (x)2 Efn (x) p(x)2
(1)
由于Rn(a,b)~B(n,pk),其中
河北 8362
浙江 14655
山西 5460
安徽 5221
内蒙古 6463
福建 12362
辽宁 12041
江西 5221
吉林 7640
山东 10465
黑龙江 9349
河南 5924
湖北 湖南 广东 广西 海南 重庆 四川 贵州 7813 6054 13730 4668 7135 5654 5250 2895
pk P
X [tk , tk1)

tk1 p( y)dy Kh
tk
所以当n

时,E
fn (x) Efn (x)2

E R(tk , tk 1 ) ER(tk , tk 1 ) 2
n2h2
DR(tk , tk 1 ) npk (1 pk ) npk K 0
0.032258 0.00000516
频率直方图如下图所示:
初步判断数据是来自什么样的总体? 这个例子中数据量相对来说比较少,一般情况下数据量最好大于100, 分组的个数根据数据量来确定,一般介于[n/10,n/5]之间,最多不能 超过20组。
定理6.2.2 密度函数p(x)在点x[t0,tm)处连续,样本容量为n,且
云南 西藏 陕西 甘肃 青海 宁夏 新疆 4866 5307 5024 4163 5735 5340 7913
解: 最小值为2895,最大值为37382,取a=2894.5, b=37382.5,将区间分成6等分,统计频数计算频率,得下表:
分组
频数 频率
频率/组距
[2894.5,8642.5) 21 0.677419 0.000118
p(u)du

p(x)(b a)
再次利用频率近似概率的思想,用Rn(a,b)表示样本(X1,X2,…,Xn)中落在[a,b)
的个数,那么 p(x) P X [a, b) Rn (a, b)
ba
n(b a)
这就引出了频率直方图。
依次给定m+1个实数t0<t1<…<tm,其中t1-t0=t2-t1=t3-t2=…=tm-tm-1=h>0. 令
ni/nh,i=0,1,…,m-1.
(3)以[ti-1,ti)(i=1,…,m)为底,fi为高作矩形,即频 率直方图。
例 下表为我国大陆各省、直辖市2001年人均国民生产总值 (万元),试做出频率直方图,从中判断数据大概是来自什 么样的总体?
北京 25523
上海 37382
天津 20154
江苏 12922
§6.2 经验分布函数和频率直方图
分布函数是随机变量的一个重要特征,既然总体可以用 随机变量来表示,而样本又可对总体的信息进行提取。因此, 怎样用样本(X1,…,Xn)估计总体X的分布函数F(x)?
任意给定自变量x,则 F(x)=P(X<x).
用事件{X<x)发生的频率作为其估计即可。这就引出了下面 所谓经验分布函数的概念。
(1)找出x(1),x(n),选择适当的a<x(1),b>x(n).(例如将x(1)缩 小半个刻度作为a,将x(n)放大半个刻度作为b)取m-1个分 点a=t0<…<tm=b,得到m个等分区间[ti-1,ti)(i=1,…,m)。ti-1称 为第i组的下组界;ti称为第i组的上组界;h=ti-ti-1称为组距 或步长。则每个数据都落在其中的一个小区间上。 (2)统计落在每一组上的频数ni=Rn(ti,ti+1) ;计算 fi=
• 经验分布函数是利用样本得到的,而样本是随机 向量,所以经验分布函数也是随机的。同一个总 体,即使是在相同的样本容量下,不同的样本也 会给出不同的经验分布函数;
• 对于给定的x,Fn(x)是一个随机变量,是事件 {X<x}在n重贝努里试验中发生的频率;
• 给定样本值后,经验分布函数就成为一个普通的 跳跃函数,而且恰好是一个离散型随机变量的分 布函数,该离散型随机变量的分布列为
lim h 0,lim nh ,则对任给 0,有
lim n
n
P fn (x) p(x) 0 (即fn ( x) P p( x))
n
证明:由p(x)在点x[t0,tm)处连续知其局部有界,即存在>0,K>0,使得对 y [x- ,x+ ]有p(y)≤K。
xR

lim P

n
Dn

0

1
二、频率直方图
如果总体X的分布函数F(x)有密度函数p(x),怎样利用样本(X1,X2,…,Xn)来刻 画这个密度函数?任意给定x[a,b),则当[a,b)区间比较短,而且p(u)在[a,b) 区间变化不大时,有
PX
[a, b)

b
a
一、经验分布函数 设X1,…,Xn是抽自总体X的一个样本,观察值为x1,…,xn, 次序观测值x(1)≤ …≤x(n),则总体X的经验分布函数定义为
Βιβλιοθήκη BaiduFn
(x)

样本中小于x的观测值的个数,x n

R.

0,
Fn
(x)

k

n
,
1,
x x(1) x(k ) <x x(k 1) ,k =1,L ,n-1 x x(n)
[8642.5,14390.5) 6
0.193548 0.0000337
[14390.5,20138.5) 1
0.032258 0.00000516
[20138.5,25886.5) 2
0.064516 0.0000112
[25886.5,31634.5) 0
0
0
[31634.5,37382.5) 1
相关文档
最新文档