描述性统计分析与探索性统计分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章 描述性统计
我们把对某一个问题的研究对象的全体称为总体,总体就是一个具有确定分布的随机变量.我们统计分析的目的是通过从总体中抽得的样本,对总体分布进行推断,要想较准确的推断出总体的分布,首先要对样本的分布状况有一个基本的了解,这一章就是介绍用以描述样本分布状况的一些常用统计分析方法,这些方法既直观又简单,而且也很实用.
1.1频数分析与图形表示
一、总体X 为只取少数个值的离散型随机变量 例1.1.1考察一枚骰子是否均匀,设计实验如下: 独立地掷这枚骰子42次,所得点数纪录如下:
3 2
4 1
5 1 5 3 4 3 5
6 4 2 5 3 1 3 4 1 4 3 1 6 3 3 1 2 4 2 6 3 4 6 6 1 6 2 4 5 2 6 X 为掷一枚均匀的骰子一次所得的点数
二、当总体X 取较多离散值或X 为连续取值时
设x x x n ,,21是总体X 的一组样本观测值,具体做法如下:
1
求出x )1(和x n )(,取a 略小于x )1(,b 略大于x n )(;
2
将区间[a ,b]分成m 个小区间(m <n ),小区间长度可以不等,分点分别为
a =t t t m <<< 10=b
注意:使每个小区间中都要有一定量的观测值,且观测值不在分点上。 划分区间个数的确定:
区间过少:分布信息混杂,丢失信息. 区间过多:出现很多空区间.
区间划分个数m 依赖于样本总数n ,理论上有如下两个公式可参考: Moore(1986) : m ≈C n 5/2,C = 1~3; Sturges(1928) : m ≈1+3.322(lg n );
3
用n j 表示落在小区间(t j 1-,t j ]中观测值的个数(频数)并计算频率f j =
n
n j (j=1,2,…,m );
4
在直角坐标系x-o-y 的x 轴上标出t t t m ,,,10 ,
分别以(t j 1-,t j ]为底边,以n j 为高作矩形,即得频数条形图。
例1.1.2下表是某大学总数为从352名学生的“普通统计学”考试的成绩中,随机抽取的60位学生的成绩
63 76 83 91 45 81 93 30 72 80 82 83 81 76 67 84 72 58 83 64 93 63 75 99 74 76 95 91 83 61 82 85 83 44 88 72 66 94 68 78 88 71 94 85 82 79 100 90 83 88 84 48 72 80 85 80 87 76 62 96 对上述数据作频数分析并画出条形图。
解 分析 区间个数:n =60 ,
用Moore 公式计算得C*5.123,这里C=1合适,取区间m = 6 用Sturges 公式计算得区间m = 6.907, 取区间m = 6
区间划分 10分一区间
重新划分
1.2直方图与经验分布函数
我们往往希望通过来自总体的一个样本能对总体X 的分布有一个大概的估计,常用的方法是直方图与经验分布函数. 一.直方图
直方图是利用样本所构造的函数来估计总体的分布密度函数.
设x x x n ,,21是总体X 的一组样本观测值,X 的分布密度为f .具体做法如1.1中的做法,只是:
4
在直角坐标系x-o-y 的x 轴上标出t t t m ,,,10 ,分别以(t j 1-,t j ]为底边,f j /
△t j 为高作矩形,△t j =t j -t j 1-(j =1,2,…,m ),即得直方图 用直方图来近似总体的分布密度函数的实质是:
用直方图所对应的分段函数
)(x n Φ=f j /△t j x ∈(t j 1-,t j ],j=1,2,…,m 来近似总体的分布密度函数f(x).
由于当n 充分大时可用X 取(t j 1-,t j ]的频率f j =
n
n j 来近似x ∈(t j 1-,t j ]的概率
即 f j ≈P (X ∈(t j 1-,t j ])(n 充分大) 而P (X ∈(t j 1-,t j ])=⎰
-t t dx x f j
j 1
)(,即
f j ≈⎰-t t dx x f j
j 1
)( 且当m 充分大,△t j 较小时,对x ∈(t j 1-,t j )时
⎰-t t
dx x f j
j 1
)(≈ )(x f △t j
故有 f j ≈)(x f △t j 即
)(x n Φ=f j /△t j ≈)(x f , x ∈(t j 1-,t j ],j =1,2,…,m 例1.2.1做出例1.1.2中考试成绩的直方图
二.经验分布函数
利用样本所构造的函数来估计总体X 的分布函数)(x F 。构造的方法如下:
从总体X 中抽取容量为n 的样本X 1,X 2,…,X n , x 1,x 2,…,x n 为样本观察值.将样本观察值从小到大排列得到x )1(≤x )2(≤…≤x n )(,对任意实数x ,令
)(x F n = ⎪⎩⎪⎨⎧≥<≤<+x x x x x x x n k n k k )
()1()()
1(,
1,,0
称)(x F n 为总体的经验分布函数(或样本分布函数).
经验分布函数图
由)(x F n 的定义可知(1))(x F n 单调、非降、右连续,在x = x k 处有间断点,在每一个间断点上的跳跃量都是
n
1,显然,0≤)(x F n ≤1且满足)(-∞F n = 0,)(+∞F n = 1 ,所以
)(x F n 是一分布函数,其图象如上。
(2)对于x 的每一个值,)(x F n 为样本X 1,X 2,…,X n 的函数,因而是一个随机变量,其可能取的值为0,n
1
,n 2
,…,
n
n 1-,1.事件“)(x F n =
n
k ”发生,意味着样本X 1,X 2,…,X
n
中有k 个X i s
小于等于x ,而其余n-k 个X i s
大于x ,即有k 个事件“X i s
≤x ”发生,而
有n-k 个事件“X i s
≤x ”不发生( 1≤i s ≤n ,1≤i s n -≤n ,s =1,2, …,n ).由于
X 1,X 2,…,X n 相互独立,具有相同的分布函数F(x)(总体X 的分布函数),于是事件“)(x F n =
n
k ”发生的概率等价于n 次独立试验中事件“X ≤x ”发生k 次,而其余n-k 次“X
≤x ”不发生的概率,即
P ⎭
⎬⎫⎩
⎨⎧
=
n k x F n )(=C k
n )](1[)]([x X P x X P k n k ≤-≤-=C k n )]
(1[)]([x F x F k n k -- (3)事实上,对于x 的任一个确定的值,)(x F n 是事件“X ≤x ”发生的频率,而F (x)=P(X ≤x)是事件“X ≤x ”发生的概率.于是由贝努里大数定理知,当n 足够大时,)(x F n 依概率收敛到F(x),即对任意给定的ε>0,有 lim ∞
→n P {|)(x F n -F(x)|>ε}=0
这一事实揭示了经验分布函数)(x F n 与总体分布函数F (x)的内在联系,即当样本容量n 足够大时,由样本得到的经验分布函数)(x F n 与总体分布函数F(x)相差较大的可能性是很