数理统计第四章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4章 数据汇总
这一章,我们介绍数据的描述和汇总方法.这些方法大部分以图
形的方式展示数据,也可以用其揭示数据结构.在不使用随机模型的
情况下,这些方法可以达到描述性分析的目的.如果考虑随机模型,
那获得的数据n x ,,x ,x 21,在一些情形下将它们视为独立同分布的n 个
随机变量n X ,,X ,X 21的实现.
我们首先讨论经验累积分布函数等,这些方法可以用于展示数据
值的分布。接着,我们讨论直方图和相关的图形,它们扮演着随机变
量的概率密度的角色,从另一角度展示数据值的分布.我们还将介绍
数据的简单汇总,比如用以代表数据中心的样本均值、中位数等,用
以量化数据分散程度的样本标准差等,这些统计量比直方图等图形提
供了更加浓缩的汇总信息.接着将介绍箱线图,它通过一种简单的图
形方式将中心值、散度和分布形状等信息汇总起来.最后介绍散点图,用以揭示变量相关性的信息.
§4.1 基于累积分布函数的方法
经验累积分布函数
设n x ,,x ,x 21是一组数据,经验累积分布函数(empirical cumulative
distribution function,ecdf)定义为 }{1x x #n
)x (F i n ≤=
显然)x (F n 是阶梯形的右连续的函数.
例4.1(见P261)
如果要进一步讨论经验累积分布函数的统计性质,那必须置于随机
模型下去讨论.
数据n x ,,x ,x 21视为简单随机样本n X ,,X ,X 21的实现,它们公共的
分布函数为)x (F (一般假定)x (F 是连续型分布).样本n X ,,X ,X 21的经
验累积分布函数定义为 }{1x X #n
)x (F i n ≤=
对于任意给定的实数x ,)x (F n 是一个随机变量,并且)x (nF n ~
))x (F ,n (B ,从而 (x))(F E n F(x)))x (V (E n n ==1,
(x))F (Var n n
))x (F -)(x (F ))x (V (Var n n 112==. 可见, )x (F n 是)x (F 的无偏估计,且∞→n 时0(x))F (Var n →,从而知)x (F n 是)x (F 的相合估计. 关于)(x F n 还有更强的结论:
定理 (格里汶科)对于任意的自然数n ,设n X X X ,,,21 是来自总体分
布函数)(x F 的一个样本,)(x F n 为其经验分布函数,记
|)()(|sup x F x F D n x n -=+∞
<<∞-,则有
1)0lim (==∞
→n n D P 该定理表明,经验分布函数)(x F n 会一致地强收敛于总体分布函数)(x F .这也说明用经验分布函数)(x F n 推断总体分布函数)(x F ,用样本各阶矩(即)(x F n 的矩)去推断总体的矩等是合理的,是有理论依据的.
生存函数
随机变量T 的生存函数定义为
)t T P()t (S >=
设随机变量T 的分布函数为)t (F ,那么生存函数)t (F -)t (S 1=,两者给出的信息是等价的.在应用中,对于寿命数据(一般是非负的),通常分析
生存函数而不是分布函数.若样本的经验分布函数为
)t (F n ,那么经验生存函数为
)t (F -)t (S n n 1=
例4.2(见P262)
生存函数与危险函数有联系.危险函数定义为 )
t (F -)t (f )t h(1= 其中)t (F ),t (f 分别为T 的密度函数和分布函数.
也即 )t (S dt
d -)t (S )t (f )t h(ln == 为了看清危险函数的统计意义,我们考查元件在使用了t 时间还未失效
的条件下,在接下来的时间段
]t ,t ∆+(内失效的条件概率 )t t |t T t (P >∆+≤<
假设密度)t (f 在t 处连续,那么有 t)P(T )t T P(t )t t |t T t (P >∆+≤<=
>∆+≤< )
t (S )t (f )t (F -)t (F -)t (F ∆≈∆+=1 因此 ∆
>∆+≤<≈
)t T |t T t (P )t (h 或 ∆>∆+≤<=→∆)t T |t T t (P )t (h 0lim 可见危险函数可以视为t 时刻还正常的元件的即时失效率,或t 时刻还存活的个体的即时死亡率.
例如,考虑指数分布
t e )t f(λλ-=
t e -)t F(λ-=1
t e )t S(λ-=
λ=)(t h
即时失效率为常数.如果用指数分布来描述元件的寿命,那么元件的失效的概率不依赖于它的年龄,这是指数分布的“无记忆性”.另一种模型具有U 型的危险函数,由于制造过程中的瑕疵很快凸显出来,新的元件具有较高的失效率;中间年龄段元件的失效率降低,接着,随着磨损的出现,旧元件的失效率开始增加.
设寿命样本值为n t ,,t ,t 21.由于它们是连续随机变量,可以假定它们
中没有相等的.该样本排序为)()2()1(n t t t <<< ,那么,如果(i)
t t =,则n i t F n =
)(,n
i t S n -=1)(.由于)(ln t S n 在n)t t (≥上没有定义,通常将其定义为11)(+-=n i t S n ,)1()(+<≤i i t t t . 考查经验对数生存函数的变异性是非常有用的.我们有 ))t (F -)t (F (n )]t (F -[))t (F -(Var t)S ))t (Var(S ))t (S (ar V n n
n n 1111ln 2===( 当t 值较大时,)t (F -1很小, 经验对数生存函数的变异性非常大,极端的不稳定.因此,在实用中常需要剔除最后几个数据点
例4.3(见P265)
分位数-分位数图,即Q-Q 图
Q-Q 图可用来比较两个分布函数.这里假定分布函数是严格单调增加的连续型分布