数理统计第四章

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第4章数据汇总

这一章，我们介绍数据的描述和汇总方法.这些方法大部分以图

形的方式展示数据，也可以用其揭示数据结构.在不使用随机模型的

情况下，这些方法可以达到描述性分析的目的.如果考虑随机模型，

那获得的数据n x ,,x ,x 21，在一些情形下将它们视为独立同分布的n 个

随机变量n X ,,X ,X 21的实现.

我们首先讨论经验累积分布函数等，这些方法可以用于展示数据

值的分布。接着，我们讨论直方图和相关的图形，它们扮演着随机变

量的概率密度的角色，从另一角度展示数据值的分布.我们还将介绍

数据的简单汇总，比如用以代表数据中心的样本均值、中位数等，用

以量化数据分散程度的样本标准差等，这些统计量比直方图等图形提

供了更加浓缩的汇总信息.接着将介绍箱线图，它通过一种简单的图

形方式将中心值、散度和分布形状等信息汇总起来.最后介绍散点图，用以揭示变量相关性的信息.

§4.1 基于累积分布函数的方法

经验累积分布函数

设n x ,,x ,x 21是一组数据，经验累积分布函数(empirical cumulative

distribution function,ecdf)定义为 }{1x x #n

)x (F i n ≤=

显然)x (F n 是阶梯形的右连续的函数.

例4.1（见P261）

如果要进一步讨论经验累积分布函数的统计性质,那必须置于随机

模型下去讨论.

数据n x ,,x ,x 21视为简单随机样本n X ,,X ,X 21的实现,它们公共的

分布函数为)x (F (一般假定)x (F 是连续型分布).样本n X ,,X ,X 21的经

验累积分布函数定义为 }{1x X #n

)x (F i n ≤=

对于任意给定的实数x ,)x (F n 是一个随机变量,并且)x (nF n ～

))x (F ,n (B ,从而 (x))(F E n F(x)))x (V (E n n ==1,

(x))F (Var n n

))x (F -)(x (F ))x (V (Var n n 112==. 可见, )x (F n 是)x (F 的无偏估计,且∞→n 时0(x))F (Var n →,从而知)x (F n 是)x (F 的相合估计. 关于)(x F n 还有更强的结论：

定理（格里汶科）对于任意的自然数n ，设n X X X ,,,21 是来自总体分

布函数)(x F 的一个样本，)(x F n 为其经验分布函数，记

|)()(|sup x F x F D n x n -=+∞

<<∞-，则有

1)0lim (==∞

→n n D P 该定理表明，经验分布函数)(x F n 会一致地强收敛于总体分布函数)(x F .这也说明用经验分布函数)(x F n 推断总体分布函数)(x F ，用样本各阶矩（即)(x F n 的矩）去推断总体的矩等是合理的，是有理论依据的.

生存函数

随机变量T 的生存函数定义为

)t T P()t (S >=

设随机变量T 的分布函数为)t (F ，那么生存函数)t (F -)t (S 1=，两者给出的信息是等价的.在应用中，对于寿命数据（一般是非负的），通常分析

生存函数而不是分布函数.若样本的经验分布函数为

)t (F n ，那么经验生存函数为

)t (F -)t (S n n 1=

例4.2(见P262)

生存函数与危险函数有联系.危险函数定义为 )

t (F -)t (f )t h(1= 其中)t (F ),t (f 分别为T 的密度函数和分布函数.

也即 )t (S dt

d -)t (S )t (f )t h(ln == 为了看清危险函数的统计意义,我们考查元件在使用了t 时间还未失效

的条件下,在接下来的时间段

]t ,t ∆+（内失效的条件概率 )t t |t T t (P >∆+≤<

假设密度)t (f 在t 处连续,那么有 t)P(T )t T P(t )t t |t T t (P >∆+≤<=

>∆+≤< )

t (S )t (f )t (F -)t (F -)t (F ∆≈∆+=1 因此 ∆

>∆+≤<≈

)t T |t T t (P )t (h 或 ∆>∆+≤<=→∆)t T |t T t (P )t (h 0lim 可见危险函数可以视为t 时刻还正常的元件的即时失效率,或t 时刻还存活的个体的即时死亡率.

例如,考虑指数分布

t e )t f(λλ-=

t e -)t F(λ-=1

t e )t S(λ-=

λ=)(t h

即时失效率为常数.如果用指数分布来描述元件的寿命,那么元件的失效的概率不依赖于它的年龄,这是指数分布的“无记忆性”.另一种模型具有U 型的危险函数,由于制造过程中的瑕疵很快凸显出来,新的元件具有较高的失效率;中间年龄段元件的失效率降低,接着,随着磨损的出现,旧元件的失效率开始增加.

设寿命样本值为n t ,,t ,t 21.由于它们是连续随机变量,可以假定它们

中没有相等的.该样本排序为)()2()1(n t t t <<< ,那么,如果（i)

t t =,则n i t F n =

)(,n

i t S n -=1)(.由于)(ln t S n 在n)t t （≥上没有定义,通常将其定义为11)(+-=n i t S n ,)1()(+<≤i i t t t . 考查经验对数生存函数的变异性是非常有用的.我们有 ))t (F -)t (F (n )]t (F -[))t (F -(Var t)S ))t (Var(S ))t (S (ar V n n

n n 1111ln 2===（当t 值较大时,)t (F -1很小, 经验对数生存函数的变异性非常大,极端的不稳定.因此,在实用中常需要剔除最后几个数据点

例4.3(见P265)

分位数-分位数图,即Q-Q 图

Q-Q 图可用来比较两个分布函数.这里假定分布函数是严格单调增加的连续型分布