中科院高等数理统计第一章

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章预备知识 1.1 样本空间与样本分布族随机实验：受偶然性因素影响，结果不确定。样本：通过观察或实验而得到的数据。注：虽然实际中，样本表现为一批已知数据，但它是受到随机影响的数据，从概率论的角度而言，样本是一随机变量，表现为已知数据的具体样本则是随机变量的观测值。样本分布：样本为随机变量，其概率分布称为样本分布。
定义 1.3.2：统计量T = T ( X ) 称为对θ 是辅助统计量(ancillary statistics)，若其分布与θ 无关。即对∀θ ，T 有同样的分布。例 1.3.6：设 X 1 , X 2 ,L X n i.i.d ~ U ( μ − θ , μ + θ ) ，
θ > 0 。定义统计量 Rn = X ( n ) − X (1) 称为样本极
数理统计的基本任务是通过实验来收集获取随机变量取值，利用观测到的样本数据对未知的参数θ 进行估计或做出某种判断。如何获取数据的阶段，涉及到抽样调查与实验设计等统计分支。有了数据之后，通过数据分析来做出某种判断阶段称为统计推断，一般包括参数估计、假设检验与置信区间(区域)，此即为本课程所要讲的内容。
n
此时称二元组 (X , A ) 为可测空间(measurable space), A 中的元素(集合)称为可测集。
1
定义 1.2.2：设可测空间(X , A )，定义在 A 上取值非负的函数 μ 称为测度(measure)，若对任意可数 ⎛ ⎞ 两两不交集列 { An } ⊂ A ， μ ⎜ U An ⎟ = ∑ μ ( An ) ⎝ n ⎠ n (称为σ -可加性)。此时三元组 (X , A , μ ) 称为测度空间(measure space)。如果X 能被可数个有有限测度的 An 所覆盖，则称 μ 为σ -有限的。例 1.2.1：（计数测度）(counting measure)设X 可数点集， A 为其所有子集的全体。∀A ∈ A ，μ ( A) 为 A中点的个数。
1.2 测度与积分测度是一维、二维或三维欧式空间中集合的长度、面积或体积概念的推广。定义 1.2.1:设全集为X ， A 为其一些子集构成的集合，称 A 为σ -域，若： 1) X ∈ A ； 2) A ∈ A ,则 Ac ∈ A ; 3)对至多可数集列{ An } ⊂ A ，则U An ∈ A 。
fT1 ( x,θ ) = n⎛ x⎞ 1− ⎟ θ⎜ ⎝ θ⎠
n −1
fT2 ( x,θ ) =
n⎛ x⎞ ⎟ θ⎜ ⎝θ ⎠
n −1
,0 ≤ x ≤ θ .
T1，T2 对θ 都不是辅助的。当 n 增加时( n → ∞ )，
T1的密度集中在 0 附近，而T2 的密度集中在θ 附
近，表明T2 比T1(对θ )含有更多的信息。
A
注：a.s.的含义是指并不是处处成立，但不成立的地方是一个测度为 0 的集合。个测度空间(Ω, A , P )，若满足 P(Ω) = 1，则称为概率空间， P 称为概率测度。 A 中的元素 A ∈ A 称为事件， P( A) 称为事件 A的概率。对于(Ω, A , P)上的可测函数 X (对直线上的任意 Borel 集 B ， X −1 ( B ) ∈ A )称为随机变量。特别取 B = (−∞, x]，则 P ( w : X ( w) ≤ x ) = P ( X ≤ x) = F ( x) 称为随机变量 X 的累积分布函数 (cumulative distribution function,cdf)，简称分布函数。由于随机变量 X 的分布函数与概率测度 P 对应，也称 P 为(随机变量 X )概率分布。
x∈ A ⎧1, , 定义 I A ( x) = ⎨ 0, otherwise ⎩ ∫ I A ( x)d μ ( x) = μ ( A)。对于示性函数的线性和，称为简
单函数，其关于测度 μ 的积分为相应的示性函数各自积分的线性和。从而对于一般可测函数 f ( x) ，由于可以写成简单函数的极限，其关于测度 μ 的积分定义为简单函数关于测度 μ 的积分的极限，记为 ∫ f ( x)d μ ( x) ，或者简记为 ∫ fd μ 。
型。
{
}
3
2.非参数族 F 中的分布不能通过有限个未知参数去刻划，此时可看成Θ = F 。例 1.3.2： F 为一切一维对称分布；或者 F 为一切期望、方差有限的一维分布。 3.半参数(semi-parametric)族(或部分参数族) 此名称产生较晚，约在上世纪 80 年代，用一个模型来说明。例 1.3.3：考虑一个以 X ( p 维变量)和T (一维变量)为协变量， Y (一维变量)为响应变量的均值回归模型
Fθ1 = Fθ2 。为避免此种情形，我们一般要求参
数是可识别的(identifiable)。定义 1.3.1：统计模型(Ω, A , Fθ ) ，θ ∈ Θ称为参数可识别的，若 Fθ1 = Fθ2 ⇒ θ1 = θ 2 。注：除非特别指明，本讲义所指的统计模型假定都是可识别的。
T ( X ) = X = ∑ X i / n 为统计例 1.3.4：设 X = ( X 1 ,L X n ) ，
θ ∈ Θ ，若 P θ << μ ，此时密度 fθ ( x ) 存在。对
每一样本 X ，有一分布密度 fθ ( x) ，称
LX (θ ) = fθ ( X ) 为 X 的似然函数 (likelihood
则T 也是统计 function)。此时令T ( X ) = LX ，量，即似然函数为统计量。但此时T 的值域空间不再是欧式空间了，而是一个函数空间。
dP 为随机变量 X (关 dμ
1.3 统计模型与统计量设概率空间为(Ω, A , P θ ) ，其中概率测度 P θ 是一族概率测度{ P θ : θ ∈ Θ}的某个未知成员。样本 X 为概率空间上的随机变量。数理统计的一个基本任务是利用观测到的样本数据对未知的参数θ 进行统计推断。因此，样本空间 Ω 连同赋予其上的样本分布族 (Ω, A , P θ )，
样本空间：所有可能的随机实验结果，即包含一切可能的样本值。通常用Ω 表示。事件：样本空间Ω 的子集。称事件 A发生，若真实结果 w ∈ A。若一个事件不包含任何实验结果，则称空集，记为φ 。数理统计研究的问题中，样本分布不是完全已知的，一般含有未知的参数θ ，且假定属于某个参数空间Θ (可以是抽象的集合)。这样就构成样本分布族。
μ ( A) = ∏ (bi − ai ) ，称为 Lebesgue 测度。
i =1
n
测度完备化：将测度扩张成所有测度为零的集合的子集的测度也为零，称为测度完备化。本讲义所涉及的所有测度都是σ - 有限的且经过完备化。
给定一个测度空间 (X , A , μ ) ，定义于 X 取值为 R 上的函数称为可测函数若对直线上的任 Borel 集 B ， {x f ( x) ∈ B} = f −1 ( B) ∈ A 。对于可测的示性函数 (indicator)
差，其密度为 n(n − 1) x n−2 ⎛ x ⎞ f Rn ( x) = ⎜1 − ⎟ ,0 ≤ x ≤ 2θ . n −1 (2θ ) ⎝ 2θ ⎠ 故 Rn 对 μ 来说是辅助的。
z 辅助统计量不含θ 的信息 z 统计量若含θ 的有用信息，其分布应与θ 有关； z 直觉上，当分布与θ 的相关程度增加时，所含θ 的有用信息也将增加。例 1.3.7：设 X 1 , X 2 ,L X n i.i.d ~ U (0,θ ) ，θ > 0。定义两个统计量T1 = X (1) ，T(2) = X ( n ) 。其密度分别为
E (Y X = x, T = t ) = α + xT β + g (t ) ，
其中α , β p×1未知，函数 g 定义在某区间上满足一定条件的未知函数。对此模型我们既关注α , β 的估计问题，又关注 g 的估计问题，因此兼有参数与非参数的特点。事实上也可看成参数空间 Θ = Θ1 × Θ 2 ，其中Θ1 ⊂ R r ，Θ 2 无限维。
Θ = θ = ( μ ,σ 2 )T −∞ < μ < ∞,0 < σ 2 < ∞ 。
θ ∈ Θ 构成一个统计问题的基本要素，它的确定或指
定，给予问题一个确定的统计模型。注：对于概率测度族 P θ ,θ ∈ Θ 都对应一个分布族
Fθ ,θ ∈Θ，故等价地可用(Ω, A , Fθ ) ，θ ∈ Θ表示统计模
单个样本的分布，也称为总体分布。 F = { Fθ ,θ ∈ Θ}也称为样本分布族。样本分布族 F 按其结构复杂性一般可以划分以下几类： 1.参数族 F 中的分布形式已知，但包含若干未知参数，此时 F = { Fθ ,θ ∈ Θ}，Θ ⊂ R r 为参数空间， r 称为统计模型的维数。例 1.3.1：正态分布族 N ( μ ,σ 2 ) ，参数空间
,0 ≤ x ≤ θ .
5
1.4 指数分布族(Exponential families)与群族 (Group families) 称分布族 Fθ ,θ ∈ Θ ⊂ R k 为 k 参数指数分布族若其联合密度(相对于测度 μ )有形式 ⎡ k ⎤ fθ ( x) = h( x)exp ⎢∑ ci (θ )Ti ( x) − d (θ ) ⎥ ， ⎣ i =1 ⎦ 其中 x 为 q × 1向量， h( x) 为非负可测函数。例 1.4.1：Binomial distribution B( n,θ )为单参数指数族分布，其密度函数为 ⎛n⎞ f ( x,θ ) = ⎜ ⎟θ x (1 − θ ) n− x , x ∈ {0,1,L n} ⎝ x⎠
可测空间(X , A )有两个测度 P, μ 。称测度 P 关于测度 μ 绝对连续，即 ∀A ∈ A ， μ ( A) = 0 ⇒ P ( A) = 0 ，记为 P << μ 。此时也称为 P 受控于 μ 。 dP Radon-Nikodym 定理：若 P << μ ,则存在 dμ dP 称为 P 关于 μ 的导数，且 (a.s. μ )。记 f = dμ 有 P( A) = ∫ f ⋅ I A d μ = ∫ fd μ ，∀A ∈ A 。
例 1.2.3：事件 A的示性函数 I A ( w) 关于测度 P 的积分 ∫ I A dP = P ( A) 即为事件 A的概率。随机变量 X (即为可测函数)关于测度 P 的积分 ∫ XdP = EX ，即为通常数学期望。若存在测度
μ 使得 P << μ ，则称 f =
于测度 μ )的概率密度。
对于一个统计模型(Ω, A , Fθ ) ， θ ∈ Θ，给定参数θ 也就确定了 Fθ 。但可能存在θ1 ≠ θ 2 ，但
给定一个统计模型 (Ω, A , Fθ ) ,θ ∈ Θ ,若T 为样本空间 Ω 到其值域空间(通常为欧式空间)上的不依赖于θ 的映射，则称T 为统计量(statistics)。注：常见的是欧式空间 R r ，此时统计量 T 为可测空间 (Ω, A ) 到 R r 上的不依赖于θ 的可测映射(即对 R r 上的任 Borel 集 B，{x T ( x) ∈ B} = T −1 ( B) ∈ A )。
例 1.2.2：（Lebesgue 测度）设X 为 n 维欧式空间 Rn ， A 是包含所有形如 A = {( x1 ,L, xn ) : ai < xi < bi ,1 ≤ i ≤ n}的开“矩形” 的最小σ -域，称为 Borel 域，记为B ( R n )。存在唯一的定义B ( R n ) 上的测度 μ 且在 A 上满足
T
n
i =1
量；设 X (1) ≤ X (2) ≤ L ≤ X ( n ) 为 X 1 , X 2 L X n 的排序
T ( X ) = ( X (1) , X (2) ,L X ( n ) ) 称为次序统计量 (order
T
statistics)。
4
例 1.3.5：对于一个统计模型 (Ω, A , P θ )，

中科院 高等数理统计 第一章

中科院高等数理统计第一章