Lect3(北大统计与数据分析-统计抽样理论)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

为它们的乘积模型,记为:
类似地,可以给出 n个统计模型的乘积模型。特别地,n个相同 , Φ}的乘积模型称为重复抽样模型,记为 {Ω, F, , 统计模型 {Ω, F, Φ}n。
讨论:
乘积模型在实际中相当于独立观察系统,重复抽样模型相当于 对 个观测对象进行有限次独立抽样结果的描述。 对一个观测对象进行有限次独立抽样结果的描述。
n 1 n 1 2 2 2 1 t , n n n 2
t
并称T为服从自由度为n的t分布(又称Student分布),记为 T~t(n) ( )。
William Sealy Gosset (1876-1937) 英国化学家、数学家与统 计学家 以笔名Student发表了关于t 分布研究的工作。
Student分布的性质
(1)f(t)关于t = 0对称,是偶函数 (2)大样本性质:当n较小时,Student分布与标准正态分布 N(0, 1)差异较大;当n较大时,与N(0, 1)相似,且有
li m f ( t )
n
1 e 2

t2 2
Density of the t-distribution for 1, 2, 3, 5, 10, and 30 df compared to the standard normal distribution (blue).
x 0 x0
χ2(n)的分布函数
F (x)
, 2 2
n 2
n
x
n=1 n=2 n=3 n=4 4 n=5
χ2分布的性质
(1)可加性: 2 2 2 2 2 2 设 1 ~ ( n1 ) , 2 ~ ( n2 ) ,且 1 , 2 相互独立,则
——Elements of Sampling Theory and Methods
§3.1 3 1 统计抽样的基本概念
假设检验理论
统计学推断 的重要理论
参数估计理论 统计抽样理论 概率论
统计学和概率论之比较
(Image by MIT OpenCourseWare. Based on Gilbert, Norma. Statistics. W.B. Saunders Co., 1976.)
= P |
其中Θ为参数空间,则称此统计模型为参数统计模型。否则称 为非参数统计模型。
定义2
设{Ω, F, Φ}和{Ω’, F’, Φ’}为两个统计模型,则称
, F F ,
, F , , F ,

N
i 1
xi

N
i 1
xi N
总体方差(population variance): 1 N 1 N 2 2 ( xi ) ( xi2 2 ) N i 1 N i 1 总体标准差(population standard deviation):
s 2
小样本理论(小样本性质)
——对于任何样本量(即n有限),所讨论的统计量(即以某种 函数形式讨论的样本相关的特征)服从精确的概率分布 ——可能没有精确的数学形式,或者相当复杂而不易表达
大样本理论(大样本性质)
——当样本量n趋于无穷大时,小样本的某种统计量表现出一种 极限分布 ——可能具有易于表达的数学形式
《统计与数据分析》
Statistics & Data Analysis
§3 统计抽样理论
Zhu h Huaiqiu i i @Peking University
“任凭弱水三千,我只取一瓢饮。”
——《红楼梦》第91回
“窥一管而知全豹”
——中国成语
“首先要掌握事实,然后你可以随意歪曲 首先要掌握事实,然后你可以随意歪曲它们。” 它们。”
Student分布的性质
(3)t(n)分布的上α分位点: 对于给定的α,0<α<1,存在tα( (n) )使得 使得:
P t t ( n )

t ( n )
f (t ) d t
则称点tα(n)为t(n)分布的上α分位点,
tα(n)
α


t ( n )
f (t )dt 1
随机抽样的优点
随机抽样是按照概率来进行的,即总体中的任一个体都按照 某一特定的概率有可能被选择,产生的样本的组成因此是随 机的。 (1)可避免抽样者有意或无意的偏好; (2)以尽可能小容量的样本来实现对总体尽可能客观的统计 推断; (3)可较好地估计出由抽样方法带来的误差; (4)具有良好的可控制性,即可根据对抽样误差的要求来设 计样本的容量。
2
f ( x ) dx
则称点χ2α(n)为χ2(n)分布的上α分位点
χ2α(n)
二、t 分布(t distribution )
定义2
设X~N(0, X~N(0 1),Y~χ2(n),且 且X, X Y相互独立,则随机变量 相互独立 则随机变量
T
的密度函数为:
X Y /n
f (t )
n x 1 1 2 2 x e , x0 n n f ( x) 22 2 0, x0
n=1 n 1 n=2 n=3 n=4 n=5
n x 1 1 2 2 x e , n n f (x) 2 2 2 0,
抽样理论
工业化革命的直接产物:大规模制造要求标准化设计和制造, 对制造过程的质量控制直接诞生了统计抽样的思想和技术。
§3.1.3 总体参数
设总体X容量为N,个体取值为 个体取值为{xi},i=1, 1 2, 2 …, N。定义: 定义
1 总体均值(population mean): N
总体总值(population total):
populationdistribution小样本理论小样本性质小样本理论小样本性质对于任何样本量即n有限所讨论的统计量即以某种对于任何样本量即n有限所讨论的统计量即以某种函数形式讨论的样本相关的特征服从精确的概率分布可能没有精确的数学形式或者相当复杂而不易表达大样本理论大样本性质当样本量趋于无穷大时小样本的某种统计量表现出一种当样本量n趋于无穷大时小样本的某种统计量表现出一种极限分布可能具有易于表达的数学形式分布32132122ttff分布分布分布chisquaredistribution定义定义1定义定义1设总体x服从标准正态分布n01其随机样本x的个体集合即每个随机变量n的密度函数的密度函数n的密度函数的密度函数n的分布函数的分布函数n的分布函数的分布函数22分布的性质分布的性质22分布的性质分布的性质1可加性
2 X 1 2 X 2 1 x n n f (x) 2 2 2 0,
e

x 2
,
x 0 x 0
并称该函数服从自由度为n的χ2分布,记为χ2~χ2(n)。
χ2(n)的密度函数
统计量
自然总体 自然样本 测量样本
测量总体 描述性 统计量 置信区间 μ
X
随机抽样(random sampling)简称抽样:
——从总体X中按照一定的概率抽取若干个体来观察X的取值。 ——Results Results from probability theory and statistical theory are employed to guide practice of sampling.
【Example 3.1】大肠杆菌E. coli K-12(Escherichia coli K-12 MG1655)
基因GC含量的统计分析:大肠杆菌E. coli K-12是被广泛研究的模式生物, 其基因组长4,639,221个核苷酸(分别由4种核苷酸构成,胞嘧啶(C)、 鸟嘌呤(G)、腺嘌呤(A)、胸腺嘧啶(T)),包含4,289个编码蛋白 的基因。GC含量是分析DNA序列的一个常用的量,在基因组比较、基因 组演化、以及基因结构预测等问题中,GC含量都是一个非常重要的特征 值。现以每个基因的GC含量(%)为个体的观测值。以全部的4,289 , 个编 码基因的GC含量构成一个总体。
n 1 n1 t 2 2 2 f (t ) 1 , n n n 2
t
n=1 n=4 n=8 n=12 N(0, 1)
t(n)的密度函数
n n n
n=1 n=2 2 n=5 n=10 n=+∞
t(n)的分布函数
§3.1.1 统计模型和统计抽样模型
定义1
设{Ω, F}为可定义概率函数的可测空间, 为可定义概率函数的可测空间 Φ为其上的一个概率分 为其上的 个概率分 布族,则称三元组{Ω, F, Φ}为统计模型(statistical model)或 统计结构(statistical structure)。 若分布族Ф取决于某一参数向量θ,即
N=4289;μ=51.01;σ2=23.91;s=4.89
§3.2 3 2 正态总体的小样本理论
本质:正态总体的小样本
S Sample: l X1, X2, …, Xn
Random sampling independently with replacement
Population distribution
§3.1.2 抽样设计
统计学的基本思想: 统计学的基本思想 :总体——样本——总体
{Xi} X, ,Θ
~ Θ
抽样设计:
对一个存在的测量总体(称为简单总体),指定一种从中抽 取测量样本(称为简单样本)的推断方法。
Sampling is that part of statistical practice concerned with the selection of individual observations intended to yield some knowledge about a population of concern, 推断性 especially for the purposes of statistical inference.
α
三、F 分布(F distribution )
定义3
设U~χ2(n), V~χ2(m),且U, V相互独立,则随机变量 U /n F V /m 的概率密度函数为: n n 2 1 n m n ( ) y 2 2 m , y 0 nm f ( y) n m ny 2 ( ) ( ) 1 2 2 m 0, y 0 并称F为服从自由度为(n, m)的F分布,记为F~F(n, m)。
§3.2.1 χ 2、t、F分布
一、χ2分布(Chi-square distribution )
定义1
设总体X服从标准正态分布N(0, 1),其随机样本(X1, X2, …, Xn)为 无放回抽取、相互独立的个体集合,即每个随机变量 无放回抽取 相 独 的个体集合 即每个随机变量Xi (i=1, , …, , n)也符合标准正态分布。则函数
随机样本(random sample)简称样本:
——按照一定的概率从总体X={xi},i=1, 2, …, N中抽取作为 总体代表的若干个体的集合{X1, X2, …, Xn}, n<N,称为容量 为n的样本。
X
{Xi} i=1, i 1 2, 2 …, n
随机样本的讨论
(1)构成某一样本的每一个体都必须取自某一特定的统计总 体,不允许该总体之外的个体计入该总体的样本; (2)样本个体的抽取应是按一定的概率进行的,而具体样本 的产生应是随机的,因此必须排除人的主观因素对样本个体 抽取和样本生成的干扰; (3)样本是总体的代表,带有总体的概率分布信息,因而能 够推断总体的概率分布规律;然而,样本只是总体的一个子 集,且具有随机性,故由样本去推断总体会产生代表性误差。
12 22 ~ 2 (n1 n2 )
(2)若χ2~χ2(n),则其期望值(均值)与方差为: E 2 ( n) n
D 2 ( n) 2n
χ2分布的性质
(3)χ2(n)分布的上α分位点:对于给定的α,0<α<1,存在χ2α(n) 使得 使得:
2 P 2 ( n)
n n 1 n 2 (n m ) y2 2 m , nm f ( y) n m ny 2 ( ) ( ) 1 m 2 2 0,
(Get your facts first, then you can distort them as you please)
——Mark —— Mark Twin
“Our behavior, behavior attitudes, attitudes and sometimes actions are based on samples.”
相关文档
最新文档