统计基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为了推断总体分布及各种特征, 一个可行的办法
是从该总体中按一定的规则抽取若干个个体进行观 察 和试验,以获得有关总体的信息 . 这一抽取过程称为 “抽样”, 所抽取的部分个体称为样本.
样本中所包含的个体数目称为样本容量.
从国产轿车中 抽5辆进行 耗油量试验。 样本容量为5。
由于抽样的目的是为了对总体进行统计推断, 为了使抽取的样本能很好地反映总体, 必须考虑抽样 方法.
样本方差
n 1 2 S2 ( X X ) i n 1 i 1
样本标准差
它反映了总体 方差的信息
S S2
1 n 2 ( X X ) i n 1 i 1
重要公式
(X
i 1
n
i
X ) X nX
2 i 1 2 i
n
2
n 1 2 2 2 S X i nX n 1 i 1
用随机的方法选取 例如 某厂生产一型号的合金材料, 100个样品进行强度测试,于是面临下列几个问题: 1、估计这批合金材料的强度均值是多少? (参数的点估计问题) 2、强度均值在什么范围内? (参数的区间估计问题) 3、若规定强度均值不小于某个定值为合格,那么这
批材料是否合格? (参数的假设检验问题)
(2) 独立同分布性 X 1 , X 2 ,, X n 是相互独立的随机变量. 其中每一个分量Xk与所考察的总体有相同的分布.
k 1,2,, n.
简单随机样本是应用中最常见的情形,今后当说到 “X1,X2,…,Xn是取自某总体的样本”时, 若不特别说明,就指简单随机样本.
简单随机样本可以用与总体独立同分布的n个相互
用定义证明T是充分统计量
例1 设 总体 X 服从两点分布B(1, p)
P{ X x} p x (1 p)1 x , 其中 0 p 1
( X1 , X 2 ,, X n )T
,即
x 0,1
是来自总体 X 的一个样本,证 明样本均值 X 是参数 p 的充分统计量 证明:由于 X ~ B(1, p), 易知 n X ~ B(n, p), 即
( 2)
非重复(无返回)抽样 X 1 , X 2 ,, X n
对有限母体, 取出样本后改变了母体的成分,所以
X 1 , X 2 ,, X n 不相互独立,
对无限母体而言做无返回抽取,并不改变母体的成分
X 1 , X 2 ,, X n
独立且同分布于母体
最常用的一种抽样方法叫作 “简单随机抽样”。 它要求抽取的样本满足下面两点: (1) 代表性(随机性): 从总体中抽取样本的每一个 分量Xk 是随机的, 每一个个体被抽到的可能性相同。
抽样和抽样分布
一、总体与样本 二、统计量 三、几个常用的分布 四、正态总体统计量的分布
1.总体
一 总体和样本
研究对象的某项数量指标值全体称为总体(母体)
总体
总体 …
研究某批灯泡的质量
考察国产 轿车的质量
个体——总体中每个成员(元素)
2. 样本 在实际问题中, 要考察整个总体往往是不可能的, 因为它需要耗费太多的资源和太多的时间. 有些 破坏性的试验更是不允许对整个总体进行考察. 考察某工厂生产的灯泡寿命 考察某型号手机的质量 考察吸烟和患肺癌的关系
4. 样本的分布
1)样本的频数分布
将n个样本值 按从小到大排列,把相同 的数合并,并指出其频数(样本中各数出现的次数) x 频数
频率
1)样本的经验分布函数 样本值 样本值小于或等于x的个数,作
---样本的经验分布函数
给出了在n次独立重复试验中,事件 出现的频率,具有分布函数的一切性质。如: 非降,右连续;
xi
n
n
xi
n
与p无关,所以X 是p的充分统计量
n
样本k 阶中心矩
它反映了总体k 阶 中心矩的信息
k 1,2,
常见统计量的性质
(1) E ( X ) E ( X ) n n 1 1 E ( X ) E ( X i ) E ( X i ) n i 1 n i 1 E( X ) D( X ) (2) D( X ) n n 1 n 1 D( X ) D( X i ) 2 D( X i ) n i 1 n i 1 1 D( X ) 2 nD( X ) n n
n x
这就是著名的格列汶科定理.
格列汶科定理的优缺点
1、当样本容量n足够大时,对所有的x, Fn(x) 与F(x)之差的绝对值都很小,且这件事发生的 概率为1.
sup | Fn ( x) F ( x) | 2、Fn(x)是一统计量,则 x 也是一统计量,用来表示Fn(x) 与F(x) 的最大差 异,且概率为1的收敛于零。
证 左边=
X
i 1 n
n
2 i
2Xi X X
n i 1
2
2
X 2 X X i nX X i2 2n X X nX 2 X nX
i 1 2 i i 1 n 2 i 1 n 2 i
它反映了总体k阶矩 的信息
样本k 阶原点矩
1 k Ak X i n i 1 1 n k Bk ( X i X ) n i 1
独立的随机变量 X 1 , X 2 ,, X n 表示.
若总体X的分布函数为F x , 则其简单随机样本的 联合分布函数为
F *n (x1 , x2 ,, xn)=F x1 F x2 F xn F xk
若总体X的分布密度函数为 f x , 则其简单随机样本的 联合密度函数为 f * ( x1 ,, x n )
P{lim sup | Fn ( x) F ( x) | 0} 1
n x
sup | Fn ( x) F ( x) | 3、定理没有给出 的分布或极限分 x 布 这就是我们可以由样本推断总体的基本理论依据
定理:样本均值以概率收敛于EX,样本方差 以概率收敛于总体方差DX,样本矩以概率 收敛于总体矩
由频数分布知
若样本为n维r.v,那么对于每一样本值 就可作一个经验分布函数,故 是随机变 ---n次独立重复试验中,事件 量
发生的频率。
由伯努利大数定律,
格列汶科进一步证明了:当n→∞时,Fn(x) 以概率1关于x一致收敛于F(x),即
P{lim sup | Fn ( x) F ( x) | 0} 1
D X
例2 设
体 (1) (2)
是来自总体 的
阶矩
的一样本,总
存在,证明
证
独立且与
同分布 同分布
独立且与
由辛钦大数定律,知
充分统计量与完备统计量
充分统计量 定义:设 X 1 , X 2 ,, X n是来自总体X具有分布函数
F ( x, )的一个样本 T ( X1, X 2 ,, X n )为一统计量,
第二章
数理统计的基本概念
数理统计
数理统计可以分为两大类:
以获取有效的随机数据。 一类是如何合理地安排试验,
-------描述统计学如:试验设计、抽样方法。 另一类是研究如何分析所获得的随机数据, 对所研究 尽可能地为 的问题进行科学的、合理的估计和推断, 作出精确而可靠的结论. 采取一定的决策提供依据, 如:参数估计、假设 检验等。 -------推断统计学,
( x )2 2 2
(2)总体X的概率密度为
1 f ( x) e 2
, x
样本的联合概率密度为
f * ( x1 , , xn ) f ( xi )
n
Leabharlann Baidu
1 e 2
i 1
n
1 2
2 x 2 i i 1
n
3. 总体、样本、样本值的关系 事实上我们抽样后得到的资料都是具体的、确定的值 . 它们是样本取到的值而不是样本. 我们只能观察到随机变量取的值,而见不到随机变量.
总体分布决定了样本取值的概率规律,也就是样本 因而可以由样本值去推断总体. 取到样本值的规律,
统计是从手中已有的资料--样本值, 去推断总体的情况--总体分布F(x)的性质. 样本是联系二者的桥梁
P{n X k} C p (1 p) ,
k n k
n k
k 0,1,, n
当已知 xi k ,
i 1
n
的条件概率 k P{ X 1 x1 , X 2 x2 ,, X n xn | X } n k P{ X 1 x1 , X 2 x2 ,, X n xn , X } n k P{ X } n
二 统计量
注: g ( X 1 , X 2 ,, X n ) 是随机变量的函数仍为随机变量。 g ( x1 , x2 ,, xn ) 便是一个数。
注:统计量是随机变量。
例1
为来自总体的样本
未知,
已知,判断下列函数哪些是统计量。
2. 几个常见的统计量
X 1 , , X n是来自总体X的一个样本, n 它反映了总体 1 样本均值 X Xi 均值的信息 n i 1
4、这批合金的强度是否服从正态分布? (分布检验问题) 5、若这批材料是由两种不同工艺生产的,那么不同 的工艺对合金强度有否影响?若有影响,那一种工艺
生产的强度较好? (方差分析问题)
6、若这批合金 由几种原料用不同的比例合成,那么
如何表达这批合金的强度与原料比例之间的关系? (回归分析问题) 我们依次讨论参数的点估计、区间估计、假设检验、 方差分析、回归分析 下面引入一些数理统计中的术语。
N k 1
n
f (x )
i i 1 (i )
n
离散总体 X ~ P( x (i ) ) P( X x ) 则样本的分布列
Pn * (x1 , x2 ,, xn) P xk
k 1
例1 对下列总体分别求出样本的联合分布
(1) X ~ b(1, p);
(2) X ~ N ( , 2 )
当给定 T t 时,若样本 ( X1, X 2 ,, X n ) 的条件分布与参数 无关,则称 T 是 的 充分统计量
T
充分统计量含义
样本中包含关于总体分布中未知参 数的信息,是因为样本的联合分布与参 数有关。对统计量T,如果已经知道它的 值以后,样本的条件分布就与参数无关。 即在统计量T中包含了参数的全部信息。
k X n
T ( X , X , , X ) 时,样本 1 2 n
P{ X 1 x1 , X 2 x2 ,, X n k xi }
i 1
n 1
k P{ X } n
p i1 (1 p) i1 k k nk Cn p (1 p) 1 k Cn
统计中,采用的抽样方法是随机抽样法,
即子样中每个个体是从母体中随意地取出来的。
(1) 重复(返回)抽样 X 1 , X 2 ,, X n 从总体中抽取个体检查后放回, 母体成分不变(分布不变)
X 1 , X 2 ,, X n 相互独立的随机变量.
分量Xk与所考察的总体有相同的分布.
k 1,2,, n.
五、直方图
(1)离散情况
X pk
x1
x2
p2
i
xk pk
p1
其中 pi 为未知。如何估计 p ? (2)连续情况 设总体 X 为连续型随机变量,如何估计未 知的密度函数f (x) ?
1. 统计量 定义1 设 X 1 , X 2 ,, X n 是来自总体X的一个样本,
其不包含任何 g ( X 1 , X 2 ,, X n ) 为一实值连续函数, 未知参数,则称 g ( X 1 , X 2 ,, X n ) 为一个统计量。 g ( x1 , x2 ,, xn )为 g ( X 1 , X 2 ,, X n ) 的观测值。
(3) E ( S ) D( X )
2
E S2
1 n 2 2 E X i nX n 1 i 1 1 nE X 2 nE X 2 n 1 n 2 2 D X E X D X E X n 1 D X n D X n 1 n