I 基本概念与抽样分布1-8#
第5章--抽样分布与参数估计教案资料
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
9
9,1
9,2
9,3
9,4
9,5
9,6
9,7
9,8
9,9
9,10
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
(9.5)
10
10,1
10,2
10,3
10,4
10,5
10,6
10,7
10,8
10,9
10,10
数是 ,标准差是 ,从这个总体中抽出一 个容量是 n 的样本,则样本平均数 X 也服从 正态分布,其平均数 E( X ) 仍为 ,其标准
差为 。 X 5-19
从正态分布的再生定理可以看出,只要总体 变量服从正态分布,则从中抽取的样本,不管n 是多少,样本平均数都服从正态分布。但是在 客观实际中,总体并非都是正态分布。对于从 非正态分布的总体中抽取的样本平均数的分布 问题,需要由中心极限定理来解决。
第5章--抽样分布与参数估计
第一节 抽样的基本概念与数学原理
一、有关抽样的基本概念 二、大数定理与中心极限定理
5-2
一、有关抽样的基本概念
(一)样本容量与样本个数 1.样本容量。样本是从总体中抽出的部分
单位的集合,这个集合的大小称为样本容量, 一般用n表示,它表明一个样本中所包含的单 位数。
lim
n
1 n
p
n
i 1
X
i
1
(5.5)
5-17
大数定理表明:尽管个别现象受偶然因 素影响,有各自不同的表现。但是,对总体 的大量观察后进行平均,就能使偶然因素的 影响相互抵消,消除由个别偶然因素引起的 极端性影响,从而使总体平均数稳定下来, 反映出事物变化的一般规律。
教育统计学_第七、八章 抽样分布及总体平均数的推断
20 1
20 1
P(57.14 68.86) 0.99
答:该地区这一年高考数学平均分95%和99%的 置 信 区 间 分 别 为 58.72 至 67.28 分 之 间 和 57.14 至 68.86分之间。
3.大样本的情况:
当样本容量比较大,自由度在逐渐增大,这时的t分布 已经非常接近正态分布。这时可把t分布转成标准正态 分布来作处理。然后再作区间估计。
n
n
P( X 1.96 X 1.96 ) 0.95
n
n
要在一定可靠度上求出总体参数的置信区间的 上下限,需要以下条件:
1.要知道与所要估计的参数相对应的样本统计量的 值,以及样本统计量的理论分布;
2.要求出该种统计量的标准误;
3.要确定在多大的可靠度上对总体参数作估计,再 通过查某种理论概率分布表,找出与某种可靠度相 对应的该分布横轴上记分的临界值,才能计算出总 体参数的置信区间上下限。
三、 σ未知条件下总体平均数的区间估计
1.σ未知条件下总体平均数区间估计的基本原理 (1)当总体σ未知,总体呈正态分布,大样本或小
样本时
(2)或当总体σ未知,总体虽不呈正态分布,大样 本容量较大(n>30)时,样本平均数可以转换成t 值。
总体平均数95%置信区间为:
P(t X t ) 0.95
E(X )
第一节 抽样分布
2、容量为n的平均数在抽样分布上的标准差,等 于总体标准差除以n的方根。
X
n
第一节 抽样分布
3、从正态总体中,随机抽取的容量为n的一切可能 样本平均数的分布也呈正态分布。
4、虽然总体不呈正态分布,如果样本容量较大, 反映总体μ和σ的样本平均数的抽样分布,也接近于 正态分布。
统计学 第三章抽样与抽样分布
=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取
统计学第9章抽样与抽样估计
整理ppt
1
第1节 抽样与抽样分布
一、有关抽样的基本概念
总体(Population) 研究对象的全体称为总体
样本(子样)(Sample) 从总体中抽取一部分个体进行试验或观察,这种从总体
中抽取个体的行为称为抽样。而从总体中抽样所得的一部分 个体叫样本 总体参数(Population parameter)
整理ppt
10
抽样平均误差和抽样极限误差
抽样平均误差:所有可能的样本指标与总体指标间的平均 差异程度。
x (xm X)2, p (p m P )2
整理ppt
11
抽样极限误差
样本指标与总体指标之间允许的误差范围叫抽样极限误 差。也称抽样允许误差。
它是样本指标可允许变动的上限或下限与总体指标 之差的绝对值。
X
X 2.5
X2
1.250.625 2
整理ppt
18
大数定律及中心极限定理
不重复抽样:
(1)总体是正态分布,样本必然是正态分布 (2)样本平均数的平均数等于总体平均数 (3)样本平均数的方差等于总体方差除以样本
容量n
x2
2
n
Nn N1
(4)n越大,样本平均数越趋近于正态分布
整理ppt
19
抽样平均误差 (1)均值 重复抽样:
整理ppt
22
例、从某校1000名学生中简单随机抽取50名学生,称得平均体重为50千克, 若已知总体标准差为10千克,计算重复抽样及不重复抽样下抽样平均误 差。
解:重复抽样条件下,
V ( x ) 2 10 2 2 n 50
x
n
2 1.41
不重复抽样条件下,
统计学抽样与抽样分布
3. 需要包含所有低阶段抽样单位的抽样框;同时由于
实行了再抽样,使调查单位在更广泛的范围内展开
4. 在大规模的抽样调查中,经常被采用的方法
概率抽样(小结)
非概率抽样
n也叫非随机抽样,是指从研究目的出发,根据调查者的 经验或判断,从总体中有意识地抽取若干单位构成样本。
n重点调查、典型调查、配额抽样(是按照一定标准或一 定条件分配样本单位数量,然后由调查者在规定的数额内 主观地抽取样本)、方便抽样(指调查者按其方便任意选 取样本。如商场柜台售货员拿着厂家的调查表对顾客的调 查)等就属于非随机抽样。
样本分量:其中每一个Xi是一个随机变量,称为样本 分量。
样本观察值:一次抽样中所观察到的样本数据x1、x2、 x3称为样本观察值。 对于某一既定的总体,由于抽样的方式方法不同,样 本容量也可大可小,因而,样本是不确定的、而是可5
一、 几个概念
(二)样本总体与样本指标
样本指标(统计量)。在抽样估计中,用来反 映样本总体数量特征的指标称为样本指标,也 称为样本统计量或估计量,是根据样本资料计 算的、用以估计或推断相应总体指标的综合指 标。
3
总体和参数(续)
通常所要估计的总体指标有
X
NX
一、 几个概念
(二)样本总体与样本指标
样本总体。简称样本(Sample),它是按照随机原则, 从总体中抽取的部分总体单位的集合体 。
样本容量:样本中所包含的个体的数量,一般用n表示。 在实际工作中,人们通常把n≥30的样本称为大样本, 而把n<30的样本称为小样本。
(二)抽样平均误差(抽样标准误)
抽样平均误差是反映抽样误差一般水平的指标(因为 抽样误差是一个随机变量,它的数值随着可能抽取的 样本不同而或大或小,为了总的衡量样本代表性的高 低,就需要计算抽样误差的一般水平)。通常用样本 估计量的标准差来反映所有可能样本估计值与其中心 值的平均离散程度。
第四篇抽样和分布1(药学)PPT课件
24
4、整群抽样 先将总体分成若干互不重叠部分(称为群),再 从各群中随机抽取某群或几群作为样本。 例:调查某年级学生上网情况
可把每班作为一群,从中随机抽取一班或几班作 为样本。
该法适用于大规模调查,易于组织,节省人 力物力,但误差较大,适于群体差异较小的调 查对象。
8
实例 研究某地区12岁儿童生长发育情 况,总体和个体应为什么? 显然,总体为该地区的全体儿童
个体为每一个儿童。
当然,衡量儿童生长发育情况要通过诸如身高、 体重等数量指标进行,所以对总体的研究实际上 是对该地区的全体儿童的这些指标值概率分布进 行研究。
9
根据研究指标的多少,总体分为 一维总体-研究一项描述指标,常用随机变量X表示; 多维总体-研究多项描述指标,常用随机向量表示,
14
一般地,对有限总体,应采用有放回抽样,对 无限总体(或数量较多),可采用无放回抽样 (近似看作有放回),否则违背独立性。
简单随机抽样具体实施的方法: 抽签法
随机数法
15
三、统计量(Statistic )
样本是对总体的代表和反映,抽样的目的是利用样本值对 总体进行统计推断。
而对总体进行统计推断,常根据需要的不同,利用样本构 造一些包含所需要的多种信息的量,就是关于样本 X1 ,X2 ,…,Xn的一些函数,这些函数统称为统计量。
3
例如,在几何学中要证明“等腰三角形底角相等”, 只须从“等腰”这个前提出发,运用几何公理,一步一 步推出这个结论.这是演绎推理。
而一个习惯于统计思想的人,可能这样推理: 做很多大小形状不一的等腰三角形,实地测量 其底角,看差距如何,根据所得资料看看可否作 出“底角相等”的结论. 这样做就是归纳式的方法.
《统计学》第9章 抽样与抽样分布
二、抽样中的基本概念
⚫ 样本比例(成数)
p = n1 ,q = n0 = 1− p
n
n
⚫ 样本是非标志的标准差
(n = n0 + n1)
sp =
n p (1− p) =
n −1
n pq n −1
⚫ 样本是非标志的方差
s
2 p
=
n n −1
p(1 −
p)
=
n n −1
pq
第一节 抽样和抽样方法
三、抽样方法
三、抽样方法
⚫ 多阶段抽样
⚫ 在实践中总体所包括的单位数很多,分布很广,通过一次 抽样就选出有代表性的样本是很困难的。此时可将整个抽 样过程分为几个阶段,然后逐阶段进行抽样,最终得到所 需要的有代表性的样本。
第一节 抽样和抽样方法
三、抽样方法
⚫ 多阶段抽样
⚫ 阶段数不宜过多,一般采用两个、三个阶段,至多四个阶 段为宜,否则,手续繁琐,效果也不一定好。
第一节 抽样和抽样方法
二、抽样中的基本概念
⚫ 总体参数
⚫ 总体参数是根据总体各单位的标志值或特征计算的、反 映总体某一属性的综合指标。
⚫ 总体参数是唯一的、确定的常数,但一般情况下又是未 知的。
⚫ 常用的总体参数有 ⚫ 总体均值 ⚫ 总体标准差、总体方差 ⚫ 总体比例(成数)
第一节 抽样和抽样方法
⚫ 样本标准差
s =
1 n −1
n i =1
(xi
−
x )2,或s
=
1
m
m
(xi − x )2 fi
fi −1 i=1
i =1
⚫ 样本方差
( ) ( ) s2 = 1 n n −1 i=1
8-抽样分布
样本方差的抽样分布
1. 在重复选取容量为n的样本时,由样本方差的所有 可能取值形成的相对频数分布 2. 对于来自正态总体的简单随机样本,则比值
(n 1) s 2
的抽样分布服从自由度为 (n -1) 的2分布,即
2
(n 1) s 2 ~ (n 1) 2
2
2分布(图示)
不同容量样本的抽样分布
统计量
抽样分布
抽样分布 ( sampling distribution) 抽样误差
抽样分布
一、抽样分布的概念 二、样本均值抽样分布的形式 三、样本均值抽样分布的特征
三种不同性质的分布
总体分布
样本分布
抽样分布
总体分布(population distribution)
1. 2. 3.
M为样本数目
比较及结论:1. 样本均值的均值(数学期望) 等于总 体均值。 2. 样本均值的方差等于总体方差的1/n。
总体分布
.3 P(x)
抽样分布
.3 .2 .1 0 1 2 3 4
.2 .1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
= 2.5
σ2 =1.25
x 2.5 2 x 0.625
2.
3.
称F为服从自由度n1和n2的F分布,记为
U n1 F V n2
F ~ F (n1 , n2 )
例: (X1,X2,…,X5)为取自正态总体X~(0,σ2)的样本,
2 3( X 12 X 2 ) 求统计量 2 2( X 32 X 4 X 52 )
的分布
Xi
解
X i ~ N (0, 2 )
医药统计学 第五章 抽样分布
3、总体参数(parameter): 总体X 的数字特征即总体的特征 指标。
eg: 、 。
(三)样本(sample):数理统计方法实质上是由局部来推 断整体,即通过一些个体的特征来推断总体的特征。 eg:观察某显像管厂所有显像管的平均寿命。
1、抽样研究(sampling):在实际工作中,所要研究的总 体无论是有限的还是无限的,通常都是采用抽样研究。
抽样:依照一定的规则从总体X 中抽取n个个体,然后对这
些个体进行测试或观察得到一组数据
。
目的:抽样研究的目的是用样本信息推断总体特征。
eg:
从上例的有限总体(浙江省2006年7岁健康男孩)中,按照随机化
原则抽取100名7岁健康男孩,他们的身高值
即为样本。因
此,从总体中抽取样本的过程为抽样,抽样方法有多种。
第四章 抽样分布
数理统计基本概念 抽样分布
学习目的和要求
掌握总体、样本、统计量、标准误等数理统计的基本概
念;查表求 2 分布、t 分布、F分布的临界值及其定理;
熟悉 X 的分布、 2分布、t 分布、F分布定义、性质和应
用。
数理统计的基本任务:
实验或 调查
以概率论为理论基础,通过样本提供的信息,对总 体的统计规律和特征进行估计与推断,其实用性较强。
1、 2分布(chi-square distribution):是指数分布的改进,
尤其当n较大时, 2分布可全面反映随机变量的分布。
eg: 寿命、保险等资料。
定义:设随机变量
为相互独立且服从标准
正态分布N(0,1),则称随机变量
2= X12 + X22 +X32 + … + … +Xn2
概率论抽样分布
概率论抽样分布说明在概率论中,抽样分布是指从总体中选取样本并计算样本统计量的分布。
通过研究抽样分布,可以推断总体的性质和参数。
在这篇文档中,我们将介绍概率论抽样分布的基本概念、特性以及常用的分布类型。
抽样分布的定义抽样分布是由于从总体中抽取样本导致的统计量的分布。
在统计学中,统计量是从样本数据中计算得出的数值,如样本均值、样本方差等。
通过从总体中不断抽取样本并计算统计量的值,可以得到抽样分布。
抽样分布的特性抽样分布具有以下特性:1.中心极限定理:当样本容量足够大时,抽样平均值的抽样分布近似呈正态分布。
2.抽样分布的均值等于总体均值:样本均值的期望值等于总体均值。
3.抽样分布的方差等于总体方差除以样本容量:样本均值的方差等于总体方差除以样本容量。
常见的抽样分布类型在概率论中,常用的抽样分布类型包括:1.正态分布:也称为高斯分布,是最常用的抽样分布。
当样本容量足够大时,均值的抽样分布近似呈正态分布。
2.t分布:用于小样本(样本容量较小)情况下对总体均值的推断。
相对于正态分布,t分布有更宽的尾部。
3.卡方分布:用于推断总体方差时的抽样分布。
卡方分布的形态由自由度决定。
4.F分布:用于比较两个总体方差是否相等的抽样分布。
F分布的形态由两个样本的自由度决定。
抽样分布的应用抽样分布广泛应用于统计学和概率论中的推断与检验问题。
通过从总体中抽取样本并计算统计量的分布,可以进行以下应用:1.参数估计:通过抽样分布,我们可以估计总体参数的取值,如总体均值、总体方差等。
2.假设检验:通过比较样本统计量与抽样分布的临界值,我们可以判断总体参数是否满足某个假设。
3.置信区间估计:通过计算抽样分布的分位数,我们可以得到总体参数的置信区间,从而评估参数的精确性。
总结抽样分布是概率论中的重要概念,用于推断总体的性质和参数。
具备了中心极限定理、均值和方差的性质等特点,常见的抽样分布类型包括正态分布、t分布、卡方分布和F分布。
通过抽样分布,我们可以进行参数估计、假设检验和置信区间估计等应用。
抽样分布基本概念
抽样分布根本概念引言抽样分布是统计学中一个重要的概念,它描述了在进行统计推断时所使用的样本统计量的分布情况。
在本文中,我们将讨论抽样分布的根本概念,包括样本、样本统计量、抽样分布的性质以及样本均值和样本比例的抽样分布。
样本与样本统计量在统计学中,样本是指从总体中随机选取的一局部观察对象。
样本的大小通常用字母n表示。
通过对样本进行测量和观察得到的某一特定数值称为样本统计量。
样本统计量是对总体参数的估计。
常见的样本统计量有样本均值、样本方差和样本比例。
样本均值是指样本中所有观察值的平均值,用符号X表示。
样本方差是指样本中所有观察值与样本均值之差的平方和的均值。
样本比例是指符合某一特征的观察值占样本总体的比例。
抽样分布的性质抽样分布是指在总体参数未知的情况下,对总体进行抽样并计算样本统计量后得到的分布。
在大样本情况下〔样本容量n足够大〕,根据中心极限定理,样本均值的抽样分布近似呈正态分布。
这意味着无论总体是什么样的分布,当样本容量足够大时,样本均值的抽样分布都可以近似看作是正态分布。
当总体分布为正态分布时,样本均值的抽样分布仍然是正态分布。
但是当总体分布为非正态分布时,样本均值的抽样分布仍然近似为正态分布,但不再是精确的正态分布。
样本均值的抽样分布样本均值的抽样分布被称为抽样分布。
当总体分布为正态分布时,不管样本容量大小,样本均值的抽样分布都是正态分布。
当总体分布为非正态分布时,当样本容量足够大时,样本均值的抽样分布近似为正态分布。
样本均值的抽样分布的均值等于总体均值,标准差等于总体标准差除以样本容量的平方根。
抽样分布的均值等于总体均值是因为样本均值是总体均值的无偏估计,即样本均值的期望值等于总体均值。
抽样分布的标准差等于总体标准差除以样本容量的平方根是因为样本均值的抽样分布的方差等于总体方差除以样本容量。
样本比例的抽样分布样本比例的抽样分布也是一个重要的抽样分布。
样本比例的抽样分布是二项分布的一种特殊情况。
概率论与数理统计基本概念及抽样分布PPT课件
~
2 (n1 ),
2 2
~
2 (n2 ), 且它们相互独立,
则
2 1
2 2
~
2 (n1
n2 )
《概率统计》
返回
下页
结束
4. 2分布的百分位点
对给定的α(0<α<1)
(1)称满足
P{ 2
2
(n)}
,即
f ( y)dy
x2 ( n)
的点为 2分布的上100α百分位点。
f(y)
(2)称满足
注:在研究中,往往关心每个个体的一个(或几个)数量指标和 该数量指标在总体中的分布情况. 这时,每个个体具有的数量 指标的全体就是总体.
或,总体:研究对象的某项数量指标的值的全体.
《概率统计》
某批 灯泡的 寿命
该批灯泡寿命的 全体就是总体
返回
下页
结束
为推断总体分布及各种特征,按一定规则从总体中抽取若 干个体进行观察试验,以获得有关总体的信息,这一抽取过程 为 “抽样”.
( x)
(1)称满足条件 P{X>Xα} =α,
α
即
( x)dx
X
的点Xα为N(0,1)分布的上100α百分位点.
X1-α
0
由于 P{X X } 1 记 -Xα= X1-α
(2)称满足条件 P {| X | X }
2
2
的点 X 为N(0,1)分布的双侧100α百分位点.
X
2
则
E(X )
E(1 n
n i 1
Xi)
1 n
n i 1
E(Xi )
1 n
n
D(X ) D(1 n
n i1
Xi)
概率论与数理统计复习串讲笔记(知识要点锦集)
知识要点锦集概率论与数理统计(复习串讲笔记)第一章 概率论的基本概念一.基本概念随机试验E:(1)可以在相同的条件下重复地进行;(2)每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果;(3)进行一次试验之前不能确定哪一个结果会出现.样本空间S: E 的所有可能结果组成的集合. 样本点(基本事件):E 的每个结果. 随机事件(事件):样本空间S 的子集.必然事件(S):每次试验中一定发生的事件. 不可能事件(Φ):每次试验中一定不会发生的事件.二. 事件间的关系和运算1.A ⊂B(事件B 包含事件A )事件A 发生必然导致事件B 发生.2.A ∪B(和事件)事件A 与B 至少有一个发生.3. A ∩B=AB(积事件)事件A 与B 同时发生.4. A -B(差事件)事件A 发生而B 不发生.5. AB=Φ (A 与B 互不相容或互斥)事件A 与B 不能同时发生.6. AB=Φ且A ∪B=S (A 与B 互为逆事件或对立事件)表示一次试验中A 与B 必有一个且仅有一个发生. B=A, A=B .运算规则 交换律 结合律 分配律 德•摩根律 B A B A =B A B A =三. 概率的定义与性质1.定义 对于E 的每一事件A 赋予一个实数,记为P(A),称为事件A 的概率. (1)非负性 P(A)≥0 ; (2)归一性或规范性 P(S)=1 ;知识要点锦集(3)可列可加性 对于两两互不相容的事件A 1,A 2,…(A i A j =φ, i ≠j, i,j=1,2,…),P(A 1∪A 2∪…)=P( A 1)+P(A 2)+… 2.性质(1) P(Φ) = 0 , 注意: A P(A)=0 .(2)有限可加性 对于n 个两两互不相容的事件A 1,A 2,…,A n ,P(A 1∪A 2∪…∪A n )=P(A 1)+P(A 2)+…+P(A n ) (有限可加性与可列可加性合称加法定理)(3)若A ⊂B, 则P(A)≤P(B), P(B -A)=P(B)-P(A) . (4)对于任一事件A, P(A)≤1, P(A)=1-P(A) .(5)广义加法定理 对于任意二事件A,B ,P(A ∪B)=P(A)+P(B)-P(AB) . 对于任意n 个事件A 1,A 2,…,A n()()()()+∑+∑-∑=≤<<≤≤<≤=nk j i k j i nj i j i ni i n A A A P A A P A P A A A P 11121…+(-1)n-1P(A 1A 2…A n )四.等可能(古典)概型1.定义 如果试验E 满足:(1)样本空间的元素只有有限个,即S={e 1,e 2,…,e n };(2)每一个基本事件的概率相等,即P(e 1)=P(e 2)=…= P(e n ).则称试验E 所对应的概率模型为等可能(古典)概型.2.计算公式 P(A)=k / n 其中k 是A 中包含的基本事件数, n 是S 中包含的基本事件总数. 五.条件概率1.定义 事件A 发生的条件下事件B 发生的条件概率P(B|A)=P(AB) / P(A)知识要点锦集( P(A)>0).2.乘法定理 P(AB)=P(A) P (B|A) (P(A)>0); P(AB)=P(B) P (A|B) (P(B)>0). P(A 1A 2…A n )=P(A 1)P(A 2|A 1)P(A 3|A 1A 2)…P(A n |A 1A 2…A n-1)(n ≥2,P(A 1A 2…A n-1) > 0)3. B 1,B 2,…,B n 是样本空间S 的一个划分(B i B j =φ,i ≠j,i,j=1,2,…,n, B 1∪B 2∪…∪B n =S) ,则当P(B i )>0时,有全概率公式 P(A)=()()i ni i B A P B P ∑=1当P(A)>0, P(B i )>0时,有贝叶斯公式P (B i |A)=()()()()()()∑==n i i i i i i B A P B P B A P B P A P AB P 1.六.事件的独立性1.两个事件A,B,满足P(AB) = P(A) P(B)时,称A,B 为相互独立的事件. (1)两个事件A,B 相互独立⇔ P(B)= P (B|A) .(2)若A 与B ,A 与B ,A 与B, ,A 与B 中有一对相互独立,则另外三对也相互独立.2.三个事件A,B,C 满足P(AB) =P(A) P(B), P(AC)= P(A) P(C), P(BC)= P(B) P(C),称A,B,C 三事件两两相互独立. 若再满足P(ABC) =P(A) P(B) P(C),则称A,B,C 三事件相互独立.3.n 个事件A 1,A 2,…,A n ,如果对任意k (1<k ≤n),任意1≤i 1<i 2<…<i k ≤n.有()()()()kki i i i i i A P A P A P A A A P 2121=,则称这n 个事件A 1,A 2,…,A n 相互独立.第二章 随机变量及其概率分布一.随机变量及其分布函数1.在随机试验E 的样本空间S={e}上定义的单值实值函数X=X (e)称为随机变知识要点锦集量.2.随机变量X 的分布函数F(x)=P{X ≤x} , x 是任意实数. 其性质为:(1)0≤F(x)≤1 ,F(-∞)=0,F(∞)=1. (2)F(x)单调不减,即若x 1<x 2 ,则 F(x 1)≤F(x2).(3)F(x)右连续,即F(x+0)=F(x). (4)P{x 1<X≤x 2}=F(x 2)-F(x 1). 二.离散型随机变量 (只能取有限个或可列无限多个值的随机变量)1.离散型随机变量的分布律 P{X= x k }= p k (k=1,2,…) 也可以列表表示. 其性质为:(1)非负性 0≤P k ≤1 ; (2)归一性 11=∑∞=k k p .2.离散型随机变量的分布函数 F(x)=∑≤xX k k P 为阶梯函数,它在x=x k (k=1,2,…)处具有跳跃点,其跳跃值为p k =P{X=x k } . 3.三种重要的离散型随机变量的分布(1)X~(0-1)分布 P{X=1}= p ,P{X=0}=1–p (0<p<1) .(2)X~b(n,p)参数为n,p 的二项分布P{X=k}=()kn k p p k n --⎪⎪⎭⎫ ⎝⎛1(k=0,1,2,…,n) (0<p<1)(3))X~π(λ)参数为λ的泊松分布 P{X=k}=λλ-e k k !(k=0,1,2,…) (λ>0)三.连续型随机变量1.定义 如果随机变量X 的分布函数F(x)可以表示成某一非负函数f(x)的积分F(x)=()dt t f x⎰∞-,-∞< x <∞,则称X 为连续型随机变量,其中f (x)称为X 的概率密度(函数).2.概率密度的性质知识要点锦集(1)非负性 f(x)≥0 ; (2)归一性 ⎰∞∞-dx x f )(=1 ; (3) P{x 1<X ≤x 2}=⎰21)(x x dx x f ; (4)若f (x)在点x 处连续,则f(x)=F / (x) .注意:连续型随机变量X 取任一指定实数值a 的概率为零,即P{X= a}=0 . 3.三种重要的连续型随机变量的分布(1)X ~U (a,b) 区间(a,b)上的均匀分布 ⎩⎨⎧=-0)(1a b x f 其它b x a << .(2)X 服从参数为θ的指数分布.()⎩⎨⎧=-0/1θθx ex f 00≤>x x 若若 (θ>0).(3)X~N (μ,σ2)参数为μ,σ的正态分布 222)(21)(σμσπ--=x ex f -∞<x<∞,σ>0.特别, μ=0, σ2 =1时,称X 服从标准正态分布,记为X~N (0,1),其概率密度2221)(x e x -=πϕ , 标准正态分布函数 ⎰=Φ∞--xt dte x 2221)(π,Φ(-x)=1-Φ(x) .若X ~N ((μ,σ2), 则Z=σμ-X ~N (0,1), P{x 1<X ≤x 2}=Φ(σμ-2x )-Φ(σμ-1x ).若P{Z>z α}= P{Z<-z α}= P{|Z|>z α/2}= α,则点z α,-z α, ±z α/ 2分别称为标准正态分布的上,下,双侧α分位点. 注意:Φ(z α)=1-α , z 1- α= -z α. 四.随机变量X 的函数Y= g (X)的分布 1.离散型随机变量的函数知识要点锦集若g(x k ) (k=1,2,…)的值全不相等,则由上表立得Y=g(X)的分布律.若g(x k ) (k=1,2,…)的值有相等的,则应将相等的值的概率相加,才能得到Y=g(X)的分布律.2.连续型随机变量的函数若X 的概率密度为f X (x),则求其函数Y=g(X)的概率密度f Y (y)常用两种方法: (1)分布函数法 先求Y 的分布函数F Y (y)=P{Y ≤y}=P{g(X)≤y}=()()dx x f ky X k∑⎰∆其中Δk (y)是与g(X)≤y 对应的X 的可能值x 所在的区间(可能不只一个),然后对y 求导即得f Y (y)=F Y /(y) .(2)公式法 若g(x)处处可导,且恒有g /(x)>0 (或g / (x)<0 ),则Y=g (X)是连续型随机变量,其概率密度为 ()()()()⎩⎨⎧'=0y h y h f y f X Y 其它βα<<y其中h(y)是g(x)的反函数 , α= min (g (-∞),g (∞)) β= max (g (-∞),g (∞)) .如果f (x)在有限区间[a,b]以外等于零,则 α= min (g (a),g (b)) β= max (g (a),g (b)) .第三章 二维随机变量及其概率分布一.二维随机变量与联合分布函数1.定义 若X 和Y 是定义在样本空间S 上的两个随机变量,则由它们所组成的向量(X,Y)称为二维随机向量或二维随机变量.对任意实数x,y,二元函数F(x,y)=P{X ≤x,Y ≤y}称为(X,Y)的(X 和Y 的联合)分布函数.2.分布函数的性质知识要点锦集(1)F(x,y)分别关于x 和y 单调不减.(2)0≤F(x,y)≤1 , F(x,- ∞)=0, F(-∞,y)=0, F(-∞,-∞)=0, F(∞,∞)=1 . (3) F(x,y)关于每个变量都是右连续的,即 F(x+0,y)= F(x,y), F(x,y+0)= F(x,y) .(4)对于任意实数x 1<x 2 , y 1<y 2P{x 1<X ≤x 2 , y 1<Y ≤y 2}= F(x 2,y 2)- F(x 2,y 1)- F(x 1,y 2)+ F(x 1,y 1)二.二维离散型随机变量及其联合分布律1.定义 若随机变量(X,Y)只能取有限对或可列无限多对值(x i ,y j ) (i ,j =1,2,… )称(X,Y)为二维离散型随机变量.并称P{X= x i ,Y= y j }= p i j 为(X,Y)的联合分布律.也可列表表示.2.性质 (1)非负性 0≤p i j ≤1 .(2)归一性 ∑∑=i jij p 1 .3. (X,Y)的(X 和Y 的联合)分布函数F(x,y)=∑∑≤≤x x yy ij i j p三.二维连续型随机变量及其联合概率密度1.定义 如果存在非负的函数 f (x,y),使对任意的x 和y,有F(x,y)=⎰⎰∞-∞-yxdudv v u f ),(则称(X,Y)为二维连续型随机变量,称f(x,y)为(X,Y)的(X 和Y 的联合)概率密度.2.性质 (1)非负性 f (x,y)≥0 . (2)归一性 1),(=⎰⎰∞∞-∞∞-d x d y y x f . (3)若f (x,y)在点(x,y)连续,则yx y x F y x f ∂∂∂=),(),(2(4)若G 为xoy 平面上一个区域,则⎰⎰=∈Gdxdy y x f G y x P ),(}),{(.四.边缘分布1. (X,Y)关于X 的边缘分布函数 F X (x) = P{X ≤x , Y<∞}= F (x , ∞) .知识要点锦集(X,Y)关于Y 的边缘分布函数 F Y (y) = P{X<∞, Y ≤y}= F (∞,y) 2.二维离散型随机变量(X,Y)关于X 的边缘分布律 P{X= x i }= ∑∞=1j ij p = p i · ( i =1,2,…) 归一性11=∑∞=∙i i p .关于Y 的边缘分布律 P{Y= y j }= ∑∞=1i ij p = p ·j ( j =1,2,…) 归一性11=∑∞=∙j j p .3.二维连续型随机变量(X,Y)关于X 的边缘概率密度f X (x)=⎰∞∞-dy y x f ),( 归一性1)(=⎰∞∞-dx x f X 关于Y 的边缘概率密度 fY(y)=x d y x f ⎰∞∞-),( 归一性1)(=⎰∞∞-dy y f Y五.相互独立的随机变量1.定义 若对一切实数x,y,均有F(x,y)= F X (x) F Y (y) ,则称X 和Y 相互独立.2.离散型随机变量X 和Y 相互独立⇔p i j = p i ··p ·j ( i ,j =1,2,…)对一切x i ,y j 成立.3.连续型随机变量X 和Y 相互独立⇔f (x,y)=f X (x)f Y (y)对(X,Y)所有可能取值(x,y)都成立. 六.条件分布1.二维离散型随机变量的条件分布定义 设(X,Y)是二维离散型随机变量,对于固定的j,若P{Y=y j }>0,则称P{X=x i |Y=y j }为在Y= y j 条件下随机变量X 的条件分布律.,}{},{jji j j i p p y Y P y Y x X P ∙=====知识要点锦集同样,对于固定的i,若P{X=x i }>0,则称 P{Y=y j |X=x i }为在X=x i 条件下随机变量Y 的条件分布律.第四章 随机变量的数字特征一.数学期望和方差的定义随机变量X 离散型随机变量 连续型随机变量 分布律P{X=x i }= p i ( i =1,2,…) 概率密度f(x)数学期望(均值)E(X) ∑∞=1i i i p x (级数绝对收敛)⎰∞∞-dx x xf )((积分绝对收敛) 方差D(X)=E{[X-E(X)]2}[]∑-∞=12)(i i i p X E x⎰-∞∞-dx x f X E x)()]([2=E(X 2)-[E(X)]2 (级数绝对收敛) (积分绝对收敛)函数数学期望E(Y)=E[g(X)] i i i p x g ∑∞=1)((级数绝对收敛) ⎰∞∞-dx x f x g )()((积分绝对收敛)标准差σ(X)=√D(X) . 二.数学期望与方差的性质1. c 为为任意常数时, E(c) = c , E(cX) = cE(X) , D(c) = 0 , D (cX) = c 2 D(X) .,}{},{∙=====i j i i j i p p x X P y Y x X P知识要点锦集2.X,Y 为任意随机变量时, E (X ±Y)=E(X)±E(Y) .3. X 与Y 相互独立时, E(XY)=E(X)E(Y) , D(X ±Y)=D(X)+D(Y) .4. D(X) = 0⇔ P{X = C}=1 ,C 为常数.三.六种重要分布的数学期望和方差 E(X) D(X) 1.X~ (0-1)分布P{X=1}= p (0<p<1) p p (1- p) 2.X~ b (n,p) (0<p<1) n pn p (1- p)3.X~ π(λ) λ λ4.X~ U(a,b) (a+b)/2 (b-a) 2/125.X 服从参数为θ的指数分布 θ θ26.X~ N (μ,σ2) μ σ2 四.矩的概念随机变量X 的k 阶(原点)矩E(X k ) k=1,2,… 随机变量X 的k 阶中心矩E{[X-E(X)] k }随机变量X 和Y 的k+l 阶混合矩E(X k Y l ) l=1,2,…随机变量X 和Y 的k+l 阶混合中心矩E{[X-E(X)] k [Y-E(Y)] l }第六章 样本和抽样分布一.基本概念总体X 即随机变量X ; 样本X 1 ,X 2 ,…,X n 是与总体同分布且相互独立的随机变量;样本值x 1 ,x 2 ,…,x n 为实数;n 是样本容量.统计量是指样本的不含任何未知参数的连续函数.如:样本均值∑==n i i X n X 11 样本方差()∑--==n i i X X n S 12211 样本标准差S样本k 阶矩∑==n i ki k X n A 11( k=1,2,…) 样本k 阶中心矩知识要点锦集∑-==ni k i k X X n B 1)(1( k=1,2,…)二.抽样分布 即统计量的分布1.X 的分布 不论总体X 服从什么分布, E (X ) = E(X) , D (X ) = D(X) / n . 特别,若X~ N (μ,σ2 ) ,则X ~ N (μ, σ2 /n) .2.χ2分布 (1)定义 若X ~N (0,1) ,则Y =∑=ni i X 12~ χ2(n)自由度为n 的χ2分布.(2)性质 ①若Y~ χ2(n),则E(Y) = n , D(Y) = 2n .②若Y 1~ χ2(n 1) Y 2~ χ2(n 2) ,则Y 1+Y 2~ χ2(n 1 + n 2). ③若X~ N (μ,σ2 ), 则22)1(σS n -~ χ2(n-1),且X 与S 2相互独立.(3)分位点 若Y~ χ2(n),0< α <1 ,则满足αχχχχαααα=<>=<=>--))}(())({()}({)}({22/122/212n Y n Y P n Y P n Y P的点)()(),(),(22/122/212n n n n ααααχχχχ--和分别称为χ2分布的上、下、双侧α分位点. 3. t 分布(1)定义 若X~N (0,1),Y~ χ2(n),且X,Y 相互独立,则t=nY X ~t(n)自由度为n的t 分布.(2)性质①n →∞时,t 分布的极限为标准正态分布.②X ~N (μ,σ2)时, nS X μ-~ t (n-1) .③两个正态总体相互独立的样本 样本均值 样本方差知识要点锦集X~ N (μ1,σ12 ) 且σ12=σ22=σ2 X 1 ,X 2 ,…,X n1X S 12Y~ N (μ2,σ22 ) Y 1 ,Y 2 ,…,Y n2 Y S 22则 212111)()(n n S Y X w +---μμ~ t (n 1+n 2-2) , 其中 2)1()1(212222112-+-+-=n n S n S n S w (3)分位点 若t ~ t (n) ,0 < α<1 , 则满足αααα=>=-<=>)}({)}({)}({2/n t t P n t t P n t t P的点)(),(),(2/n t n t n t ααα±-分别称t 分布的上、下、双侧α分位点. 注意: t 1- α (n) = - t α (n).4.F 分布 (1)定义 若U~χ2(n 1), V~ χ2(n 2), 且U,V 相互独立,则 F=21n V n U ~F(n 1,n 2)自由度为(n 1,n 2)的F 分布. (2)性质(条件同3.(2)③)22212221σσS S ~F(n 1-1,n 2-1)(3)分位点 若F~ F(n 1,n 2) ,0< α <1,则满足)},({)},({21121n n F F P n n F F P αα-<=>ααα=<>=-))},(()),({(212/1212/n n F F n n F F P的点),(),(),,(),,(212/1212/21121n n F n n F n n F n n F αααα--和分别称为F 分布的上、下、双侧α分位点. 注意: .).(1),(12211n n F n n F αα=-第七章 参数估计一.点估计 总体X 的分布中有k 个待估参数θ1, θ2,…, θk .X 1 ,X 2 ,…,X n 是X 的一个样本, x 1 ,x 2 ,…,x n 是样本值.1.矩估计法知识要点锦集先求总体矩⎪⎩⎪⎨⎧===),,,(),,,(),,,(2121222111k k k k k θθθμμθθθμμθθθμμ 解此方程组,得到⎪⎩⎪⎨⎧===),,,(),,,(),,,(2121222111k k k k k μμμθθμμμθθμμμθθ ,以样本矩A l 取代总体矩μ l ( l=1,2,…,k)得到矩估计量⎪⎪⎩⎪⎪⎨⎧===∧∧∧),,,(),,,(),,,(2121222111k k k k k A A A A A A A A A θθθθθθ,若代入样本值则得到矩估计值. 2.最大似然估计法若总体分布形式(可以是分布律或概率密度)为p(x, θ1, θ2,…, θk ),称样本X 1 ,X 2 ,…,X n 的联合分布∏==ni k i k x p L 12121),,,,(),,,(θθθθθθ 为似然函数.取使似然函数达到最大值的∧∧∧k θθθ,,,21 ,称为参数θ1, θ2,…,θk 的最大似然估计值,代入样本得到最大似然估计量.若L(θ1, θ2,…, θk )关于θ1, θ2,…, θk 可微,则一般可由似然方程组 0=∂∂i L θ 或 对数似然方程组 0ln =∂∂iLθ (i =1,2,…,k) 求出最大似然估计.3.估计量的标准(1) 无偏性 若E(∧θ)=θ,则估计量∧θ称为参数θ的无偏估计量.不论总体X 服从什么分布, E (X )= E(X) , E(S 2)=D(X), E(A k )=μk =E(X k ),即样本均值X , 样本方差S 2,样本k 阶矩A k 分别是总体均值E(X),方差D(X),总体k 阶矩μk 的无偏估计,(2)有效性 若E(∧θ1 )=E(∧θ2)= θ, 而D(∧θ1)< D(∧θ2), 则称估计量∧θ1比∧θ2有效.知识要点锦集(3)一致性(相合性) 若n →∞时,θθP →∧,则称估计量∧θ是参数θ的相合估计量. 二.区间估计1.求参数θ的置信水平为1-α的双侧置信区间的步骤(1)寻找样本函数W=W(X 1 ,X 2 ,…,X n ,θ),其中只有一个待估参数θ未知,且其分布完全确定.(2)利用双侧α分位点找出W 的区间(a,b),使P{a<W <b}=1-α. (3)由不等式a<W<b 解出θθθ<<则区间(θθ,)为所求.2.单个正态总体待估参数 其它参数 W 及其分布 置信区间μ σ2已知nX σμ-~N (0,1) (2/ασz n X ±) μ σ2未知 nS X μ-~ t (n-1) )1((2/-±n t n S X α σ2μ未知22)1(σS n -~χ2(n-1)))1()1(,)1()1((22/1222/2-----n S n n S n ααχχ 3.两个正态总体 (1)均值差μ 1-μ 2其它参数 W 及其分布 置信区间知识要点锦集已知2221,σσ22212121)(n n Y X σσμμ+--- ~ N(0,1) )(2221212n n z Y X σσα+±-未知22221σσσ==212111)(n n S Y X w +---μμ~t(n 1+n 2-2))11)2((21212n n S n n t Y X w+-+±-α 其中S w 等符号的意义见第六章二. 3 (2)③.(2) μ 1,μ 2未知, W=22212221σσS S ~ F(n 1-1,n 2-1),方差比σ12/σ22的置信区间为))1,1(1,)1,1(1(212/12221212/2221----⋅-n n F S S n n F S S αα注意:对于单侧置信区间,只需将以上所列的双侧置信区间中的上(下)限中的下标α/2改为α,另外的下(上)限取为-∞ (∞)即可.。
抽样分布基本概念
第一节 抽样分布基本概念
一、样本容量和样本个数 二、参数和统计量 三、抽样分布 四、抽样分布的数字特征
一、样本容量和样本个数
总体是研究的所有个体构成的集合,其 中的个体的数目常用 N表示。
样本均值的抽样分布,就是采取重复 抽样的方式,选取容量为 n 的所有样本, 由样本均值所有可能的取值形成的概率分 布。它是推断总体均值 的理论基础。
以下分两种情况来讨论样本均值X 的 抽样分布类型。
一、样本均值的抽样分布
(一)总体服从正态分布
正态分布的再生定理:若总体变量
X ~ N , 2 ,从这个总体中抽取容量为 n
经济管理类“十三五”规划教材
统计学
-从典型案例到问题和思想
第五章 抽样分布
§ 典型案例【6】 § 第一节 抽样分布基本概念 § 第二节 几个常见的抽样分布
【典型案例6】如何决定是否购买一批苹果?
俗话说“一日一苹果,医生远离我。” 假如现在面对一批苹果,人们如何了解它 们口感的均值和差异值,以便作出是否购 买这批苹果的决策呢?
正态分布
N (, 2 n)
非正态分布
图5-2 样本均值的抽样分布图
一、样本均值的抽样分布
根据本章第一节,在不重复抽样情形
下,样本均值的抽样分布为:
~ X
N
,
2
n
N N
n 1
(5.8)
一、样本均值的抽样分布
【例5-2】假设在一个饭店门口等待出 租车的时间是服从左偏分布的,均值为12 分钟,标准差为3分钟。现从饭店门口随机 抽取100名顾客并记录他们等待出租车的时 间,考察100名顾客的平均等待时间的抽样 分布。
抽样分布的概念及重要性
抽样分布的概念及重要性抽样分布是统计学中一个重要的概念,它描述了从总体中抽取样本的过程中,统计量的分布情况。
在统计学中,我们通常无法对整个总体进行研究,而是通过抽取样本来推断总体的特征。
抽样分布的概念帮助我们理解样本统计量的变异性,并为统计推断提供了理论基础。
本文将介绍抽样分布的概念及其重要性。
一、抽样分布的概念抽样分布是指在相同条件下,重复从总体中抽取样本,并计算样本统计量的分布情况。
在抽样过程中,每次抽取的样本可能不同,因此样本统计量的取值也会有所不同。
抽样分布描述了样本统计量的所有可能取值及其对应的概率分布。
常见的样本统计量包括样本均值、样本方差、样本比例等。
以样本均值为例,假设总体均值为μ,样本均值为x̄,抽样分布描述了在相同样本容量的情况下,样本均值的所有可能取值及其对应的概率分布。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布近似服从正态分布。
二、抽样分布的重要性抽样分布在统计学中具有重要的意义,它对统计推断和假设检验提供了理论基础,具体体现在以下几个方面:1. 参数估计:抽样分布可以用于估计总体参数。
通过抽取样本并计算样本统计量,我们可以对总体参数进行估计。
例如,通过计算样本均值来估计总体均值,通过计算样本比例来估计总体比例等。
抽样分布提供了样本统计量的分布情况,帮助我们确定估计值的可信度和置信区间。
2. 假设检验:抽样分布可以用于假设检验。
在假设检验中,我们通常需要比较样本统计量与假设值之间的差异,以判断差异是否显著。
抽样分布提供了样本统计量的分布情况,可以帮助我们计算出观察到的差异在抽样误差范围内的概率,从而判断差异是否显著。
3. 抽样方法选择:抽样分布可以帮助我们选择合适的抽样方法。
不同的抽样方法会对样本统计量的分布产生不同的影响。
通过了解抽样分布的特点,我们可以选择合适的抽样方法,以提高样本统计量的准确性和可靠性。
4. 统计推断:抽样分布是统计推断的基础。
统计推断是指通过样本数据对总体特征进行推断。
抽样和抽样分布
离散型随机变量的方差(实例)
【例】投掷一枚骰子,出现的点数是个离散型随 机变量,其概率分布为如下。计算数学期望和方 差 X = xi 1 2 3 4 5 6 P(X =xi)=pi 1/6 1/6 1/6 1/6 1/6 1/6
1 1 解:数学期望为: E ( X ) xi pi 1 6 3.5 6 6 i 1 6 方差为: D( X ) xi E ( X )2 pi
n N
二、试验
1.概念: 在相同条件下,对事物或现象所进行的观察。
例如:掷一枚骰子,观察其出现的点数;产品质 量检验,考察其是否是合格品等。
2.试验具有以下特点:
可以在相同的条件下重复进行; 每次试验的可能结果不止一个,但试验的所
有可能结果在试验之前是确切知道的;
在试验结束之前,不能确定该次试验的确切
i 1 n
( X取有限个值) ( X取无穷个值)
E ( X ) xi p i
i 1
(3)性质
第三章所讲的平均数的性质也完全适合于数学 期望。对于抽样分布通常要考虑多个变量的情 况,所以还要补充两条性质。 ①n个随机变量代数和的数学期望等于它们的 数学期望之和。 ②n个独立随机变量连乘积的数学期望等于它 们数学期望的乘积
两种抽样方法
重置抽样
1.概念: 也称有放回的抽样,从总体中抽取一个单位,登记 后再放回总体参加下一次的抽取,连续试验n次。 2.重置抽样排列数: 从总体N个单位,抽取样本容量为n个单位的重置 试验,可能抽取的样本点个数: n n
AN = N
不重置抽样
1.概念: 也称无放回的抽样,每次总体中抽取一个单 位,登记后不再放回原总体,不参加下一次抽 选,下一次继续从总体余下的单位抽取样本单 位,这样继续进行n次试验。 有n个单位的样本是由n次连续试验构成的,但 因每次抽出不重置,所以实质上等同于同时从 总体中抽取n个样本单位。
抽样分布的基本概念与基本原理
抽样的基本概念
抽样分布的基本原理
第一节 抽样的基本概念
抽样调查的特点 经济性 时效性 必要性
抽样所需样本必需要有代表性 抽样误差与非抽样误差
抽样误差是指随机抽取于总体中的一部分 的样本而引起的误差
非抽样误差是指在调查过程中出现的所有 人为错误
❖ 抽样方法
抽样方式
解:由于总体标准差未知 ,所以采用t分布
t
x
S
n
其中,n=25,自由度=n-1=24 t7 .6 8 .5,则 P (x 7 .6 ) P (t 2 .8 1 3 7 )
1 .6 / 2 5
查 t 分 布 表 得 , 0 . 0 0 2 5 P ( x 7 . 6 ) 0 . 0 0 5
概率抽样
非概率抽样
简单随机抽样 整群抽样
多阶段抽样
分层抽样 系统抽样
方便抽样 自愿样本 配额抽样
判断抽样 滚雪球抽样
第二节 抽样分布的基本原理
总体参数与样本统计量 抽样分布定理
x 总体标准差 不明确时 的抽样分布
比率抽样分布
❖ 总体参数
总体平均值 总体方差 总体标准差 总体比率
Xi
随着自由度的增加,t-分布与正态分布之间的差
距将会不断减小(n>30),且t-分布的离散程度
也将减小
t-分布的均值为0,方差为 (1) 2
❖ t分布与标准正态的对比
标准正态分布
标准正态分布
t (df = 13)
t 分布
x
t 分布与标准正态分布的比较
t (df = 5)
z
t
不同自由度的t分布
❖ t分布表的使用
样本统计量的概率分布,是一种理论分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用数理统计概述不确定性数学:1 . 概率论、数理统计),,(P F Ω 2 . 模糊数学 )}(,{x x ϕM 3 . 灰色数学 ],[b a H 4 . 未确知数学 )}(],,{[x F b a对于上述各个数学分支,各自有相应的运算法则和适用范围。
(一) 概率论:1.),,(P F Ω: E 是一个随机试验,Ω 为E 的全体基本事件的集合 F 由Ω的一些子集为元素 所构成的集合人们通过对某事件A 的频率)(A f 的研究,发现了概率 )(A P 和性质及运算 2.讨论的一般方法: 随机变量 → 分布 → 数学期望、方差等(宏观指标) ① 对于一维 : )(ωξξ= )(i i x ωξ= ∑<=<=x x i i p x P x F }{)(ξ, i i p x P ==}{ξ ;⎰∞-=<=xdt t p x P x F )(}{)(ξ, 0)(≥x p .⎰∑∞+∞-∞==dx x xp p x E i i i )(1或ξ; 2)(ξξξE E D -=② 对于n 维 : 随机变量),,,(21n ξξξ → 实数),,,(21n x x x},{})({),,(2211121n n ni i i n x x x P x p x x x F <<<=<==ξξξωξω ;(二) 数理统计:1.基础:统计量⎪⎩⎪⎨⎧=∑=数据分区间处理经验型,如:公式型,n i in 11ξξ 及其分布 ⎩⎨⎧经验分布(直方图)分布如:统计分布2χ2. 样本的处理:① 参数估计; ② 假设检验(参数假设检验<本科>、非参数假设检验<分布拟合 与 两总体相等性检验>);③ 回归分析; ④ 方差分析 与 正交试验设计.数理统计的基本概念与抽样分布(复习)一. 基本概念:1. 总体ξ( 被研究对象的全体 );2. 样本 (n ξξξ,,,21 ) → 观测值(样本值 或 样本点) (n x x x ,,,21 ) 定理:→)()(~x p x F 或ξ∏∏==ni i n i i n x p x F 1121)()(~),,,(或ξξξ3.统计量 针对要解决的问题而构造的相应的样本的函数 ),,,(21n T T ξξξ = 注:统计量不含任何未知参数, ∑==ni in11ξξ如:等212*)(11ξξ--=∑=ni in S,它是公式性质的量.二.经验分布函数与直方图:目的:用观测值(数据)去估计和推断总体ξ的分布)()(x p x F 或 即:用数据 → 样本分布)(x F n ≈)(x F ; 直方图)(x p n ≈)(x p1.经验分布函数: ① 定义 若n x x x ,,,21 →ξ记 )(x n ν 为 n x x x ,,,21 中<x 的个数,则称)(x n ν为 经验频数 ; 并称+∞<<∞-=x nx x F n n )()(ν 为总体ξ的 经验分布函数(样本分布函数).② 操作 将)()2()1(21,,,,,,n n x x x x x x → 则⎪⎪⎩⎪⎪⎨⎧>-=≤<≤==+)()1()()1(11,,2,10)()(n k k n n x x n k x x x n k x x n x x F ν易知:1})()({lim =<-∞→εx F x F P n n ; )())((x F x F E n =;1}0)()(lim{==-+∞<<∞-∞→x F x F SupP n x n (格利汶科 Гливенко)2.直方图: 总体ξ的分布称为理论分布,即:)()(x p x F 或这里是用样本(数据)构造经验分布)(x p n ≈)(x p 其中)(x p n 的图象称为直方图① 离散型:设总体ξ的分布列 i i p x P ==}{ξ 未知,若n ξξξξ,,,21 →令 )(x i ν 表示该抽样中事件}{i x =ξ出现的次数, 则用n i p nx ii ,,2,1)( =≈ν 事实上,)(∞→−→−n p niPi ν② 连续型:设总体ξ的分布密度)(x p 未知,若n ξξξξ,,,21 →设 ),[],[)()1(b a n ⊂ξξ, 将 ),[),[1+−−→−i i m a a b a 个分 令 i ν 为样本落在),[1+i i a a 中的个数,则⎰+=<≤−→−+1)(}{1i ia a i i Pidx x p a a P nξν ≈ma b a P i -=}{ξ所以 ≈=}{i a P ξn m m i ab m ni<-=-⋅;1,,2,1 ν故③ 作图实例: (P.65 例1考察钢的含硅量ξ的)(x p n , 以此说明直方图的作法)1+i i处理方法 :找 95.0,64.0)()1(==n x x ;确定 )955.0,635.0[),[=b a ;确定小区间个数 16=m 以得 组距02.0=-ma b ; 计算 i ν ;画出以 ),[1+i i a a 为底边,高为的各个矩形 .有p.67 直方图p注: 区间个数m 的大小应根据数据个数n 的大小而定; 当n 、m (m <n ) 都充分大( 即:缩小组距 ) 时,)(x p n 的上边缘将以光滑的曲线)(x p 为极限.)(x p ≈三.常用统计分布: 1.分布2χ:① 若n N ξξξξ,,,)1,0(~21 →,则 统计量 )(~2122n ni iχξχ∑==② 若n N ξξξσμξ,,,),(~212 →,则 )(~)(12222n n i χμξσχ∑-=③ 分布2χ的密度曲线为: ④ 分布2χ的实用性结论⑴ 若 22221,,,m χχχ 独立,且),,2,1()(~22m k n k k =χχ则)(~1212∑∑==mk k mk kn χχ称为分布2χ的可加性⑵ 若)(~22n χχ则)()1,0(22∞→−→−-n N nnLχ⑶ 若)(~22n χχ则)()1,0(1222∞→−→−--n N n Lχ 或 )()1,12(22∞→-−→−n n N Lχ证明思路:}122{)(2x n P x F n <--=∆χ}2{}2)12({222n x nn P n x P εχχ+<-=-+<=其中 0lim =∞→n n ε 所以 )(21lim )(lim 22x dt ex F tx n n n nΦ==-+∞-∞→∞→⎰επ2.t 分布:① 若ξ、η独立,且)1,0(~N ξ,)(~2n χη则 统计量 )(~n t nt ηξ=② 若),(~2σμξN ,)(~22n χση,ξ、η独立,则 )(~n t nt ημξ-=xp③ t 分布的密度曲线为: ④ 结论 :设 )(~n t t ,记 密度为)()(x p n t则 ∞→n lim )()(x p n t )(2122+∞<<-∞=-x exπ一般 )30(2)(>≈n ex p t π3.F 分布:① 若ξ、η独立,且)(~2m χξ,~2χηm ξ推论:若),(~n m F F ,则 ,(~1n F F② F 分布的密度曲线为:4.分位数(分位点): αx αλ ① 分位数的概念:(i )下侧分位点 αx 使 αξαα==<)(}{x F x P (ii )上侧分位点αλ 使αλξα=≥}{P 显然αλξα-=<1}{P ② 几种分布的常用分位数说明:(本教材利用下侧分位点作为分位数,有)(i ) 标准正态分布 )1,0(~N U , α的分位数记为αu ,即:ααα=Φ=<)(}{u u U P (查正态表)或 αααα=≥⇒-=>-}{1}{21uU P u U P(ii )2χ分布:)(~22n χχα的分位数记为 )(2n αχ,即:αχχα=<)}({22n P (查2χ表) 或 αχχχχαα=≥<-}{2212222及P注:当n >45 时,使用 22)12(21)(-+≈n u n ααχ(iii )t 分布: )(~n t t α的分位数记为 )(n t α,αα=<)}({n t t P (查t 表)注:当n >45 时,使用 ααu n t ≈)(x或 αααα=≥⇒-=>-)}({1)}({21n tt P n t t P(iv )F 分布:),(~n m F F α的分位数记为 ),(n m F α,即:αα=<)},({n m F F P (查F 表) 或 ααα=≥<-}{212FF F F P 及注: ),(1),(1m n F n m F αα=-四.抽样分布的常用结论:1.,),(~1),(~122∑==nk knN nN σμξξσμξ,则)1,0(~N nσμξ-且2. 1,,,),(~21211n N ξξξσμξ →设2,,,),(~21222nN ηηησμη →独立与且}{}{21k k ηξ)1,0(~)()(222121212221N n n σσμμηξσσ+---为已知,则,若21212222111)()(n n S w+---==μμηξσσσ则未知,若)2(~21-+n n t 2)1()1(2212*222*1121222211-+-+-=-++=n n S n S n n n S n S n S w 其中∑=--=11212*1)(11n k kn Sξξ ∑=--=21222*2)(11n k kn Sηη3. ),,(~2σμξN )1(~1---=-*n t n S nSμξμξ则4. ),1,0(~N ξ 独立;或与则)(22*S S ξ ;且)1(~)()1(222*2--=-=∑n Sn nSi χξξ),,(~2σμξN 独立;或与则)(22*S S ξ;且)1(~)(1)1(22222*22--=-=∑n Sn nSiχξξσσσ5. 1,,,),(~21211n N ξξξσμξ →设2,,,),(~21222n N ηηησμη → 则)1,1(~2121222*22211--⋅*n n F S n S n σσ注:对于非正态总体的抽样分布,一般不易求出.但在大样本抽样的情况下,样本均值ξ有如下的近似分布: 设总体ξ,ξD 存在,n ξξξξ,,,21 → 则ξ近似服从 ),(2⎪⎪⎭⎫⎝⎛n D E N ξξ 五.顺序统计量与样本极差: 1.顺序统计量的概念:设n ξξξξ,,,21 →n x x x ,,,21 →排序 )()2()1(,,,n x x x , 则 ),,,(21)(n k k x x x f x =称),,,(21)(n k k f ξξξξ = 为 顺序统计量 (它不含未知参数)称)(k ξ为样本的第k 个顺序统计量, k nk ξξ≤≤=1)1(min 为样本的最小顺序统计量knk n ξξ≤≤=1)(max 为样本的最大顺序统计量.2. 样本极差的概念:设n ξξξξ,,,21 →)()2()1(,,,n ξξξ →称 ji nj i n n R ξξξξ-=-=≤≤,1)1()(m a x 为 样本极差注:关于样本极差的分布,若 ),1,0(~N ξ 那么,样本极差的分布函数、分位数、nER 、nDR在较详细的数理统计用表中,都有已编制的数值表可查.。