统计学抽样与参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分层抽样:也称分类抽样或类型抽样,它是按某个主要标 志对总体各单位进行分类,然后从各层中按随机原则分别 抽取一定数目的单位构成样本。
等距抽样:它是先将总体单位按一定顺序排队,计算出抽 样间隔(或抽样距离),然后按固定的顺序和间隔抽取样 本单位。
整群抽样:它是将总体分为若干部分(每一部分称为一个群), 然后按随机原则从中一群一群地抽选,对抽中群内的所有 单位进行全面调查。
二、抽样分布(Sampling distribution)
1、抽样分布的意义 2、样本均值的抽样分布 3、样本比例的抽样分布
1、抽样分布的意义
(1)抽样分布的概念 某一统计量(如:样本均值、成数和方差)
的所有可能样本的取值和与之相对应的概率所 形成的分布。 (2)数 字 特 征
均值E(X)
方差E[x-E(x)]2
1. 总体中各元素的观察值所形成的分布 2. 分布通常是未知的 3. 可以假定它服从某种分布
总体
(二)样本、样本统计量和样本个数
样本(Sample):从总体中所抽取的部分个体,样本 容量(Sample size)即样本单位数一般用“n”表示。
样本统计量(Sample statistic):根据样本各单位 标志值或标志属性计算的,反映样本数量特征的综 合指标。
160/400=40%
抽样估计方法主要用在下列两种情况
1、对所考查的总体不可能进行全部测度; 2、从理论上说可以对所考查的总体进行全部测 度,但实践上由于人力、财力、时间等方面的原因, 无法(不划算)进行全部测度。
注意: ●抽样估计只得到对总体特征的近似测度,因此,
抽样估计还必须同时考察所得结果的“可能范围” 与 “可靠程度”。
什么是抽样估计?
The purpose of Statistics inference is to obtain information about a population from information contained in sample.
例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。
第一节 抽样与抽样分布
一、有关抽样的基本概念 二、抽样分布
一、有关抽样的基本概念
(一)总体、总体参数及总体分布
总体(Population):它是指所要认识的,具有 某种共同性质的许多单位的集合体,也就是研究 对象的全体。总体单位数一般用“N”表示。
例1:某大公司人事部经理整理其2500个中层干部的 档案。其中一项内容是考察这些中层干部的平均年 薪及参加过公司培训计划的比例。
不重复抽样
从N个单位中每次抽取1个,抽取后不放回,一 直抽取n个单位组成一个样本这样的抽样方法称为 不重复抽样。
不重复抽样所得样本对总体的代表性较大,抽样 误差较小,所以实践中通常采用不重复抽样。
(四)概率抽样的组织方式
简单随机抽样:从容量为N的总体中完全随机地抽选样本,
使每个可能样本被抽到的可能性相等,则称容量为n的样本 为简单随机样本。
总体均值(population mean): =51800 总体标准差(Population standard deviation) =4000 总体比例P:P =1500/2500=0.60=60%
● 抽样估计就是要通过样本而非总体来估计总体参数。
总体分布 (population distribution)
2、考虑顺序的重复抽样:N n
3、不考虑顺序的不重复抽样:
C
n N
N! n!(N n)!
4、不考虑顺序的重复抽样:
Cn N n1
在社会经济统计中,往往采用的是较大总体 (视为无限总体)下的无序不重复抽样。
常用的参数和统计量计算公式
常用参数
常用统计量
平均数
X X
变量
N
总体
XF F
属性 总体
Xp P
方差
2
XX
N
2
X X 2F
F
2 p
P(1
P)
平均数
方差
x x n 1
xf f 1
s2
xx
n 1
2
x x 2 f
f 1
xp P
s
2 p
P (1
P)
(三)抽样方法
重复抽样
从N个单位中每次抽取1个,抽取后将其号码记 下,再放回,一直抽取n个单位组成一个样本,这 样的抽样方法称为重复抽样。
本
统 计
s (xi x)2 /(n 1) 325009260 / 29 3347.72
量
p 19 / 30 0.63
样本个数: 样本个数又称样本可能数目,也就是从 一个总体中可能抽取的样本个数。
在总体单位数为N的总体中抽取容量为n的 样本,样本个数可能有:
1、考虑顺序的不重复抽样:N(N-1)(N-2)…(N-n+1)
120个 样本
测试
平均里程: 36,500公里
新轮胎 推断 平均寿命:
36,50源自文库公里
例2:某党派想支持某一候选人参选美国某州议员,为了决定 是否支持该候选人,该党派领导需要估计支持该候选人的民众 占全部登记投票人总数的比例。由于时间及财力的限制:
400个 样本
支持人数: 160
推断
支持该候选人的选民 占全部选民的比例:
总体:2500名中层干部(population ),每个中层 干部是总体的个体单位。N-=2500
参数是总体的数值特征
A parameter is a numerical characteristic of a
population。
如果同时有1500人参加了公司培训,则可从例1每个 人的档案资料中计算如下的总体参数:
N
(一个例子)
第二步:抽样。从总体中抽取n=2的简单随机样
一个例子:样本均值的抽样分布
【例2】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。
第一步:计算总体的均值、方差及分布:
总体分布
.3 .2
均值和方差
N
xi
i1 2.5
N
.1
0 1
234
N
(xi )2
2 i1
1.25
在例1中,假如随机抽取了一个容量为30的样本:
Annual Salary
Management Training Program?
49094.3
Yes
53263.9
Yes
49643.5
Yes
…
…
根据该样本求得的年薪样本平均数、标准差及参加 过培训计划人数的比例分别为:
样
x xi / n 1554420 / 30 51814.00
等距抽样:它是先将总体单位按一定顺序排队,计算出抽 样间隔(或抽样距离),然后按固定的顺序和间隔抽取样 本单位。
整群抽样:它是将总体分为若干部分(每一部分称为一个群), 然后按随机原则从中一群一群地抽选,对抽中群内的所有 单位进行全面调查。
二、抽样分布(Sampling distribution)
1、抽样分布的意义 2、样本均值的抽样分布 3、样本比例的抽样分布
1、抽样分布的意义
(1)抽样分布的概念 某一统计量(如:样本均值、成数和方差)
的所有可能样本的取值和与之相对应的概率所 形成的分布。 (2)数 字 特 征
均值E(X)
方差E[x-E(x)]2
1. 总体中各元素的观察值所形成的分布 2. 分布通常是未知的 3. 可以假定它服从某种分布
总体
(二)样本、样本统计量和样本个数
样本(Sample):从总体中所抽取的部分个体,样本 容量(Sample size)即样本单位数一般用“n”表示。
样本统计量(Sample statistic):根据样本各单位 标志值或标志属性计算的,反映样本数量特征的综 合指标。
160/400=40%
抽样估计方法主要用在下列两种情况
1、对所考查的总体不可能进行全部测度; 2、从理论上说可以对所考查的总体进行全部测 度,但实践上由于人力、财力、时间等方面的原因, 无法(不划算)进行全部测度。
注意: ●抽样估计只得到对总体特征的近似测度,因此,
抽样估计还必须同时考察所得结果的“可能范围” 与 “可靠程度”。
什么是抽样估计?
The purpose of Statistics inference is to obtain information about a population from information contained in sample.
例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。
第一节 抽样与抽样分布
一、有关抽样的基本概念 二、抽样分布
一、有关抽样的基本概念
(一)总体、总体参数及总体分布
总体(Population):它是指所要认识的,具有 某种共同性质的许多单位的集合体,也就是研究 对象的全体。总体单位数一般用“N”表示。
例1:某大公司人事部经理整理其2500个中层干部的 档案。其中一项内容是考察这些中层干部的平均年 薪及参加过公司培训计划的比例。
不重复抽样
从N个单位中每次抽取1个,抽取后不放回,一 直抽取n个单位组成一个样本这样的抽样方法称为 不重复抽样。
不重复抽样所得样本对总体的代表性较大,抽样 误差较小,所以实践中通常采用不重复抽样。
(四)概率抽样的组织方式
简单随机抽样:从容量为N的总体中完全随机地抽选样本,
使每个可能样本被抽到的可能性相等,则称容量为n的样本 为简单随机样本。
总体均值(population mean): =51800 总体标准差(Population standard deviation) =4000 总体比例P:P =1500/2500=0.60=60%
● 抽样估计就是要通过样本而非总体来估计总体参数。
总体分布 (population distribution)
2、考虑顺序的重复抽样:N n
3、不考虑顺序的不重复抽样:
C
n N
N! n!(N n)!
4、不考虑顺序的重复抽样:
Cn N n1
在社会经济统计中,往往采用的是较大总体 (视为无限总体)下的无序不重复抽样。
常用的参数和统计量计算公式
常用参数
常用统计量
平均数
X X
变量
N
总体
XF F
属性 总体
Xp P
方差
2
XX
N
2
X X 2F
F
2 p
P(1
P)
平均数
方差
x x n 1
xf f 1
s2
xx
n 1
2
x x 2 f
f 1
xp P
s
2 p
P (1
P)
(三)抽样方法
重复抽样
从N个单位中每次抽取1个,抽取后将其号码记 下,再放回,一直抽取n个单位组成一个样本,这 样的抽样方法称为重复抽样。
本
统 计
s (xi x)2 /(n 1) 325009260 / 29 3347.72
量
p 19 / 30 0.63
样本个数: 样本个数又称样本可能数目,也就是从 一个总体中可能抽取的样本个数。
在总体单位数为N的总体中抽取容量为n的 样本,样本个数可能有:
1、考虑顺序的不重复抽样:N(N-1)(N-2)…(N-n+1)
120个 样本
测试
平均里程: 36,500公里
新轮胎 推断 平均寿命:
36,50源自文库公里
例2:某党派想支持某一候选人参选美国某州议员,为了决定 是否支持该候选人,该党派领导需要估计支持该候选人的民众 占全部登记投票人总数的比例。由于时间及财力的限制:
400个 样本
支持人数: 160
推断
支持该候选人的选民 占全部选民的比例:
总体:2500名中层干部(population ),每个中层 干部是总体的个体单位。N-=2500
参数是总体的数值特征
A parameter is a numerical characteristic of a
population。
如果同时有1500人参加了公司培训,则可从例1每个 人的档案资料中计算如下的总体参数:
N
(一个例子)
第二步:抽样。从总体中抽取n=2的简单随机样
一个例子:样本均值的抽样分布
【例2】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。
第一步:计算总体的均值、方差及分布:
总体分布
.3 .2
均值和方差
N
xi
i1 2.5
N
.1
0 1
234
N
(xi )2
2 i1
1.25
在例1中,假如随机抽取了一个容量为30的样本:
Annual Salary
Management Training Program?
49094.3
Yes
53263.9
Yes
49643.5
Yes
…
…
根据该样本求得的年薪样本平均数、标准差及参加 过培训计划人数的比例分别为:
样
x xi / n 1554420 / 30 51814.00