社会调查与社会统计5 抽样与参数估计共88页
社会调查研究方法教案第5章 抽样
第5章抽样(8学时)第一节抽样的意义与作用一、抽样的概念1.总体总体(population)通常与构成它的元素共同定义:总体是构成它的所有元素的集合,元素则是构成总体的最基本单位。
2.样本样本(sample)就是从总体中按一定方式抽取出的—部分元素的集合。
或者说一个样本就是总体的一个子集。
3.抽样明白了总体和样本的概念,再来理解抽样的概念就十分容易了。
所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择成抽取样本的过程。
4.抽样单位抽样单位(sampling unit)就是一次直接的抽样所使用的基本单位。
抽样单位与构成总体的元素有时是相同的,有时又是不同的。
5.抽样框抽样框(sampling frame)又称做抽样X围,它指的是一次直接抽样时总体中所有抽样单位的。
6.参数值参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。
在统计中最常见的总体值是某一变量的平均值,7.统计值统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。
样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。
二、抽样的作用在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。
本章一开始我们就说过,一项社会研究若能对总体中的全部个体都进行了解,那当然是很好的。
但实际上广大研究人员在时间、经费、人力等方面遇到难题,甚至陷入困境,从而不得不在庞大的总体与有限的时间、人力、经费这二者之间寻求平衡。
以现代统计学和概率论为基础的现代抽样理论,以及不断发展、不断完善的各种抽样方法.正好适应了社会研究的发展和应用的需要,成为社会研究知识体系中必不可少的一部分内容。
第五章 抽样分布与参数估计
对于整群抽样: 群内是全面调查 , 群间是抽样调查
4.系统随机抽样
系统随机抽样又称为机械随机抽样或等距随机抽样。 它是先将总体中各单位按一定的标志排队,然后每隔一定 的距离抽取一个总体单位(个体)的抽样方式。
例如:从100人中抽取10人构成样本,先将100人排队编号, 然后在1~10号之间随机抽取一个数字,比如抽到3,那么 编号为 3,13,23,33,43,53,63,73,83,93的10个 人组成样本。
总体
样本均值
样本
样本方差
抽样分布
二、抽样调查的分类
❖ 随机抽样:按照随机原则,完全排除了人为的主观 因素,总体中每个单位都有一定的概率被选入样本。
❖ 非随机抽样:从方便出发或者根据研究者主观的判 断来抽取样本,不遵循随机原则。无法估计和控制 抽样误差,无法用样本的数量特征来推断总体。 (方便抽样、配额抽样、 不等概率PPS抽样等)
具体排队时又分
按无关标志排队 按有关标志排队
5.多阶段随机抽样
多阶段随机抽样是将一次抽样后得到的样本当作总 体再次进行随机抽样,得到第二次抽样样本,然后再如 此进行下去的抽样方式。
例如:我国农产量调查就采用五阶段抽样方式。省抽县、县 抽乡、乡抽村、村抽地块、地块抽样本点,对样本点进行实 割实测的调查方法。
四、抽样调查的应用
对一些社会现象不可能或不必要进行全面调查时, 一种是被调查总体包含有无穷多个单位,第二种是 对破坏性和消耗性产品的检验(如:家用电器检验、 食品卫生检验等)。
企业产品质量的管理。 对一些时效性较强但有来不及采取全面调查的。 可以对大规模的全面调查进行检验,以修正资料。
五、抽样推断中的理论依据
抽样与参数统计
4
4,1
4,2
4,3
4,4
19 5-
统计学
STATISTICS
样本均值旳抽样分布
(例题分析)
计算出各样本旳均值,如下表。并给出样本均 值旳抽样分布
16个样本旳均值(x)
第一种 第二个观察值
观察值 1
2
3
4
1
1.0 1.5 2.0 2.5
2
1.5 2.0 2.5 3.0
3
2.0 2.5 3.0 3.5
=10
n= 4
x 5
n =16 x 2.5
= 50 X
总体分布
x 50
x
抽样分布
22 5-
统计学
STATISTICS
中心极限定理
(central limit theorem)
中心极限定理:设从均值为 ,方差为 2旳一种任意 总体中抽取容量为n旳样本,当n充分大时,样本均值 旳抽样分布近似服从均值为μ、方差为σ2/n旳正态分布
统计学
STATISTICS
第 5 章 抽样与参数估计
1 5-
统计学 第 5 章 抽样与参数估计
STATISTICS
5.1 抽样及其分布 5.2 抽样方法 5.3 参数估计
5.4 样本容量旳拟定 5.5 Excel旳应用
2 5-
统计学
STATISTICS
学习目的
1. 了解抽样和抽样分布旳基本概
念
2. 了解点估计旳概念和估计量旳
30 5-
统计学
STATISTICS
样本百分比旳抽样分布
(数学期望与方差)
• 样本百分比旳数学期望
E( p)
• 样本百分比旳方差
统计学抽样与参数估计
12
12
2
(
N
n )
1.25
(
4
2)
5
n N -1 2 4 1 12
样本平均数的标准差又称为抽样平均误差(或抽样标 准差)。
第19页/共87页
样本均值的分布与总体分布的比较
总体分布
.3
.2
.1 0
1
234
= 2.5
σ2 =1.25
.3 P ( X ) 抽样分布
.2
.1
0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
和
x
n
N n ,即均值推断的抽样误差 N 1
第25页/共87页
样本均值抽样分布的实际应用
•
样本统计量的估计值与其所要测度的总体参数值之
间的绝对差距,被称为抽样误差(sampling error)。
• 抽样分布能够用来提供抽样误差大小的可能性(概
率)。
在例1中,如果人事部经理认为
在一次抽样中所得到的中层干部的
第22页/共87页
B、当总体分布未知时,需要用到中心极 限定理(Central limit Theorem)
对容量为n 的简单随机样本,样本均值的分 布随样本容量的增大而趋于正态分布。
经验上验证,当样本容量等于或大于30时,无 论总体的分布如何,样本均值的分布则非常接近正 态分布。
因此统计上常称容量在30(含30)以上的样本 为大样本(large-sample-size)。
n+1)
Nn
32、、不考考虑虑顺顺序序的的重不复重抽复样抽:样:
C
n N
N! n!(N n)!
4、不考虑顺序的重复抽样:
统计学课件05第5章抽样与参数估计
反映样本数据的集中趋势和平均水平。
样本方差
定义
样本方差是每个样本数据与样本均值差的平方和的平均值,即 $s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - overline{x})^2$。
计算方法
先计算每个样本数据与样本均值的差,然后将差平方,最后求和平 均。
作用
反映样本数据的离散程度和波动情况。
样本量的确定
根据调查目的和精度要求确定样 本量:精度要求越高,需要的样
本量越大。
根据总体规模和抽样方法确定样 本量:总体规模越大,需要的样 本量越大;分层或整群抽样较简 单随机抽样需要的样本量更大。
根据调查资源确定样本量:资源 有限时,需要在满足调查目的和 精度要求的前提下,合理确定样
本量。
02 参数估计
大数定律的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布函数F(x),则对于任意正实数ε,有 lim(n->∞)P(|X1+X2+...+Xn/n-E(X))/ε)=0,其中E(X)是随机变量X的期望值。
大数定律的实例
在抛硬币实验中,随着实验次数的增加,正面朝上的频率将趋近于0.5。
中心极限定理
中心极限定理定义
中心极限定理是指在大量独立同分布的随机变量中,不论 这些随机变量的分布是什么,它们的平均值的分布总是趋 近于正态分布。
中心极限定理的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布 函数F(x),则对于任意实数x,有lim(n->∞)P(∑Xi≤x)=∫(∞->x)F(t)dt。
样本分布的性质
无偏性
如果样本统计量的数学期 望等于总体参数,则该统 计量是无偏的。
第5章抽样与参数估计
❖ 方便抽样是从便利的角度来考虑获取样本的。 样本的选取主要是让调查员来决定。
❖ 判断抽样是指根据调查人员的主观经验从总 体样本中选择那些被判断为最能代表总体的 单位作样本的抽样方法。
❖ 滚雪球抽样是指先对随机选择的一些被调查 者实施访问,然后再请他们推荐属于研究目 标总体特征的调查对象。
合计
单位数
N1 N0
N
变量值 1 0 —
均 值
μ p
X f 1N 10N 0N 1π
f
N
N
标
(Xμ )2f p
1π 2N0π 2N
1
0
准p
f
NN
1
0
差
( 1π )2π π ( 21π ) π (1π )1π π π (1π )
2008-2009
✓样本比例的抽样分布
• 容量相同的所有可能样本的样本比例的概率 分布
• 表示为 (1 - a
a 为是总体参数未在区间内的比例
• 常用的置信水平值有 99%, 95%, 90%
相应的 a 为0.01,0.05,0.10
2008-2009
✓置信区间 (confidence interval)
• 由样本统计量所构造的总体参数的估计区间称 为置信区间
• 统计学家在某种程度上确信这个区间会包含真 正的总体参数,所以给它取名为置信区间
• 估计量:用于估计总体参数的随机变量
如样本均值,样本比例、样本方差等 例如: 样本均值就是总体均值 的一个估计量
• 参数用 表示,估计量用 ˆ 表示 • 估计值:估计参数时计算出来的统计量的具
体值
如果样本均值 x =80,则80就是 的估计值
社会统计学第5章抽样和与统计推论
05
实例分析
实例一:市场调查抽样
总结词
代表性抽样
VS
详细描述
市场调查中,通过随机或系统抽样的方法 ,从目标总体中抽取一部分个体作为样本 ,通过对样本的调查和分析,推断出总体 特征。代表性抽样要求样本具有足够的代 表性,能够反映总体的实际情况。
实例二:人口普查数据推论
总结词:无
详细描述:人口普查是对全体人口进行调查登记的一种全面调查方式。通过人口 普查,可以获得全体人口的各项指标数据。在人口普查数据的基础上,可以通过 统计分析和推论,得出有关人口特征和规律的结论。
样本误差
02
01
03
样本误差是由于样本的随机性导致的误差,是不可避 免的误差。
样本误差的大小取决于样本的随机性和总体分布情况 。
减小样本误差的方法包括增加样本规模、提高样本代 表性等。
样本误差的估计
样本误差的估计可以通过标准 误差、置信区间等方式进行。
标准误差是衡量样本变异性的 指标,其值越小,说明样本越 稳定。
单侧检验与双侧检验
根据备择假设的数量,假设检验可以分为单侧检验和双侧检验。单侧检 验是指只考虑一个方向的检验,而双侧检验则同时考虑两个方向的检验。
03
显著性水平与临界值
显著性水平是用于判断假设是否成立的概率标准,通常取值为0.05或
0.01。临界值则是用于判断检验统计量是否超过某个界限的标准值。
置信区间与置信水平
详细描述
随机抽样能够减少主观因素的影响,使样本更具代表性。在随机 抽样中,每个个体被选中的机会是均等的,因此能够较好地反映 总体情况。
系统抽样
总结词
系统抽样是一种按照固定的间隔或顺序进行抽样的方法,通常适用于具有规则分布的总体。
抽样与参数估计统计学实验报告
抽样与参数估计统计学实验报告抽样与参数估计统计学实验报告概述本实验以抽样与参数估计统计学为主题,研究了参数估计、抽样方法、统计识别等内容。
实验目的1. 熟悉参数估计和统计分析的基本原理和方法;2. 掌握抽样的基本原理,熟悉抽样方法的运用;3. 掌握统计模型识别的方法,进行统计分析和决策;实验介绍1. 参数估计:参数估计是统计分析过程中重要的一步,它是识别某个实际系统的一个重要参数,以此据估计出实际系统的精确参数,估计准确的参数是统计模型的建立的前提。
2. 抽样方法:抽样方法就是从一个总体中取样,所取样的水平表现出一定的代表性,从而能推算出总体的概况,抽样方法有分层抽样、系统抽样、整群抽样等多种。
3. 统计模型识别:是用统计技术进行模型识别,它是利用概率模型来分析数据,建立有效的模型,从而进行有效的分析。
数据分析1. 针对参数估计,我们使用假设检验,通过比较估计值和真实值,进行检验,从而得出参数的准确度。
2. 针对抽样方法,我们使用分层抽样,将总体划分成不同的层,可以更好地表征总体,进行有效抽样。
3. 针对统计模型识别,我们使用多种模型进行比较,根据其检验概率和显著性水平,选择出最有效的模型进行识别。
结论1. 通过假设检验,得出了参数估计的准确度;2. 通过分层抽样得出了较好的抽样结果;3. 通过多种模型进行比较,选择出最有效的模型进行识别。
建议在下次实验中,为了提高参数估计的精度,应该进行更加精细的假设检验;为了增加抽样的可靠性,应该采用更为严谨的抽样方法;此外,要多尝试不同的统计模型,以期得到更好的结果。
第5抽样分布与参数估计共72页文档
例:在某省100多万农户抽取1000户调查 农户生产性投资情况。
第一阶段:从省内部县中抽取5个县; 第二阶段:从抽中的5个县中各抽4个乡; 第三阶段:从抽中的20个乡中各抽5个村; 第四阶段:从抽中的100个村中各抽10户。
样本n=100×10=1000(户)
返回
七、抽样调查中的几个基本概念
抽样误差的范围,可以事先计算并控制
保证抽样推断的结果达到事先预定的 可靠程度。
返回
四、抽样调查的应用
抽样调查具有节省人力、物力、财力和时间等 优点,适用于以下几种情况:
对某些现象不可能或不必要进行全面调查, 而又要了解现象总体数量特征时采用抽样调 查方法;
应用抽样调查,可以检查全面调查资料的质 量,并对全面调查资料进行修订;
抽样比
同理可得:
p
p(1p) Nn n N1
当 N 很大时
p p(1np)1Nn
3. 抽样极限误差
抽样极限误差是指以样本估计总体在某种概率意义
下所允许的最大误差范围,是估计的精度。
通常用“”来表示xXx pPp
抽样极限误差与抽样平均误差之比的系数称 为抽样概率度 , 记为 t。样本容量较大时,t分布 与正态分布差别不大,用 u / 2 表示。
但是在客观实际中,总体并非都是正态 分布。对于从非正态分布的总体中抽取的样 本平均数的分布问题,需要由中心极限定理 来解决。
(三)中心极限定理
如果变量 X 的分布具有期望值 和标准差 , 从这个总体抽取容量为 n 的样本,则当 n 趋于无穷 大时,样本平均数 X 近似服从正态分布,其平均数
E( X ) 仍为 ,其标准差为 。
含义:又称分层抽样,是先将总体所有 单位按某些重要标志进行分类(层), 然后在各类(层)中独立地抽取样本单 位的一种抽样方式。
《抽样与参数估计》PPT课件
系统抽样〔等距抽样〕:先将总体各单位 按某种顺序排列,并按某种规那么确定一 个随机起点,然后每隔一定的间隔抽取一 个单位,直至抽取n个形成一个样本。
······ · · · · · ·
优点:具有简单随机抽样的特征,能比 较均匀地抽到总体中各个局部的单位, 简单易行。
14
非概率抽样
根据研究人员的主观判断来抽取样本, 研究人员有意识地选取样本单位,样本 单位的抽取不是随机的。
样本均值的抽样分布
30
所
n
有
均
值
xi M 1x i 1 .0 1 .5 1 2 6 4 .0 2 .5
的
n
均
(xi x)2
值 和
2 i1 x
M
方 差
(1.02.5)2 (4.02.5)2
0.6
2
25
16
n
式中:M为样本数目,n 为样本容量 比较及结论:1. 样本均值的均值〔数学期望〕等于总体均值
26
【例】设一个总体,含有4个元素〔个体〕,即总体单 位数N=4。4 个个体分别为X1=1、X2=2、X3=3 、 X4=4 。总体的均值、方差?
均值和方差
N
Xi
i1 2.5
N
N
(Xi )2
2 i1
N
1.25
27
现从总体中抽取n=2的简单随机样本,在重复
抽样条件下,所有样本的均值如何分布?
4.1.1 概率抽样方法 4.1.2 抽样分布
20
三种不同性质的分布
总体分布 样本分布
频数分布表、图等
抽样分布:样本统计量的概率分布。结 果来自容量一样的所有可能样本。
21
某生产车间50名工人日加工零件数如下(单位:个)
第六章 抽样和参数估计
2.5
D X2116X20 .62 5 2
X 1i6 1
n
例6.1 设从均值为μ=8,标准差σ=0.6 的总体中 随机抽取样容量为 n=25 的样本,假定总体并不是很偏
的,则 1.求样本均值 X 小于 7.9 的近似概率 2.求样本均值 X 超过 7.9 的近似概率
它是θ的函数,记
n
L,x1,x2, ,xnfxi , i1
称为似然函数。
(6.14)
最大似然估计法就是求似然函数的最大值点 作ˆ 为
θ 的估计量。
例6.4 设 X1,X2,,Xn来自正态总体 N(,2) ,求μ
与 2 的最大似然估计。
解:正态总体 N,2的概率密度为
2. P(X7.9)1P(X7.9)
1P(Z0.83 )0.7967
3. P( X 0.1) P( 0.1 X 0.1 )
0.12 0.12 0.12
PZ 0.83P(Z 0.83) 20.83120.79671
0.5934
解:⑴.根据中心极限定理,当厂商假定正确时,50个
电池的平均寿命 X 近似服从正态分布,有
54,
2
2
62
0.72
X
X n 50
0.720.85 X
即
X~N5,0 4 .825
⑵
.
P X 52P X0.8554502.8554
PZ2.351PZ2.35
Z0.0
5
2
2451
1
2
1.645 89 61.37
2
五、两个样本方差比的分布
设 X1,X2,,Xn1 为来自正态总体 N1,12 的一个 随机样本,Y1,Y2,,Yn2 是来自正态总体 N2,22 的一个
【专用文档】抽样与参数估计.doc
第四章抽样与参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statistical inference)。
这个调查例子是估计总体参数(某种意见的比例)的一个过程。
估计(estimation) 是统计推断的重要内容之一。
统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesis testing) 。
因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布与总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样与抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Item unit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Sample size):样本中所含个体的数量一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。
一、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样与不重复抽样。
而且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样③、整群抽样:将一组被调查者(群)作为一个抽样单位④、等距抽样:在样本框中每隔一定距离抽选一个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择一群特定数目、满足特定条件的被调查者2、抽样分布一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。