长文详解统计学中的抽样技术

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

长文详解统计学中的抽样技术

每当我们遇到统计学研究,都会听到很多不同的统计学术语,其中一个就是抽样。在本文中,我们将向您展示什么是采样,然后深入讨论不同采样技术的细节。

抽样

Sampling

简单来说,抽样就是从总体中选取一个群体(样本),从中收集可以用于研究的数据。取样是研究的一个重要部分,因为研究结果在很大程度上取决于所使用的取样技术。因此,为了得到准确的结果,或者很好地预测总体结果,需要选择合理的抽样技术。

我们先从统计学的角度来了解,究竟什么是样本和总体。

总体(Population)是我们从中抽取统计样本进行研究的元素或个体资源的集合,最终我们要对这一整个总体作出结论。总体中包含的元素或个体的数量被称为群体大小(population size)。

注:在统计研究中,总体(Population)并不总是指的人。它可以是任何东西,比如印度的羊的数量;美国所有小学生的人数;互联网上所有博客网站的数量。

另一方面,样本又是总体的一个子集,它是你收集数据的特定组。样本中元素或个体的数量称为样本容量(sample size),选择样本的过程就称为抽样(sampling)。例如,印度拉贾斯坦邦州的绵羊样本;美国纽约的小学生样本;互联网上的数据科学博客相关的网站样本。

注:样本的大小总是小于总体的大小。

那么,我们为什么需要样本呢?这是个好问题,我们先了解一下。

为什么我们需要样本?

答案很简单,也很直接。几乎不可能从总体中的每一个个体(或元素)收集数据,因此,抽样有助于我们获得关于整个总体的信息。很明显,结果不可能完全准确,但会接近于整体。此外,重要的是,所选的样本应该要代表总体,不能带有任何偏见。

这是一个简单的从人群中抽取样本的例子。

图片来源:

抽样技术其实有很多,但我们在这里只讨论一些统计中常见的抽样技术,也不会对这些技术进行太多的比较。

抽样技术

Sampling techniques

简单随机抽样(Simple Random Sampling---SRS)

假设一共20个人,我们需要取7个人作为样本。为了便于理解,我们给这些人编号。现在,我们在1到20之间随机选取7个数字,与这些数字相对的人将成为我们样本的一部分。如果与所选号码对应的人已经在我们的样本中,我们将跳过该号码,选择另一个号码。

图片来源:

假设我们选4,然后7,然后11,然后20,然后1,然后12,然后20。既然20已经被选过了,那我们再选一个数字,假设选19。为了便于理解,我们把选中的人划掉。

图片来源:

注意:

•我们跳过重复的数字,因为现实中我们不会对同一个人

进行两次调查或采访。

•有许多不同的方法来生成随机数。可以通过编程实现,也可以把所有的数字放在一个袋子里,一次选一个。

这种类型的抽样被称为简单随机抽样(simple random sampling)。当总体是同类的时候,这种抽样方法是最合适的。可以注意到,样本中的每个成员都有相等的选择机会(概率),在这种情况下,选择的概率是1/20。

分层抽样(Stratified Sampling):

让我们使用与上面相同的例子。假设这次的样本量是9。我们根据这些人穿衣服的颜色把他们分成不同的组。

图片来源:

根据颜色,我们将从这20个人划为4组。这些小群体中的每一个都被称为一个层(stratum),而每一个层都可以被一个特征定义,在这里就是衣服的颜色。因此,层是根据样本成员的先决条件创建的。一个层的成员是同类的,一个层的成员与另一个地层的成员是异类的。因此,当总体本身是异类的,但同类的层可以从中分离出来时,就可以使用这个抽样。

现在,每层选一个成员,也就是每层取一个样本。当我们对具有许多不同层的总体进行抽样时,通常要求样本中各层的比例应与总体中各层的比例相同。

为了简单理解这个概念,这里举一个简单的例子:•黑色的比例=(黑色数量/总数量)*样本量= (9/20)*8 =

3.6

•红色比例= (4/20)* 8 = 1.6

•蓝色比例= (4/20)* 8 = 1.6

•绿色比例= (3/20)* 8 = 1.2

如果我们选择近似的数字,可以选4个黑色,2个红色,2个蓝色和1个绿色来代表总体。

注:从单独的层中抽取样本时,可以采用随机抽样或其他任何抽样技术。

整群抽样(Cluster Sampling):

人们经常会混淆整群抽样和分层抽样,但这两种抽样方法是不同的。主要的区别是,在整群抽样中,你用自然组将总体分类。例如,城市街区、学区、年龄、性别等等。

我们再次考虑以上的总体,假设第一排的人住在第36街,第二排的人住在第11街,每一排是一个集群。

图片来源:

现在,我们可以从这两个集群中选择一个集群(这可以通过简单的随机抽样完成)。假设我们选择第11街,那么我们将调查住在第11街的每一个人。

注意:我们可以选择任意数量的集群。

整群抽样可以通过两种方式进行:

单阶段整群抽样(Single-stage cluster sampling):

即随机选择整群并调查整群中的每一个成员。

两阶段整群抽样(two-stage cluster sampling):

即首先随机选择整群,然后从被选中的整群中随机选择成员。

系统抽样(Systematic Sampling):

在这种抽样技术中,我们系统地选择成员。在这里是指,通过把所有成员排序为一个列,再以固定间隔选择成员。

让我们考虑20人的样本人群。假设我们要选五个人,我们的系统从第三个人开始,每四个人选一个。继续这样做,直到我们的样本选择了五个人。(勾号代表选中的人。)

相关文档
最新文档