大数据环境下的滚雪球抽样
滚雪球抽样案例
滚雪球抽样案例
滚雪球抽样是一种非概率抽样方法,适用于人口或资源分布不均匀的情况。
它是通过已知的样本对象来寻找其他符合条件的样本对象,从而逐渐扩大样本规模的一种抽样方法。
下面我们通过一个实际案例来介绍滚雪球抽样的应用。
某市社区卫生服务中心需要对该市的糖尿病患者进行一项健康调查,但由于糖尿病患者分布广泛且数量庞大,无法进行全面的抽样调查。
因此,他们决定采用滚雪球抽样的方法来进行调查。
首先,调查员在社区卫生服务中心的病历数据库中随机选择了10名糖尿病患者作为初始样本对象。
然后,调查员通过这10名患者的社交网络和糖尿病患者互助群等渠道,找到了他们的朋友、家人或同事中的另外20名糖尿病患者,并将他们加入到样本中。
接着,这30名患者又帮助调查员找到了更多的糖尿病患者,使得样本规模逐渐扩大。
通过滚雪球抽样,社区卫生服务中心最终得到了一个包括100名糖尿病患者的样本。
这个样本的构建过程中,每个被抽样的患者都可以帮助到其他患者,使得调查员可以迅速扩大样本规模,同时也保证了样本的多样性和代表性。
在这个案例中,滚雪球抽样方法为调查员提供了一种有效的方式来获取大规模样本,尤其适用于那些无法准确估计总体参数、无法得到总体名单的情况。
通过不断扩大样本规模,滚雪球抽样可以帮助调查员获取更多的信息,提高调查的代表性和可靠性。
总之,滚雪球抽样是一种灵活、高效的抽样方法,能够帮助调查员在资源有限的情况下获取大规模、多样性的样本,从而更好地开展调查工作。
在实际应用中,我们可以根据具体情况灵活运用滚雪球抽样方法,以达到更好的调查效果。
滚雪球抽样方法的文献综述
滚雪球抽样方法的文献综述作者:宁勐来源:《科学导报·学术》2018年第11期【中图分类号】 F626.5 【文献标识码】 A 【文章编号】 2236-1879(2018)11-0176-01雪球抽样被广泛地应用于定性的社会学研究中。
而就目前来看,国内学者利用滚雪球抽样进行的研究少之又少,而国外学者已经对滚雪球抽样进行了十分细致的研究。
国外学者对滚雪球抽样的研究较为丰富,其研究内容大体可以分为以下三类:一、滚雪球抽样的理论研究滚雪球抽样的概念最早是由coleman[1]在1958年提出的,他认为传统的调查方法忽视了个体之间的社会结构和联系,即社会成员是独立的个体,因此提出重视个体间关系的滚雪球抽样。
随后,goodman[2]在1961针对隐藏人口提出同伴驱动的滚雪球抽样,在文中他详细地介绍了S阶段K推荐滚雪球抽样的定义,并讨论了如何通过抽样样本对总体的一些特征做出推断,他指出,在对隐藏人群进行抽样时,滚雪球抽样比简单随机抽样更具效率。
二、结合具体案例对滚雪球抽样进行实证性研究Frank和Snijders提出基于伯努利概率模型使用一波滚雪球抽样对隐藏人口规模进行估计的方法,并在此基础上对格罗宁根的海洛因使用者展开实证研究,通过提供仿真结果来比较极大似然估计量、基于模型估计量、基于设计估计量以的优缺点。
结果表明,使用一波的滚雪球样本估计总体规模是可行的,但前提是假设初始样本即种子符合伯努利概率模型。
Thompson 研究了滚雪球抽样的一个特例,采用图形设置和空间设置的适应性种群抽样对隐藏人群进行研究,指出图形设置是指通过边缘(如社交链接或地理邻近度)连接的节点(例如,人物),选择节点或边缘为初始样本,然后跟随边缘以使其他节点纳入样本。
Chow提出在估计隐藏人口和难以接近的人口规模时,使用滚雪球抽样技术才可以获得足够大的样本,以此进行有效的研究,并提出利用贝叶斯估计方法能够有效的结合先验信息,得到未知参数的一个后验分布,可以提高估计的有效性。
非概率抽样专题研究
非概率抽样专题研究作者:宁勐来源:《科学与财富》2019年第07期非概率抽样包括目标抽样、时间地点抽样、滚雪球抽样、马尔科夫过程抽样、同班驱动抽样等。
在计算、存储能力的限制下,全数据的获取还难以实现,抽样调查仍然将在一段时间内成为我们获取数据的重要方式,因此如何改进已有的抽样调查方法来适应大数据特点,就成为了我们必须解决的问题,而非概率抽样方法作为重要的抽样方法,在这个背景下就被广泛的使用。
其中滚雪球抽样的应用最为广泛。
滚雪球抽样被广泛地应用于定性的社会学研究中。
而就目前来看,国内学者利用滚雪球抽样进行的研究少之又少,而国外学者已经对滚雪球抽样进行了十分细致的研究。
因此本文从国内和国外两个方面对滚雪球抽样的研究进行阐述。
滚雪球抽样是一种可以获得有效估计量的抽样设计方法,该方法不仅允许个体提供有关自己的信息,而且提供其他相关个体的信息。
传统方法是基于渐进理论对模型进行推论的,但在小样本的情况下,置信度的准确性是令人质疑的。
我国关于滚雪球抽样的应用并不多见,文献主要集中在米子川老师及他的学生所做的成果。
米子川[14](2015)首次提出在滚雪球抽样中使用捕获再捕获抽样估计的方法来推断某些特定群体规模的方法,基于此方法对太原市某社区心脑血管病人的规模和用药情况进行估计,结果表明,滚雪球抽样通过捕获再捕获方法的模拟和估计,得到了更精确的推断结论。
此方法对非概率抽样的滚雪球抽样进行进一步发展和推广。
米子川、金勇进和程开明等学者对大数据时代下的非概率抽样方法进行了深入探究。
米子川和聂瑞华[15](2016)将包含滚雪球抽样的多种非概率抽样方法与互联网数据产生的特点相结合,提出在互联网大数据背景下继续使用非概率抽样的思想,例如可以基于微博等社交网络产生的大量数据,将滚雪球抽样拓展到针对社会网络群体的数据搜集工作上。
在此基础上,米子川和聂瑞华[16](2016)详细介绍了利用非概率抽样方法对社会网络人群抽样的研究现状,并将滚雪球抽样与其他非概率抽样进行了比较,在此基础上给出了作者的认知和应用的思考。
滚雪球抽样方法的文献综述
滚雪球抽样方法的文献综述雪球抽样被广泛地应用于定性的社会学研究中。
而就目前来看,国内学者利用滚雪球抽样进行的研究少之又少,而国外学者已经对滚雪球抽样进行了十分细致的研究。
国外学者对滚雪球抽样的研究较为丰富,其研究内容大体可以分为以下三类:一、滚雪球抽样的理论研究滚雪球抽样的概念最早是由coleman[1]在1958年提出的,他认为传统的调查方法忽视了个体之间的社会结构和联系,即社会成员是独立的个体,因此提出重视个体间关系的滚雪球抽样。
随后,goodman[2]在1961针对隐藏人口提出同伴驱动的滚雪球抽样,在文中他详细地介绍了S阶段K推荐滚雪球抽样的定义,并讨论了如何通过抽样样本对总体的一些特征做出推断,他指出,在对隐藏人群进行抽样时,滚雪球抽样比简单随机抽样更具效率。
二、结合具体案例对滚雪球抽样进行实证性研究Frank和Snijders提出基于伯努利概率模型使用一波滚雪球抽样对隐藏人口规模进行估计的方法,并在此基础上对格罗宁根的海洛因使用者展开实证研究,通过提供仿真结果来比较极大似然估计量、基于模型估计量、基于设计估计量以的优缺点。
结果表明,使用一波的滚雪球样本估计总体规模是可行的,但前提是假设初始样本即种子符合伯努利概率模型。
Thompson研究了滚雪球抽样的一个特例,采用图形设置和空间设置的适应性种群抽样对隐藏人群进行研究,指出图形设置是指通过边缘(如社交链接或地理邻近度)连接的节点(例如,人物),选择节点或边缘为初始样本,然后跟随边缘以使其他节点纳入样本。
Chow提出在估计隐藏人口和难以接近的人口规模时,使用滚雪球抽样技术才可以获得足够大的样本,以此进行有效的研究,并提出利用贝叶斯估计方法能够有效的结合先验信息,得到未知参数的一个后验分布,可以提高估计的有效性。
当可用信息模糊时,可以使用非信息先验并进行敏感性分析。
并用此方法对科罗拉多州的毒品使用者所占的比例进行了实证研究,研究发现估计量对指定的先验信息并不敏感。
抽样技术期末内容整理
《抽样调查方法与技术》复习要点1、我国统计调查方法体系改革的目标模式是什么?为什么?目标模式:建立以周期性普查为基础,以经常性抽样调查为主体,以必要的统计报表、重点调查、科学推算等为补充的搜集和整理基本统计资料的统计调查方法体系。
所以,抽样调查在我国统计调查方法体系中应该是使用最广泛的一种调查方法,在调查方法体系中处于主体地位。
为什么?解放前,我国统计工作相当薄弱,解放后,我国统计工作主要是照搬前苏联的体制,根据计划经济的特点和分级管理的要求建立了定期统计报表制度,以全面统计为主。
改革开放后,社会主义市场经济逐渐取代了计划经济,统计调查的对象日趋庞杂,以全面统计报表为主的统计调查体系已完全不能适应国家宏观决策与调控,以及部门、企业、社会公众对统计信息的需要,另外全面统计调查方法不仅笨重,缺乏灵活性,而且财力、物力投入大,统计调查效益差,基层负担重,中间环节多,容易受到行政干挠,统计信息质量很难得到保证。
为了从根本上解决调查对象复杂,调查方法单一的问题,对历史上形成的传统的统计调查方法体系进行了改革,于是抽样调查作为一种科学的非全面调查,越来越受到重视。
2、抽样调查会被大数据的“全样本”分析所取代吗?不会。
第一,抽样调查具有随机性,使得样本可以反映总体的情况。
而大数据样本没有这样的随机性,不能很好的代表总体。
第二,大数据样本不能被当作“总体”,大数据技术本身远远没有达到“普查”的水平,存在统计偏差。
3、大数据时代抽样调查面临哪些挑战与机遇?(熟读:王莹万舒晨《大数据时代抽样调查面临的挑战与机遇》,《统计与信息论坛》,2016年06期)(一)大数据对抽样调查提出挑战第一,《大数据时代》强调“样本=总体”的观点存在争议,事实上不可能完全利用存在无效信息的全部大数据进行分析,因此抽样调查仍然大有可为。
第二,大数据是动态实时变化的,因而统计调查分析的目的可能也随之不断发生变动。
在前期获得部分样本的情况下,需要研究根据已知的样本逐步调整调查的项目,从而获取感兴趣的抽样对象,使得这些“热门”样本数据能够适时入样。
滚雪球抽样案例
滚雪球抽样案例
在统计学中,滚雪球抽样是一种非概率抽样方法,通常用于调查人口稀少或者难以访问的群体。
这种抽样方法通过已知的个体来寻找其他个体,从而扩大样本规模。
下面我们通过一个实际案例来解释滚雪球抽样的过程和应用。
假设我们要调查某个城市的艺术家群体,但是由于艺术家的数量相对较少,并且分散在各个社区中,很难进行传统的随机抽样调查。
这时候,滚雪球抽样就可以发挥作用了。
首先,我们可以通过已知的艺术家来进行起始抽样。
比如,我们可以从艺术学校、画廊、艺术家协会等地点找到一些已知的艺术家作为起始样本。
然后,我们通过这些艺术家来获取更多的样本,比如让他们推荐其他艺术家或者提供他们所在社区的艺术家名单。
通过这种方式,我们可以不断扩大样本规模,直到我们获得足够的样本数据进行调查分析。
滚雪球抽样的优势在于可以充分利用已知个体的信息来扩大样本规模,尤其适用于那些难以访问的群体。
但是,也需要注意到滚雪球抽样可能存在一定的偏差,因为样本是通过已知个体推荐得到的,可能会出现某种类型的艺术家被过度抽样的情况。
因此,在实际应用中需要进行适当的调整和权衡。
总的来说,滚雪球抽样是一种灵活的抽样方法,可以应用于各种实际调查中。
通过合理的起始样本选择和不断扩大样本规模,我们可以获取到足够代表性的样本数据,从而进行有效的统计分析和推断。
当然,在实际应用中需要结合具体情况进行灵活调整,以确保样本的代表性和可靠性。
滚雪球抽样案例
滚雪球抽样案例滚雪球抽样(snowball sampling)是一种非概率抽样方法,通常用于调查研究中难以获取样本的群体,例如犯罪者、毒品滥用者、性工作者等。
这种抽样方法通过已知的个体来寻找其他符合研究要求的个体,逐渐扩大样本规模。
本文将通过一个具体的案例来介绍滚雪球抽样的过程和特点。
在某研究中,研究者希望了解大学校园内的毒品滥用情况,但由于毒品滥用者通常不愿意主动参与调查,因此传统的随机抽样方法并不适用。
于是研究者决定采用滚雪球抽样方法来获取样本。
首先,研究者找到了一位已知的毒品滥用者作为起始点。
通过与这位毒品滥用者建立信任关系,研究者逐渐获取了更多的毒品滥用者的信息,并邀请他们参与调查。
随着样本的不断扩大,研究者得以深入了解毒品滥用者群体的特点、行为和态度。
滚雪球抽样的优势在于能够获取那些难以触及的群体,并且能够建立起研究者与被调查者之间的信任关系。
然而,滚雪球抽样也存在着一定的局限性,例如样本的代表性可能不足,因为样本的选择取决于最初的个体。
此外,由于样本的不确定性,研究结果可能受到偏倚的影响。
在实际应用中,滚雪球抽样通常需要谨慎对待。
研究者需要充分了解研究对象的特点和社会背景,以便更好地控制样本的质量。
此外,研究者还需要在研究过程中灵活应对,及时调整研究策略,以确保最终的样本能够反映出整个群体的特征。
总之,滚雪球抽样是一种特殊的抽样方法,适用于那些难以获取样本的群体。
在实际应用中,研究者需要充分考虑抽样的过程和特点,以确保研究结果的有效性和可靠性。
同时,滚雪球抽样也需要与其他抽样方法结合使用,以获取更全面和准确的研究结论。
通过以上案例的介绍,相信读者对滚雪球抽样有了更深入的了解。
在今后的研究工作中,研究者可以根据具体情况选择合适的抽样方法,以提高研究的科学性和可信度。
希望本文能够为相关领域的研究工作提供一定的参考和帮助。
试论述抽样过程中存在哪些困难和挑战
试论述抽样过程中存在哪些困难和挑战摘要:抽样是就是从调查对象的总体中抽取一部分单位作为样本,并以对样本进行调查的结果来推断总体,是进行社会调查和研究的主要方法。
抽样调查在抽样中完全排除了主观因素的干扰,最符合随机原则,众多抽样方法中最简单,操作方法最容易理解。
但是有一些不可避免的困难和挑战。
一、抽样调查的概念和程序抽样调查就是从调查对象的总体中抽取一部分单位作为样本,并以对样本进行调查的结果来推断总体的方法。
总体是指所要调查研究对象的全部单位。
如,要研究北京市居民户的生活质量,那么北京市所有的居民就是此次调查的总体。
抽样是从总体中选取一部分的方法代表的过程就是抽样;样本是指从总体中抽取出来进行调查的一部分单位。
总体是所要研究的对象,样本是所要观察的对象。
样本的大小,即样本单位数,称为样本容量,用n表示。
1.抽样调查的主要特点:(1)它的调查对象只是作为样本的一部分单位,而不是全部单位,也不是个别或少数单位;(2)调查样本一般按照随机原则抽取,而不由调查者主观确定;(3)调查目的不是说明样本本身,而是从数量上推断总体、说明总体;(4)随机抽样的误差是可以计算的,误差范围是可以控制的。
二、非随机抽样的具体方法非随机抽样概念:非随机抽样又称非概率抽样,就是调查者根据自己的方便或主观判断抽取样本的方法。
常见的方法有:1.任意抽样,也称方便抽样、便利抽样、偶遇抽样。
从便利的目的出发,依靠现成的研究对象获取样本就是按调查者的方便任意抽样。
如在街头、路口、商场等,随便选择某些行人、顾客等作为抽样对象进行访问调查。
2.判断抽样,又称立意抽样,就是依据调查者的主观判断来选择样本。
样本个体的选择不是根据某一概率,而是依据研究者或调查人员的判断3.配额抽样,也称定额抽样,就是根据统计报表等已知情况,按照一定标准和比例分配样本数额,然后由调查者在各个组成部分内根据配额的多少采用偶遇抽样或判断抽样方法抽取样本。
4.滚雪球抽样,它是指由于对调查总体情况不甚了解,根本无法采取上述各种抽样方法抽取样本,因而只能先找少量的、甚至个别的调查对象进行访问,然后通过他们再寻找新的调查对象,这样就像滚雪球一样寻找越来越多的调查对象,直至达到调查目的为止。
非随机抽样
2. 统计判断
统计判断是指利用调查总体的全面统计资料,按照 一定的标准选择样本的方式。判断抽样的优点是简便易 行,根据调查者的需要来选择样本,可充分发挥调查者 的经验与判断能力,尤其当调查者对研究总体的情况比 较熟悉时,这种方法比较方便、有效。但如果调查者对 研究总体不熟悉,主观判断往往容易出现偏差,则样本 的代表性降低,会出现较大的抽样误差。
2. 空间抽样法
空间抽样法是对某一聚集的人群从空间的不同方向和角度 对他们进行抽样调查。例如,在医院内向顾客询问对医院服务 质量的意见,在劳务市场调查外来人员务工情况,在火车站候 车室向候车旅客询问对高铁服务的看法等。
方便抽样技术适用于非正式的探索性调查,或调查前的准 备工作。一般在调查总体中每一个体都是同质时,才能采用此 类方法。但是,实践中并非所有总体中每一个体都是相同的, 所以其抽取的样本没有足够的代表性,抽样结果偏差较大。正 因为如此,在正式研究时很少采用方便抽样。
三、 配额抽样
配额抽样是非随机抽样中最流行的一种,配额抽样类似随机抽样 中的分层抽样,它也是首先将总体中的所有单位按一定的标志分为若 干类(组),然后在每个类(组)中选取样本单位的方法。所不同的 是,配额抽样不遵循分层抽样中的随机性原则,而是用方便抽样或判 断抽样的方法主观地确定对象分配比例。
采用配额抽样,事先要对总体中所有单位按其属性、特征分为若 干类型。这些属性、特征称为控制特征,如调查对象的姓名、年龄、 收入、职业、文化程度等。然后,按照各个控制特征分配样本数额。
Байду номын сангаас
二、 判断抽样
判断抽样是指根据调查研究者 的主观判断进行抽样,或由该领域 内有经验的专家选定样本。判断抽 样通常有以下2种具体操作办法:
滚雪球抽样和同伴推动抽样文献综述
滚雪球抽样和同伴推动抽样文献综述滚雪球抽样是针对难以接近人群和隐蔽人群最常用的方法,在实际的调查中,滚雪球抽样最终获得的样本受最初样本特征的影响,潜在的或未暴露的个体就很难纳入调查当中,故会导致调查的偏倚,因此不适合外推到更大人群中。
而同伴推动抽样源自于传统的滚雪球抽样方法,不仅继承了传统滚雪球抽样的基本形式,还加入了社会网络的概念,只要RDS的调查链足够长,那些在网络中相对封闭和孤立的人员也会被纳入到研究样本中,打破了滚雪球抽样的局限。
一、国内发展综述耿磊磊(2010)发表了“滚雪球”抽样方法漫谈,在文中他谈到某综艺节目利用滚雪球抽样来寻找哈尔滨本土最漂亮的女孩。
除此外,也可以利用滚雪球抽样通过戒毒人数来估计吸毒人群规模,估计男性同性恋者的数量。
罗鹏(2014)在小概率抽样网络稳定性研究中用抽样方法来获取网络数据,他尝试构建了改进的分层抽样和改进的滚雪球抽样,并与现存的6种抽样方法进行了比较,发现两种改进的抽样方法在网络中都能很高效的获取网络信息。
米子川教授(2015)在并发多样本滚雪球抽样的捕获再捕获估计中引入捕获再捕获抽样估计方法,又夺并发多样本滚雪球抽样的总体规模进行估计,提出了以并发加权线性模型估计总体规模的基本思路,其中共权估计量方差最小、离散性质局部最优。
聂瑞华(2016)在基于社交网络的股市信息传递特征研究一以新浪微博为例中,谈到尽管大数据时代数据采集有了明显的变化,但采用非概率抽样仍然具有现实意义,而滚雪球抽样本身的特点和社会网络相匹配,故用它来采集网络数据是比较合理的。
同伴推动抽样也是研究隐藏人群的一种重要抽样研究方法,国内目前在医学方面应用比较多。
赵金扣等学者(2005)首次将同伴推动抽样引入国内,之后马小燕、赵金扣等学者在采用同伴推动抽样法进行男男性接触人群HIV/STD流行病学调查的探索中利用RDS对北京市MSM进行抽样调查及血清学检测,了解他们艾滋病病毒、性病感染状况及行为特点,结果表明,RDS简便易行,无需过多调查员投入前期准备工作,确实为开展隐匿人群调查的行之有效的方法之一。
大数据时代抽样调查面临的挑战与机遇
第31卷第6期Vol.31 No.6统计与信息论坛Statistics&InformationForum2016年6月Jun.,2016收稿日期:2015-11-18作者简介:王 莹,女,北京人,硕士,讲师,研究方向:统计分析与统计教育;万舒晨,男,江苏扬州人,博士生,高级统计师,研究方向:抽样调查理论与方法,大数据分析。
【统计理论与方法】大数据时代抽样调查面临的挑战与机遇王 莹1,2a,万舒晨2b,3(1.国家开放大学统计学习中心,北京100039;2.国家统计局a.统计教育培训中心,b.工业统计司,北京100073;3.中国人民大学统计学院,北京100872)摘要:传统的抽样调查作为一门成熟的统计学分支学科,在样本统计方面发挥着重要的作用,但是在大数据时代背景下,该方法逐渐暴露出一些缺点。
在分析传统抽样调查局限性和大数据自身问题的基础上,详细分析了大数据时代下抽样调查面临的机遇和挑战。
研究表明,在某些情况下,大数据统计还无法完全替代抽样调查的独特作用,抽样调查还将在很长一段时间内发挥作用。
大数据时代下,为了获得更好的数据分析效果,应将大数据和抽样调查充分结合,进而发挥它们不同的优势。
关键词:大数据;抽样调查;挑战;机遇中图分类号:C811∶C829.2 文献标志码:A 文章编号:1007-3116(2016)06-0033-04一、引言世界杯上的预测帝章鱼保罗给人们留下了深刻印象,殊不知谷歌、百度、微软等公司,利用与体育赛事相关的大数据,在赛事预测方面也取得了不错的成绩。
近几年,随着Google预测冬季流感、奥巴马大选连任成功等大数据案例的不断出现,大数据应用可谓初战告捷。
大数据与人们的工作生活息息相关,并且发挥着越来越重要的作用。
维克托等人撰写的经典著作《大数据时代》,提出了有关大数据的三个基本观点:大数据不具有随机样本,而是全体数据;大数据不是精确性,而是混杂性;大数据不是因果关系,而是相关关系。
滚雪球抽样方法
滚雪球抽样方法滚雪球抽样方法是一种经济、快捷的统计调研方式,是在一个给定的时间段内按照一定的规则,从人口普查中抽取子样本的抽样方法。
滚雪球抽样法源于偶然缘由而被开发出来的,原本是用于研究发生某种状况的地域的全部人口的抽样方法。
它的思想是:将抽样环节看成一个雪球,从第一次抽取的标本中再抽取新标本,这样,抽样过程就像是滚雪球一样,逐渐由小到大。
滚雪球抽样在抽样技术上处于中等水平,可以在较短的时间内完成调查,又可以把样本取得全面,有选择性。
在人口调查和社会调查中,尤其在调研乡镇等地区时,常常用滚雪球抽样法。
滚雪球抽样的原理是:根据实际需要,从抽样的第一步开始,按一定的比例,从样本空间内抽取一部分样本,这部分样本又是一个新的样本空间,根据抽样的要求,从这部分样本中再抽取一部分样本,如此反复,直至样本空间结束。
滚雪球抽样具有抽样范围内总体分布关系不明确,抽取样本容量较少,抽样难度较大等优点。
它的抽样原理是:根据实际需要,从抽样的第一步开始,从样本空间中抽取一部分样本,根据抽样的要求,从这部分样本中再抽取一部分,如此反复,直至样本空间结束。
滚雪球抽样的缺点在于计算工作量大,多层抽样面临的困难较大,抽样质量不容易控制。
它能把总体分布关系不明确的样本空间,过滤出符合要求的抽样样本,但也由于要求的十分严格,计算量大,因此,在实施滚雪球抽样方法时,一定要对其层级设置比较经验,合理安排抽样步骤,以减少计算量。
滚雪球抽样方法是个有效的社会调查工具,它可以在较短的时间内完成调查,又可以把样本取的全面,有选择性。
滚雪球抽样的优点在于能有效地减少调查对象的数量,又能够保证样本的全面性,对于社会调查的运用具有重要的作用。
但它的缺点是计算工作量大,抽样质量不容易控制,要求抽取样本量较少,抽样时也面临较大的困难。
因此,在实施滚雪球抽样方法时,要结合实际情况评估计划,必要时可以结合其它抽样方法,以便得到更准确的调查结果。
滚雪球抽样实施方案
滚雪球抽样实施方案一、引言。
滚雪球抽样是一种常用的统计抽样方法,它通过不断扩大样本规模,以达到更加精确的估计目的。
在实际应用中,滚雪球抽样可以帮助研究者找到难以触及的特定人群或者组织,从而进行更为深入的调查和研究。
本文将介绍滚雪球抽样的实施方案,以及在实际应用中需要注意的问题。
二、滚雪球抽样的实施步骤。
1. 确定初始样本。
滚雪球抽样的第一步是确定初始样本。
这个初始样本通常是研究者已经了解的一部分人群或者组织,他们可以作为研究的起点。
在确定初始样本时,需要考虑到样本的代表性和多样性,以确保后续的滚雪球抽样能够覆盖到更广泛的人群或者组织。
2. 扩大样本规模。
一旦确定了初始样本,就可以开始扩大样本规模。
这一步通常通过参与者自我介绍或者现有样本的推荐来实现。
研究者可以要求初始样本的成员介绍其他符合研究对象要求的人群或者组织,从而逐渐扩大样本规模。
3. 终止抽样。
滚雪球抽样的终止条件通常是样本规模达到了研究者所需的数量,或者样本的多样性已经得到了充分的覆盖。
在终止抽样之后,研究者需要对样本进行核查和清理,以确保样本的质量和可靠性。
三、滚雪球抽样的实施注意事项。
1. 控制抽样偏差。
在滚雪球抽样过程中,很容易出现抽样偏差,即样本并不具有代表性。
为了控制抽样偏差,研究者需要在扩大样本规模的过程中,注意对样本的多样性和代表性进行平衡,避免过度依赖某一类人群或者组织。
2. 确保样本的质量。
滚雪球抽样的样本质量直接影响着研究的可靠性和有效性。
因此,在扩大样本规模的过程中,研究者需要对新加入的样本进行核查和验证,确保其符合研究的要求,并且能够提供可靠的信息。
3. 注意隐私和伦理问题。
在滚雪球抽样过程中,研究者需要特别注意参与者的隐私和伦理问题。
在征得参与者同意的前提下,研究者才能够进行样本的拓展和调查,同时需要保护参与者的个人信息和权益。
四、总结。
滚雪球抽样是一种灵活且有效的抽样方法,可以帮助研究者找到难以触及的特定人群或者组织,从而进行更为深入的调查和研究。
滚雪球抽样实施方案
滚雪球抽样实施方案一、引言。
滚雪球抽样是一种常用的统计抽样方法,适用于人口普查、社会调查、市场调研等领域。
其优点在于可以减少调查成本,提高调查效率,同时保证样本的代表性和可靠性。
本文将介绍滚雪球抽样的实施方案,以便读者了解该方法的具体操作步骤。
二、抽样目标确定。
在进行滚雪球抽样之前,首先需要确定抽样的目标群体。
目标群体可以是某一特定社会群体、行业从业者、特定群体等。
确定抽样目标的同时,还需要明确所需的样本量和抽样的时间范围。
三、初始样本的确定。
在确定了抽样目标后,需要找到一些初始样本。
初始样本可以通过已有的调查数据、专家推荐、社交网络等途径获取。
初始样本的选择要尽可能广泛,以保证后续滚雪球抽样的有效性。
四、滚雪球抽样的实施。
1. 初始样本调查,首先对初始样本进行调查,获取他们的基本信息和相关数据。
2. 扩大样本规模,在初始样本的基础上,通过其人际关系网络,扩大样本规模。
要求初始样本提供几个新的被调查者,并对这些新的被调查者进行深入调查。
3. 继续扩大样本规模,根据新的被调查者,再次扩大样本规模,重复上述步骤,直至达到所需的样本量。
五、样本的验证和分析。
在滚雪球抽样的过程中,需要不断验证样本的有效性和可靠性。
对于新加入的样本,要进行严格的筛选和验证,以确保样本的代表性和可靠性。
一旦样本达到所需数量,就可以对样本数据进行分析,得出相应的结论和结果。
六、总结。
滚雪球抽样是一种灵活、高效的抽样方法,适用于各种调查和研究。
通过合理的抽样设计和严格的样本验证,可以得到具有代表性和可靠性的样本数据,为后续的分析和研究提供有力支持。
希望本文所述的滚雪球抽样实施方案能够对读者有所帮助。
滚雪球抽样法名词解释
滚雪球抽样法名词解释1.滚雪球抽样是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。
滚雪球抽样往往用于对稀少群体的调查。
在滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。
2.滚雪球又称裙带抽样、推荐抽样,是一种在稀疏总体中寻找受访者的抽样方法。
稀疏总体是指单位数极小并且分布很不集中的总体,例如参加过某次会议的人员、从事某一专业的人员、某个少数民族的人员等。
这类人员可能在一个城市中仅占万分之一,而且没有一个明确的抽样框可以帮助寻找他们,如果采用通常的抽样方法进行筛选,则每找到一名受访者所需要筛选掉的人将达到上万人,这在现实中是很不经济的。
3.滚雪球抽样以若干个具有所需特征的人为最初的调查对象,然后依靠他们提供认识的合格的调查对象,再由这些人提供第三批调查对象,依次类推,样本如同滚雪球般由小变大。
滚雪球抽样多用于总体单位的信息不足或观察性研究的情况。
这种抽样中有些分子最后仍无法找到,有些分子被提供者漏而不提,两者都可能造成误差。
第一批被访者是采用概率抽样得来的,之后的被访者都属于非概率抽样,此类被访者彼此之间较为相似。
例如:中国的小轿车车主等。
4.在滚雪球抽样中,先选择一组调查对象,通常是随机地选取的。
访问这些被调查者之后,再请他们提供另外一些属于所研究的目标总体的调查对象,根据所提供的线索,选择此后的调查对象。
这一过程会继续下去,形成滚雪球的效果。
尽管最初选择调查对象时采用的是随机抽样,但是最后的样本都是非概率样本,被推荐或安排的被调查者比随机抽取的被调查者将在人口和心理特征方面更类似于推荐他们的那些人。
5.滚雪球抽样主要是用于估计十分稀有的人物特征,例如名字不能公开的,可利用政府或社会服务的人员;特别的群体,如私家车的车主等。
滚雪球抽样的主要优点是可以大大地增加接触总体中所需群体的可能性。
滚雪球抽样
滚雪球抽样滚雪球抽样(Snowball sampling)什么是滚雪球抽样雪球抽样是以“滾雪球”的方式抽取样本。
即通过少量样本单位以获取更多样本单位的资讯。
这种方法的运用前提是母体样本单位之间具有一定的联系,是在不甚了解母体的情況下对母体或母体部分单位元情況进行掌握。
人为最初的调查对象,然后依靠他们提供认识的合格的调查对象,再由这些人提供第三批调查对象,……依次类推,样本如同滚雪球般由小变大。
滚雪球抽样多用于总体单位的信息不足或观察性研究的情况。
比如研究退休老人的生活,可以早上去公园认识几个正在散步的老人,然后通过他们认识他们的朋友。
用不了多久,你就会交到一大批老朋友。
但是,这种方法也很偏颇。
那些不活跃,不喜欢去公园,不喜欢和人交往,喜欢一个人在家的老人,你很难给他们滚雪球,但他们代表了退休后的另一种生活方式。
雪球抽样以若干具备所需特征的人为初始调查对象,然后依靠他们提供合格的调查对象,再由这些人提供第三批调查对象,以此类推。
样本像滚雪球一样由小变大。
雪球抽样多用于总体单位或观察性研究中信息不足的情况。
这个样本中有些分子最后找不到,有些分子被提供者漏掉,这两种情况都可能造成误差。
第一批回答者是概率抽样得到的,后续回答者都是非概率抽样,彼此差不多。
比如目前中国的车主。
雪球抽样的基本步骤雪球抽样的基本步骤是:首先,找出几个样本单元;其次,通过这些样本单元学习更多的样本单元;第三,通过更多的样例单元学习更多的样例单元;以此类推,就像滚雪球一样,让调查结果离母亲越来越近。
比如,某研究部门在调查某市劳动力市场的保姆问题时,先采访了7名保姆,然后要求他们提供其他保姆的名单,逐渐扩大到近百人。
通过对这些保姆的调查,全面掌握了保姆的来源、工作性质、经济收入等情况。
雪球抽样方法在滚雪球抽样中,首先选择一组被调查者,通常是随机的。
在对这些受访者进行访谈后,请他们提供一些属于所研究的目标人群的其他受访者,并根据提供的线索选择以下受访者。
市场调查LV48滚雪球抽样
市场调查LV48滚雪球抽样
滚雪球抽样是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。
例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友。
但是这种方法偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着另外一种退休后的生活方式。
滚雪球样本以若干个具备所须要特征的人为最初的调查对象,然后靠他们提供更多重新认识的合格的调查对象,再由这些人提供更多第三批调查对象,依次以此类推,样本如同滚雪球般由小变大。
滚雪球样本多用作总体单位的信息严重不足或观测性研究的情况。
这种样本中有些分子最后仍无法找出,有些分子被提供者凿而不加,两者都可能将导致误差。
第一批被访者是采用概率抽样得来的,之后的被访者都属于非概率抽样,此类被访者彼此之间较为相似。
例如:目前中国的小轿车车主等。
滚雪球样本的优缺点
1、滚雪球抽样的优点
可以根据某些样本特征对样本展开掌控,适用于找寻一些在总体中十分稀疏的人物。
2、滚雪球抽样的缺点
如果总体并不大,有时用没法几次就可以吻合饱和状态状况,即为后来出访的人再了解的都就是已经出访过的人。
但是很可能将最后仍存有许多个体无法找出,还有些个体因某些原因被提供者故意略去不加,这两者都可能将具备某些值得注意的性质,因而可能将产生偏误,无法确保代表性。
滚雪球样本就是在特定总体的成员难以打听的时最适宜的一种样本方法。
比如对赢得无家可归者、流动劳工及非法移民等的样本就十分适用于。
雪球抽样方案
雪球抽样方案引言在数据分析和统计学中,抽样是一种常用且有效的方法,用于从总体中选择一部分样本进行分析。
而雪球抽样是一种特殊的非概率抽样方法,适用于当总体中没有可靠的名单或样本,并且难以获得足够大的样本容量时。
本文将介绍雪球抽样的定义、特点以及实施方案,以帮助读者了解和应用雪球抽样方法。
定义雪球抽样是一种连锁抽样方法,最初是为了研究“隐蔽”或“困难”人口(例如非法移民、犯罪分子等)而设计的。
其核心思想是通过已知个体生成额外的个体作为样本的一部分,从而扩大样本的规模。
特点1.不需要总体名单:雪球抽样适用于没有可靠的总体名单的情况。
例如,当研究的特定人群由于滞后、迁移、随机事件等原因难以追踪时,雪球抽样可以通过网络扩散或个体介绍来获取更多的样本。
2.候选样本遴选:雪球抽样中的候选样本通常由一些已知的个体组成,这些个体可以被认为是“代表性”的。
然后通过这些已知个体的联系人来逐渐产生更多的样本,形成“雪球”的效果。
3.适用于难以抽样的人群:雪球抽样在研究“隐蔽”群体或难以接触的人群时表现出色。
例如,在研究非法毒品滥用者时,研究者很难直接接触到这些人群。
然而,通过雪球抽样,一个毒品滥用者可以选择介绍另一个滥用者,从而逐渐扩大样本规模。
4.可能导致样本偏倚:由于雪球抽样的方式,有可能会导致样本的非随机性,从而引入样本偏倚。
实施方案雪球抽样的实施通常由以下步骤组成:1.确定起始样本: 选择一些已知的代表性个体作为起始样本。
对于研究中的非隐蔽人群,可以通过现有的名单或系统atic抽样来选择起始样本。
2.联系起始样本: 与起始样本建立联系,并获得他们的合作。
说明研究目的和方法,并请求他们提供其他适合的样本。
3.产生雪球样本: 起始样本提供其他人的联系方式,提供参与研究的机会。
这些新样本可以被认为是代表性的,并进行进一步的数据收集。
4.终止标准: 在收集到足够大的样本后,可以考虑终止抽样过程。
通常使用的终止标准是样本数量的增长速度趋于稳定或达到研究的预定要求。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据环境下的滚雪球抽样
作者:卫志鹏岳宛莹
来源:《科学与财富》2017年第27期
摘要:滚雪球抽样是非概率抽样的基本方法之一。
对于处于社会网络结构的人们而言,他们身上蕴藏着丰富的信息,如何有效地获取信息至关重要。
本文对相关文献进行了总结,并提出了一些自己的看法。
关键字:大数据;滚雪球抽样;社会网络
近些年来,对于一个复杂网络问题的研究受到了许多领域学者的高度关注,人们对很多实际网络的拓扑共性与数学模型展开了深入的研究。
然而,实际网络往往规模巨大,例如对于男性同性恋者的估计单纯依靠总体的网络很困难,并且受到技术和成本的限制,我们很难获得一个整体的完全信息,因此合理抽样,获得较好的抽样网络以实现对总体的的准确推断,是目前的一个重大问题。
因此本文将非概率抽样中的滚雪球抽样和社会网络结合起来,利用社会网络的中介作用从样本的特征来推断总体的特征,从而达到样本估计总体的目的。
一、文献综述
张广玲、易澄、胡琴芳(2015)在分析企业社会责任行为与渠道冲突时用到了社会网络资源的中介作用。
在文章中提到的社会网络资源主要是指市场信息获取和规范性影响力,最后的实验结果表明:企业社会责任行为的两个维度(企业商业实践的社会责任行为和企业慈善的社会责任行为)分别对社会网络资源的两个方面有显著的正向作用;企业市场信息获取和规范性影响均能够显著地降低渠道冲突;市场信息获取对商业实践社会责任行为和渠道冲突之间的关系、规范性影响对慈善社会责任行为和渠道冲突之间的关系均具有部分中介效应。
宋静静、谷传华等(2013)研究了社会关系网络作为中介的留守青少年互联网使用对社会创造性的影响。
文章采用了互联网使用情况调查表、社会创造性倾向量表、关系质量问卷、亲子亲和量表和同伴提名对429名留守青少年和213名非留守青少年进行调查,最后的结果表明:留守青少年与非留守青少年的互联网使用情况和社会创造性不存在显著差异,但是社会关系网络存在显著差异,在非留守青少年群体中,社会关系网络不存在显著的中介作用。
李正卫、高蔡联等(2013)在理论研究基础上,构建了创始人前摄性特质、社会网络与企业创新绩效之间的关系理论模型,运用多元回归分析方法,通过对148份制造型企业问卷调查数据的实证研究,探讨了社会网络对创新绩效的影响,以及社会网络在创始人前摄性特征和企业创新绩效关系中所起的中介作用。
最后的研究结果表明,社会网络的异质性和规模对创新绩效均有显著正影响,且它们均在创始人前摄性与企业创新绩效之间起部分中介作用。
二、理论阐述
滚雪球抽样是在无法进行大规模社会调查,或者难以找到对象总体的成员时,可以先对随机选择的一些被调查者实施访问,然后再请他们推荐属于研究目标总体特征的调查对象,再由这些人提供第三批调查对象,依次类推,样本如同滚雪球般由小变大。
其中第一批被访者是采用概率抽样得来的,之后的被访者彼此之间较为相似,都属于非概率抽样。
其中非概率抽样是指不是按照概率均等的原则,不是严格按随机抽样原则来抽取样本,所以失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体,是根据人们的主观经验或其他条件来抽取样本。
因而,其样本的代表性往往较小,误差有时相当大,而且这种误差又无法估计。
社会网络是指社会行动者及其相互间关系的集合。
用点和线来表达网络,这个是社会网络的形式化界定。
现实世界中虚拟类型的网络无处不在,社会网络的形式化表达包括社群图和矩阵。
与社会网络相关的概念包括关联性、距离、中心性和凝聚子群。
非概率抽样中用滚雪球抽样抽出的样本构成了一个网络集群,利用该社会网络的相关指标可以得到相应的样本的指标,从而来估计总体。
由此想到中介结构的作用,本研究中可以把社会网络作为中介,把滚雪球抽样的样本和总体结合起来。
中介作用分析是用来考察某项数据是否具有中介结构的一套统计方法。
本文中社会网络作为中介,并不是连接样本和总体之间的因果关系,而是更多的提供样本的信息,进而更加精确的估计总体。
对于中介作用的分析方法主要有两种,一是有向非循环图;二是结构方程模型。
如上图就是一个有向非循环图,因此社会网络成为了滚雪球抽样样本估计总体的一个中介。
下面介绍一个案例来说明。
三、案例:估计男性同性恋者的人数
在某城市最大的歌厅里,星期三的晚上,调查者接触到了25名同性恋者。
这个星期只有星期三晚上,该歌厅里全部为同性恋者,请这25名同性恋者,每人报出5个男同性恋朋友的姓名和联系方式。
将全部被提名的人(25*5=125),列出一个清单,发现其中35人重名(不重名人数为125-35=90)。
再对这90名同性恋者,每人报出另外5名男性同性恋朋友,又将全部被提名者列出一个清单,核对后发现有112人重名(不重名者为90*5-112=338)。
依次推荐下去,因为每次都有重名的出现,所以推荐出来的同性恋者可以构成一个社会网络,构成的社会网络就可以分析其相应的指标,包括中心度、出度、入度、平均距离、密度等一系列的指标。
利用这些指标分析这些被抽中的同性恋者联系的紧密程度,还可以得到相应的权重指标,进而对一定范围内的全体做推断,估计总体中同性恋者的人数。
四、自己的想法
在大数据环境下,非概率抽样在某些领域已经成为了一种趋势,并且社会网络的作用越来越明显,在这种情况下,社会网络作为一个中介应用到滚雪球抽样中一定有它的用处。
因此本文在参考了几篇文献之后,想到社会网络作为中介在滚雪球中的应用。
参考文献
[1]张广玲、易澄、胡琴芳,企业社会责任行为与渠道冲突:社会网络资源的中介作用[A]华东经济管理,2015,4:1-3
[2]宋静静、谷传华,留守青少年互联网使用对社会创造性的影响:社会关系网络的中介作用[A]中国特殊教育,2013,11:1-4
[3]李正卫、高蔡联、张祥富,创始人前摄性个性对企业创新绩效的影响——社会网络的中介作用[A]科学研究,2013,31:1-2
第一作者简介:卫志鹏(1992-),男,山西吕梁人,山西财经大学统计学硕士研究生,研究方向:国民经济核算与宏观经济统计分析.
第二作者简介:岳宛莹(1993-),女,山西运城人,山西财经大学统计学硕士研究生,研究方向:国民经济核算与宏观经济统计分析.。