1抽样原方法和样本量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
提高其效能将逐步下降
而随着样本容量的增大,试验或调查所需成本、时
间、人力、物力等则可能会成倍地增长
因此确定一个合宜的样本容量,使得试验或调查既
有一个较好的精确度,又能最大限度地节省人力 和时间、财力、物力,是试验或调查必须要考虑 的问题
样本容量的确定原则和确定方法
总体有限、且很大时,同时注意抽样的代表性,样
研究进程
什么是科学研究?
任何人想要达到自己的愿望或要求,在充分尊重客 观事实的前提下,所进行的探索性工作 研究进程分为如下几个阶段: 科学假设
资料收集
试验方案的制订及试验设计
试验的实施
资料的分析及统计 研究成果的发表
误差
误差的概念及分类
从试验中获得的数据总或多或少地偏离真值,这种 偏离就称为误差 误差分为:系统误差 随机误差 错误 系统误差 有规律的偏离 影响准确性 可以消除 三类
而较大的样本在调查或试验中仅测 xi 性状,并将这
一样本中所有被测个体的 xi 代入上述回归方程中
以求得相源自文库的 y 估计值
这样获得的大样本的 y 估计值,能达到一定的精度 这一抽样方法即为双重抽样法 双重抽样法的优点是: 对于复杂性状的调查或试验仅需破坏较小的样本即 能获得较大样本的精确性 当目标性状为破坏性性状时,这是唯一行之有效的 方法
抽样方法和样本量
前面已经介绍,总体在很多情况下,往往是很大的,
有时是无限的,因此,对总体的研究往往是不可
行的
而生物统计学的特点之一是其概率归纳原理,即通 过对某一特定的、具体的样本进行分析,在一定 概率保证下进行总体的推断 例如,对水体污染进行检查,对空气质量检查,不
需要也不可能对整个水体、整个空气逐一进行检
从总体中抽取两个样本,一个大样本,一个小样本
先对小样本进行调查,或先用小样本进行试验,对
这一小样本既测 y 性状,同时也测 xi 性状,获得
n 对 y 和 xi,并建立 xi 与 y 的回归方程,最简单 的回归方程就是只有一个 xi 的简单回归方程,也 可以是曲线回归方程,也可以建立多元回归方程 建立回归方程的原则是其 r(或其绝对值)或 R 必 须很大,以表明用 x 或 xi 估测 y 其效果比较好
几乎所有调查和试验都可以采用随机抽样法进行抽 样
二、整群抽样和多层次抽样法
从总体中抽取数个样本单位群,对单位群内的全部
个体作全面调查,或用整个单位群进行试验
样本单位群的抽取既可以用随机抽样法得到,也可
以有选择地取得
在整群抽样的基础上,对抽得的样本单位群不作全 面调查,或不是整个样本单位群进入试验,而是 在样本单位中继续抽取一定量的个体(数据)组 成样本,这就是二级抽样
对于百分率一类性状的调查或试验所需要的样本量,
由于
pq ,而 sp n
L t s p t
pq n
4 pq 因此 95% 置信度下的样本量为:n 2 L
例:p = 0.7,规定调查时的允许误差(置信半径) L = 0.075,试求所需样本量:
4 0.7 0.3 n 149.3 150 2 0.075
随机误差 无规律 有统计学意义 错误 人为造成
影响精确性
可以缩小 应当消灭
(随机)误差的来源
这里所指误差是指随机误差(简称误差)
生物体的复杂性导致了误差的存在,动物体试验又 有更大的误差
了解误差其目的是为了缩小误差 缩小误差有两个现实意义: 提高精确性
有效减小试验规模
缩小误差,其实质是有效地保证数据的整齐程度
双重抽样法的适用范围:
遗传学试验、育种学试验、繁殖学试验、生理生化学
试验、疾病防治试验,等
双重抽样示意图:
xi y
总体 μ y σ
小样本
ˆ b0 bi xi y
2
ˆ y
xi
大样本
样本容量 样本容量越大,试验结果就越具有代表
性,调查的精确性、准确性也越高
但随着样本容量的增大,抽样或试验的成本也越大,
算公式为:
2 t0.01 s 2 2.582 s 2 6.66s 2 n 2 2 L L L2
运用这一公式所得到的 n 值一般不应小于 30,当所
得样本量小于 30 时,应作进一步的试运算,直 至所得样本量 n 稳定时为止
又例:一总体其标准差为 15.9,试验允许误差为L
= 10,求试验所需最小样本量
将试验动物宰杀后才能测定,因而不大可能进行
重复性试验,或采用直接抽样试验时有较大的难 度,可采用双重抽样法 采用双重抽样法,首先将所需要进行研究的性状定 为目标性状(或称为靶性状),用 y 表示,然后 根据文献或其他方法确定一个或几个简单易测、 不具破坏性、与靶性状相关性比较紧密的性状,
这些性状称为辅助性状,用 xi 表示
暂设 t0.05 1.96 2 则
4 15.92 n 10 2 10
由于 n 较小(<30),故应重求 n 值
查 t 值表,得 t0.05,9 2.262
2.2622 15.92 n 12.93 13 继续试算,t 2 0.05,12 2.179 10 2.1792 15.92 n 12.00 12 继续试算,t0.05,11 2.201 2 10 2.2012 15.92 n 12.25 12 2 10
如果二级抽样得到的不是个体(数据),而是更小
的单位群,再从中进行抽样,这就是三级抽样
以此类推
二级及二级以上的抽样就称为多层次抽样 多层次抽样方法适合于资源调查、遗传学试验、育 种学试验、传染病(寄生虫病)调查、流行病学 调查、经济学调查,等
*三、双重抽样法
当所研究的性状比较复杂,或所需经费较多,或须
供试数可适当少一些
试验时,考虑的因子数越多,每一组合内的供试动
物数可少一些,单因子试验则每一水平内的供试 动物数应多一些
*不同的抽样方法,所需样本量还应当根据具体的抽
样方法来确定:
整群抽样时,既要考虑群体单位的大小,又要考虑
作为样本的群体的多少
原则上,应采取小群体、多群体的抽样方法,因为
这样可以更全面地了解总体的情况
当进行反复试求,最后使得 n 稳定在某一个值上
例:已知一总体的大致标准差为 9.7,若规定在抽 样时允许存在 L = 2.5 的误差,试求抽样所需的 样本容量
4 9.7 2 n 60.22 61 2 2.5
即:在 95% 的置信度下,需要61个个体作为一个
样本才能较好地说明问题
当要求有较高的置信度 99% 时,其样本含量的计
试验外界条件的不统一
试验动物不可能安排在绝对一致的环境内,对同 一组内每一个供试动物的试验措施也不可能绝对 一致
误差的控制
针对造成误差的三大原因,采取的控制措施:
选择基因型较为纯合的近交系
基因纯合的程度依次为: 同卵双生个体、自交系、高度近交的近交系、 近交系、全同胞、半同胞、家系、纯种 其中,后三种是动物试验中可以实际使用的试验 群体 两个纯种的杂交后代F1代在某些情况下可以考虑 使用
二是根据自身试验或规模的大小来确定,这里需要
考虑的一个主要问题是试验或调查的资金来源和
经费的充裕程度
三是需要考虑试验或调查的精确程度:允许误差实 际就是样本平均值与总体平均值的差距最大不超 过的某一界限,因此它决定了试验或调查的精确 程度
一旦确定了允许误差,就可以用试验或调查结束后
得到的样本平均值来告诉人们总体平均值在哪一
误差,就是求标准误的大小
标准误既与标准差有关,也与样本容量有关
样本不同,所得到的误差不同
抽样方法不同,所得到的抽样误差也不同
由于抽样误差表示的是样本平均数与总体平均数之
间的差异,因此,为了使总体平均数的估计更可
靠、更精确,应当使用合适的抽样方法
标准误求得以后,应计算总体平均值的置信区间
(*)
试验设计原理
L t sx t
s n
t 一般初次总取1.96(置信度为95%) 其中,
因此:
s 4s n t 2 2 L L
2
2
2
显然,人为定出的允许误差越大,所需样本量就小
反之,人为定出的允许误差越小(即对试验的要求
的精确度越高),所需的样本量就越大
一般来讲,当所需要的样本量不大时(n<30),应
成败 因此允许误差的确定是试验或调查前需要慎重考虑 的问题 从前面所介绍的公式和例题中我们已经看出,当总 体方差(标准差)基本确定后,样本容量(即试 验规模)与允许误差的大小是有直接的关系的
而总体方差的大小可以根据前人的结果所得到
允许误差如何确定?
一是需要查阅大量的文献,从类似的试验或调查中
确定本次试验或调查的规模
当样本容量大到一定程度时,再增大样本容量, 试验或调查其精确性的提高就渐趋缓慢: 当标准差一定时,标准误的大小与样本容量的平方 根成反比,样本容量较小时,随着样本容量的增 大,标准误会急剧减小,但当样本容量大到一定 程度后再增大样本容量,标准误的减小将会变得
越来越慢,即继续增大样本容量,试验精确性的
试验所得到的数据越整齐,误差就越小,所需样本 也就可以越小
误差来源于以下三个方面
试验材料遗传物质的不同一(或样本的本质不同)
试验动物的基因或遗传物质不可能纯合,越是高 等的动物其基因越是复杂,所造成的误差也就越 大。这是造成误差的最根本原因 试验过程中操作与管理技术的不一致 操作人员的技术、管理水平不可能一致,不同的 时间段内操作人员的体力、精神、情绪不可能一 致,操作人员的责任心也不可能一致
查,只需要抽取一小部分的水、空气进行分析 被抽取的这一小部分水、空气就是样本 抽取水和空气的这一过程就是抽样的过程
如何抽样?
抽样应当遵循什么原则?
什么样的样本才能认为符合标准?
这是本章要讨论的问题 抽样的总原则是: 样本必须来自于所研究的总体 样本必须能代表所研究的总体
抽样方法必须与抽样目的相一致
抽样认真、抽样方法正确、客观,样本就具有代表 性;反之,抽样马虎、草率、武断、主观、弄虚 作假,样本就差,就不具有代表性
抽样方法
试验、调查的目的不同,试验、调查的方法不同、
抽样的方法也不同 这里仅介绍几个抽样方法
一、随机抽样法
总体比较整齐、变异程度小、群体分布均匀,可用
随机抽样法
随机抽样法的原则是:
总体内每一个体(数据)都有同等的机会进入样本 样本中每一个体(数据)进入任何一个组的机会也 是相等的
随机抽样法可以完全排除个人的主观性
随机抽样法是最简单、最常用的抽样方法
随机抽样法有以下几种方法:
抓阄法 随机数字法 伪随机数字法 通过随机抽样法得到样本后,一般需计算样本的特 征值,用以估计总体参数
个可能的范围里面,这一个结论就有了理论依据,
不致被人所诘难或质疑
因此确定允许误差得到的样本容量不宜太小(样本 容量太小试验或调查的结果比较粗糙,也易引起 别人的质疑),但也不需要太大(太大需要大量 的经费和人力、物力、时间)
由于求率、成数等所需要的样本容量还是尽可能大
一些为好
*抽样误差的估计
抽样误差,一般用标准误来表示,因此,估计抽样
调查百分率性状时,样本量不能太小(n>100)
百分率一类的性状求样本容量时,应注意允许误差
的取值应小于百分率,特别是当该百分率趋于两
端(<0.3 或 >0.7)时,更应注意 L 的取值
*关于允许误差 L 的取值
允许误差 L 即为置信半径,如何确定允许误差,这
关系到样本容量的大小,也决定了试验或调查的
本可占总体的千分之一到百分之一
总体不很大时,样本占总体的百分之五
率的计算和估计,一般要求大样本
在试验中,同一水平或同一组合的变异情况越严重,
所需样本越大,同一组合的供试动物越整齐,可
适当减少动物数
试验越规范,试验结束后使用的统计方法越严格,
所需动物数可适当减少
小家畜的供试数应多一些(如鸡、猪),大家畜的


所求样本量已稳定在 n = 12,即表示抽样以 n = 12
为较宜样本量
从上面两例可以看出,调查或试验所规定的 L(即
允许误差,亦即置信半径)越大,所需样本量就
可以越小,表示调查或试验越粗糙 反之,所规定的允许误差 L 越小,即调查或试验需 要更高的精确度时,所需要的样本量就应越大, 这样所得到的结果也越可靠 因此,在实施某一调查或试验时,应确定一个合宜 的允许误差 L,必要时应调整所设置的 L 值
多层次抽样时,有一个每个层次样本量的比例的问 题,这里需要考虑每一层次的变异情况及各层次 的抽样成本,以便对每一层次内单位数进行合理 的分配
*在不知道总体的大小和情况时,可以从试验要求的
精确性来考虑样本容量:
根据参考文献、他人或自己的经验、专业知识等人
为地定出一个样本平均值与总体平均值的离差, 即允许误差L: L x 而
相关文档
最新文档