1抽样原方法和样本量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
性;反之,抽样马虎、草率、武断、主观、弄虚 作假,样本就差,就不具有代表性
抽样方法
试验、调查的目的不同,试验、调查的方法不同、 抽样的方法也不同 这里仅介绍几个抽样方法
一、随机抽样法
总体比较整齐、变异程度小、群体分布均匀,可用 随机抽样法
随机抽样法的原则是: 总体内每一个体(数据)都有同等的机会进入样本 样本中每一个体(数据)进入任何一个组的机会也
采用双重抽样法,首先将所需要进行研究的性状定 为目标性状(或称为靶性状),用 y 表示,然后 根据文献或其他方法确定一个或几个简单易测、 不具破坏性、与靶性状相关性比较紧密的性状, 这些性状称为辅助性状,用 xi 表示
从总体中抽取两个样本,一个大样本,一个小样本
先对小样本进行调查,或先用小样本进行试验,对 这一小样本既测 y 性状,同时也测 xi 性状,获得 n 对 y 和 xi,并建立 xi 与 y 的回归方程,最简单 的回归方程就是只有一个 xi 的简单回归方程,也 可以是曲线回归方程,也可以建立多元回归方程
以此类推 二级及二级以上的抽样就称为多层次抽样 多层次抽样方法适合于资源调查、遗传学试验、育
种学试验、传染病(寄生虫病)调查、流行病学 调查、经济学调查,等
*三、双重抽样法
当所研究的性状比较复杂,或所需经费较多,或须 将试验动物宰杀后才能测定,因而不大可能进行 重复性试验,或采用直接抽样试验时有较大的难 度,可采用双重抽样法
样本单位群的抽取既可以用随机抽样法得到,也可 以有选择地取得
在整群抽样的基础上,对抽得的样本单位群不作全 面调查,或不是整个样本单位群进入试验,而是 在样本单位中继续抽取一定量的个体(数据)组 成样本,这就是二级抽样
如果二级抽样得到的不是个体(数据),而是更小 的单位群,再从中进行抽样,这就是三级抽样
剂完成测试
对外部环境进行有效的控制 试验动物的取样、分组、配置、试验次序采取随机
化的原则 采用局部控制的方法设置区组,将试验动物进行分
试验过程中操作与管理技术的不一致
操作人员的技术、管理水平不可能一致,不同的 时间段内操作人员的体力、精神、情绪不可能一 致,操作人员的责任心也不可能一致
试验外界条件的不统一
试验动物不可能安排在绝对一致的环境内,对同 一组内每一个供试动物的试验措施也不可能绝对 一致
误差的控制
针对造成误差的三大原因,采取的控制措施: 选择基因型较为纯合的近交系
标准误既与标准差有关,也与样本容量有关 样本不同,所得到的误差不同 抽样方法不同,所得到的抽样误差也不同 由于抽样误差表示的是样本平均数与总体平均数之
间的差异,因此,为了使总体平均数的估计更可 靠、更精确,应当使用合适的抽样方法 标准误求得以后,应计算总体平均值的置信区间 (*)
试验设计原理
研究进程
又例:一总体其标准差为 15.9,试验允许误差为L = 10,求试验所需最小样本量
暂设

来自百度文库
由于 n 较小(<30),故应重求 n 值 查 t 值表,得
继续试算,

继续试算,

所求样本量已稳定在 n = 12,即表示抽样以 n = 12 为较宜样本量
从上面两例可以看出,调查或试验所规定的 L(即 允许误差,亦即置信半径)越大,所需样本量就 可以越小,表示调查或试验越粗糙
中国许多动物地方品种由于地处交通闭塞的地区, 因而高度近交,这样的纯种是很好的试验材料, 级进杂交的群体也是较好的试验材料
对操作人员进行培训、教育 制订标准化的操作规程 制订规范化的操作程序 尽可能机械化、自动化 对所用仪器、设备进行校正 设立标准器具 制订标准曲线及校正公式 同一批样品在同一天内由同一个人用同一批试
反之,所规定的允许误差 L 越小,即调查或试验需 要更高的精确度时,所需要的样本量就应越大, 这样所得到的结果也越可靠
因此,在实施某一调查或试验时,应确定一个合宜 的允许误差 L,必要时应调整所设置的 L 值
对于百分率一类性状的调查或试验所需要的样本量
,由于
,而
因此 95% 置信度下的样本量为:
例:p = 0.7,规定调查时的允许误差(置信半径) L = 0.075,试求所需样本量:
当进行反复试求,最后使得 n 稳定在某一个值上
例:已知一总体的大致标准差为 9.7,若规定在抽 样时允许存在 L = 2.5 的误差,试求抽样所需的 样本容量
即:在 95% 的置信度下,需要61个个体作为一个 样本才能较好地说明问题
当要求有较高的置信度 99% 时,其样本含量的计 算公式为:
运用这一公式所得到的 n 值一般不应小于 30,当所 得样本量小于 30 时,应作进一步的试运算,直 至所得样本量 n 稳定时为止
随机误差
三类
错误
系统误差 有规律的偏离 影响准确性 可以消除
随机误差 无规律 有统计学意义
影响精确性 可以缩小
错误
人为造成
应当消灭
(随机)误差的来源
这里所指误差是指随机误差(简称误差) 生物体的复杂性导致了误差的存在,动物体试验又
有更大的误差 了解误差其目的是为了缩小误差 缩小误差有两个现实意义:
因此确定允许误差得到的样本容量不宜太小(样本 容量太小试验或调查的结果比较粗糙,也易引起 别人的质疑),但也不需要太大(太大需要大量 的经费和人力、物力、时间)
由于求率、成数等所需要的样本容量还是尽可能大 一些为好
*抽样误差的估计
抽样误差,一般用标准误来表示,因此,估计抽样 误差,就是求标准误的大小
建立回归方程的原则是其 r(或其绝对值)或 R 必 须很大,以表明用 x 或 xi 估测 y 其效果比较好
而较大的样本在调查或试验中仅测 xi 性状,并将这 一样本中所有被测个体的 xi 代入上述回归方程中 以求得相应的 y 估计值
这样获得的大样本的 y 估计值,能达到一定的精度 这一抽样方法即为双重抽样法
双重抽样法的优点是:
对于复杂性状的调查或试验仅需破坏较小的样本即 能获得较大样本的精确性
当目标性状为破坏性性状时,这是唯一行之有效的 方法
双重抽样法的适用范围:
遗传学试验、育种学试验、繁殖学试验、生理生化学 试验、疾病防治试验,等
双重抽样示意图:
xi y •小样本
•总体
•μy σ2
xi
•大样本
样本容量 样本容量越大,试验结果就越具有代表
性,调查的精确性、准确性也越高
但随着样本容量的增大,抽样或试验的成本也越大 ,当样本容量大到一定程度时,再增大样本容量 ,试验或调查其精确性的提高就渐趋缓慢:
当标准差一定时,标准误的大小与样本容量的平方 根成反比,样本容量较小时,随着样本容量的增 大,标准误会急剧减小,但当样本容量大到一定 程度后再增大样本容量,标准误的减小将会变得 越来越慢,即继续增大样本容量,试验精确性的 提高其效能将逐步下降
提高精确性 有效减小试验规模 缩小误差,其实质是有效地保证数据的整齐程度 试验所得到的数据越整齐,误差就越小,所需样本 也就可以越小
误差来源于以下三个方面
试验材料遗传物质的不同一(或样本的本质不同)
试验动物的基因或遗传物质不可能纯合,越是高 等的动物其基因越是复杂,所造成的误差也就越 大。这是造成误差的最根本原因
什么是科学研究? 任何人想要达到自己的愿望或要求,在充分尊重客
观事实的前提下,所进行的探索性工作 研究进程分为如下几个阶段:
科学假设 资料收集 试验方案的制订及试验设计 试验的实施 资料的分析及统计 研究成果的发表
误差
误差的概念及分类
从试验中获得的数据总或多或少地偏离真值,这种 偏离就称为误差
误差分为:系统误差
1抽样原方法和样本量
2020年5月25日星期一
前面已经介绍,总体在很多情况下,往往是很大的 ,有时是无限的,因此,对总体的研究往往是不 可行的
而生物统计学的特点之一是其概率归纳原理,即通 过对某一特定的、具体的样本进行分析,在一定 概率保证下进行总体的推断
例如,对水体污染进行检查,对空气质量检查,不 需要也不可能对整个水体、整个空气逐一进行检 查,只需要抽取一小部分的水、空气进行分析
而随着样本容量的增大,试验或调查所需成本、时 间、人力、物力等则可能会成倍地增长
因此确定一个合宜的样本容量,使得试验或调查既 有一个较好的精确度,又能最大限度地节省人力 和时间、财力、物力,是试验或调查必须要考虑 的问题
样本容量的确定原则和确定方法 总体有限、且很大时,同时注意抽样的代表性,样
本可占总体的千分之一到百分之一 总体不很大时,样本占总体的百分之五 率的计算和估计,一般要求大样本 在试验中,同一水平或同一组合的变异情况越严重
被抽取的这一小部分水、空气就是样本 抽取水和空气的这一过程就是抽样的过程
如何抽样? 抽样应当遵循什么原则? 什么样的样本才能认为符合标准? 这是本章要讨论的问题 抽样的总原则是: 样本必须来自于所研究的总体 样本必须能代表所研究的总体 抽样方法必须与抽样目的相一致 抽样认真、抽样方法正确、客观,样本就具有代表
根据参考文献、他人或自己的经验、专业知识等人 为地定出一个样本平均值与总体平均值的离差, 即允许误差L:

其中, 一般初次总取1.96(置信度为95%) 因此:
显然,人为定出的允许误差越大,所需样本量就小 反之,人为定出的允许误差越小(即对试验的要求
的精确度越高),所需的样本量就越大 一般来讲,当所需要的样本量不大时(n<30),应
,所需样本越大,同一组合的供试动物越整齐, 可适当减少动物数 试验越规范,试验结束后使用的统计方法越严格, 所需动物数可适当减少
小家畜的供试数应多一些(如鸡、猪),大家畜的 供试数可适当少一些
试验时,考虑的因子数越多,每一组合内的供试动 物数可少一些,单因子试验则每一水平内的供试 动物数应多一些
*不同的抽样方法,所需样本量还应当根据具体的抽 样方法来确定:
基因纯合的程度依次为: 同卵双生个体、自交系、高度近交的近交系、
近交系、全同胞、半同胞、家系、纯种 其中,后三种是动物试验中可以实际使用的试验 群体 两个纯种的杂交后代F1代在某些情况下可以考虑 使用
来自同一父亲的半同胞由于群体很大,在遗传学试 验、育种学试验、营养学试验、繁殖学试验中经 常使用
家系一般可用来分析许多遗传性疾病和寻找疾病 的遗传学规律,可以用来作人类疾病动物模型
整群抽样时,既要考虑群体单位的大小,又要考虑 作为样本的群体的多少
原则上,应采取小群体、多群体的抽样方法,因为 这样可以更全面地了解总体的情况
多层次抽样时,有一个每个层次样本量的比例的问 题,这里需要考虑每一层次的变异情况及各层次 的抽样成本,以便对每一层次内单位数进行合理 的分配
*在不知道总体的大小和情况时,可以从试验要求的 精确性来考虑样本容量:
二是根据自身试验或规模的大小来确定,这里需要 考虑的一个主要问题是试验或调查的资金来源和 经费的充裕程度
三是需要考虑试验或调查的精确程度:允许误差实 际就是样本平均值与总体平均值的差距最大不超 过的某一界限,因此它决定了试验或调查的精确 程度
一旦确定了允许误差,就可以用试验或调查结束后 得到的样本平均值来告诉人们总体平均值在哪一 个可能的范围里面,这一个结论就有了理论依据 ,不致被人所诘难或质疑
因此允许误差的确定是试验或调查前需要慎重考虑 的问题
从前面所介绍的公式和例题中我们已经看出,当总 体方差(标准差)基本确定后,样本容量(即试 验规模)与允许误差的大小是有直接的关系的
而总体方差的大小可以根据前人的结果所得到
允许误差如何确定?
一是需要查阅大量的文献,从类似的试验或调查中 确定本次试验或调查的规模
是相等的
随机抽样法可以完全排除个人的主观性 随机抽样法是最简单、最常用的抽样方法 随机抽样法有以下几种方法:
抓阄法 随机数字法 伪随机数字法
通过随机抽样法得到样本后,一般需计算样本的特 征值,用以估计总体参数
几乎所有调查和试验都可以采用随机抽样法进行抽 样
二、整群抽样和多层次抽样法
从总体中抽取数个样本单位群,对单位群内的全部 个体作全面调查,或用整个单位群进行试验
调查百分率性状时,样本量不能太小(n>100)
百分率一类的性状求样本容量时,应注意允许误差 的取值应小于百分率,特别是当该百分率趋于两 端(<0.3 或 >0.7)时,更应注意 L 的取值
*关于允许误差 L 的取值 允许误差 L 即为置信半径,如何确定允许误差,这
关系到样本容量的大小,也决定了试验或调查的 成败
相关文档
最新文档