第二章 试验资料的整理与特征数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 法国人棣莫弗(A.de moivre,1667-1754) 于1718年用n!的近似公式导出正态分布 的频率曲线,作为二项分布的近似。 • 德国科学家高斯(G.F.Gauss,17771885)在观察研究误差理论时,从另一 角度也独立发现了正态分布密度称为高 斯分布。
• 高尔顿(F.Galton,1822-1911)引入了 中位数,百分位数,应用统计方法研究 人种特性,分析父母与子女的变异,探 索其遗传规律,提出分布、相关、回归 等重要的统计学概念的方法,开辟了生 物学研究的新领域,并首先提出生物统 计学(Biometry)一词。被后人推崇为 生物统计学的创始人。
• 皮尔逊的学生戈赛特(W.S.Gosset,18761937)对样本标准差进行了研究,于1908 年以笔名“Student”《Biometrika》上发 表论文,提出了t分布和t检验,创立了小样 本代替大样本检验的理论和方法。
• 英国统计学家费歇(R.A.Fisher,1890- 1962)于1922年发展了显著性检验及估 计理论,提出了F分布和F检验。他在从 事农业试验及数据分析的同时,提出了 正交试验设计和生物统计学中有着广泛 应用的方差分析法。
它的各个观察值须以整数表示,两个相 邻整数间不容许任何带有小数的值存在。 该类资料也称非连续性变异数据或离散型 数据(discrete data)。
2、质量性状资料 质量性状是指只能观察而不能测量的 性状。如花药、茎、种子、果实、叶片 的颜色、籽粒的饱满度、芒的有无等。 质量性状本身不能用数值表示,要获 得这类性状的资料,须对其观察结果作数 量化处理。数量化方法可分为以下两种:
例如 调查作物受某种病虫害危害情况,将作物性 状分为高抗、抗、中抗、中感、感病5个级别,分
பைடு நூலகம்
别用1,2,3,4,5表示,统计样本内各种级别的
植株数。
不同类型的资料相互间是有区别的,但有时可 根据研究的目的和统计方法的要求将一种类型 资料转化成另一种类型的资料。
例如,临床化验动物的白细胞总数得到的资料 属于计数资料。 根据化验的目的,可按白细胞总数正常或不正 常分为两组,清点各组的次数,计数资料就转 化为质量性状次数资料; 如果按白细胞总数过高、正常、过低分为三组 , 清点各组次数 ,就转化成了半定量资料 。
• 整理资料的基本方法是根据资料的特性将其整理 成统计表、 绘制成统计图。 • 通过统计表、图可以大致看到所得资料集中、离 散的情况。 • 并利用所收集得来的数据计算出几个统计量,以 表示该资料的数量特征、估计相应的总体参数。
2、提供由样本推论总体的科学方法;
• 试验的目的在于认识总体的规律,但 总体庞大,一般无法实施。
• 高通量和高复杂性的数据收集
– 高速计算机和传感器以及某些实验科学可产生海量数据(例如人类基因 组) – 需要新工具来组织和提取重要信息。 – 对于具有大量变量的巨型数据,需要更广泛的有偏估计理论。
生物统计简史
• 现代遗传学之父孟德尔(G.J.Mendel,17821884)利用豌豆进行实验,于1865年发现 了生物遗传的基本定律,被称为是将数学 应用于生物学的第一人。
i=R/组数
为了便于计算,组距一般取整数。 本例R=29,分为10组, 故组距: (i)=29/10=2.9≈3.0(cm)
3.确定组中值(midvalue)与组限(class limit)
组中值是各组区间的中点值,它可作为 各组的代表值,最好取整数或与观察值位 数一致。一般先确定第一组的组中值,通 常选接近资料中最小观察值为宜。
4、提供进行科学实验设计的一些重要原则。
• 试验设计主要是指试验单位的选取、重复数目 的确定及试验单位的分组。 • 合理的试验设计能控制和降低试验误差,提高 试验的精确性,为统计分析获得试验处理效应 和试验误差的无偏估计提供必要的数据。 • 调查设计主要包含抽样方法的选取、抽样单位、 抽样数目的确定等内容。合理的调查设计能控 制与降低抽样误差,提高调查的精确性,为获 得总体参数的可靠估计提供必要的数据。
3、效应与互作
• 引起试验差异的作用称为效应。 – 如栽培试验中的肥料、密度等。 – 组织培养中的温度、培养基种类、激素 浓度等。 – 效应可分正效应、负效应。
互作:指两个获两个以上处理因素间的 相互作用产生的效应。
4、随机误差与系统误差
• 在试验中由于无法控制的随机因素引起的差异叫 随机误差(random error)或抽样误差 (sampling error) 。 • 系统误差或片面误差(lopsided error)是指在试验 过程中,人为因素所引起的差错。
• 奈曼(J.Neyman,1894-1981)和爱根皮尔逊(Egon Sharpe Pearson,18951980)于1926年提出了一种统计假设检 验。
几个常用的统计术语 1、总体与样本
由试验研究的目的而确定的同类事物 或现象的全体称为总体(population)。
• 总体又分为无限总体(infinite population) 和有限总体(finite population). – 无限总体(infinite population):某种 条件下生长的水稻的株高;新生儿体 重等。 – 有限总体(finite population):一所学校 (或班级)的新生的身高等。 • 构成总体的每个成员称为个体(individual)
第一章 试验资料的整理与特证数的计算
第一节 试验资料的搜集与整理
数量性状(quantitative character)是指能够
以量测或计数的方式表示其特征的性状 。 观察测定数量性状而获得的数据就是数量性状
资料 ( data of quantitative
characteristics)。
• 数量性状资料的获得有量测和计数 两种方式 。 • 因而数量性状资料 又分为计量资料 和计数资料两种。
• 皮尔逊(K.Pearson,1857-1936)是高尔 顿的得意门生,他花了近50年的时间和 精力,把生物统计学上升到通用方法论 的高度。主要贡献有变异系数的处理、 分布曲线、卡方检验、回归与相关的发 展等。 • 高尔顿和皮尔逊于1895年成立了伦敦生 物统计学实验室。1901年创办 《Biometrika》杂志。
本的变异幅度.
R=max{xi}-min{xi} 本例:R=170-141=29(cm)
2.确定组数与组距
确定适当的组数,应考虑:
(1)观察值个数的多少; (2)极差(R)的大小; (3) 便于计算; (4) 能反映出资料的真实面貌。
组距是每个组区间的上限与下限之差,常
用i表示。组距、组数、极差有如下关系:
155 153 156 141 153 156 151 163 158 154
150 144 160 156 155 162 157 154 164 157
159 156 155 145 162 151 156 158 148 167
157 150 160 156 154 152 153 152 164 157
(1)统计次数法 在一个样本内,分别统计具有某种性 状、不具有该性状的个体数,这种数 量化的资料又叫次数资料。 例如 1.调查国光苹果的裂果情况; 2.一个玉米果穗上甜粒与非甜 粒的比率。
(2)分级法 先根据性状的变异情况分级,给每级 分 别赋予一个适当的数值作代表值,然后统 计样本中属于各个级别的个体数。
从总体中抽取一部分个体作为总体的代 表来研究。被抽取的这些个体称为样本 (sample); 从总体中获得样本的过程称为抽样 (sampling)。
样本容量(sample size):样本容量常记为n。 大样本与小样本: 通常把n≤30的样本叫小样本; n >30的样本叫大样本。
总体与样本的关系
由样本推断总体虽然有很大可靠 性,也有一定错误率。俗语说“不 可不信,不可全信”,这是我们对 待统计推断的正确态度。
159 157 151 153 152 154 147 163 154 159
151 160 157 158 162 157 158 158 157 170
152 150 155 161 155 162 155 154 165 158
1.求极差R 极差(range)为资料中的最大观察值与
最小观察值的差数,它表示了整个样
3、提供通过误差分析以鉴定处理效 应的科学方法;
• 通过抽样调查或控制试验,获得的是具有 变异的资料。产生变异的原因是什么?是 由于进行比较的处理间的差异或是由于无 法控制的偶然因素所引起? • 显著性检验的目的就在于承认并尽量排除 这些无法控制的偶然因素的干扰,将处理 间是否存在本质差异揭示出来。
生物统计学
• 统计学是用于在可得到的信息既有限 又富于变化时,从中得出关于总体的 和过程的结论的一套科学原理和技术。 • 统计是关于从数据中学习的科学。
• 生物统计学是数理统计在生物学研究 中的应用,它是用数理统计的原理和 方法来分析和解释生物界各种现象和 试验调查资料的科学。
生物统计学的功能
1、提供整理和描述数据的科学方法;
• 生物统计学不仅在传统生物学、医学和 农学中被广泛应用,而且在分子生物学 研究中也发挥着重要作用。 • 例如,绘制基因连锁图; • 制图函数的获得; • DNA序列同源性分析; • 基因芯片数据的分析; • 组学分析; • QTL位点的定位等都是建立在统计学基 础上。
应用现状
• 生物统计被应用到下面这些领域的研究问题中:
– – – – – – 公共卫生,包括流行病学、 营养学和环境卫生学 基因组学和族群遗传学 医学 生态学 生物检定法 农学
未来需求
• 传统方法的改进
– 多重比较 (微阵列) – 主成分 (主成分曲线) – 似然分析 (随机过程的似然分析)
• 新方法
– – – – machine learning neural network 随机过程:有限 Markov 链、点过程,Gaussian 随机场 隐 Markov 模型和Monte Carlo 算法
例 九个组中值分别为:
142,145 ,148, 151, …, 169
组限即各组的界限,常用L表示, 同一组中数值小者称为下限,数值大 者称为上限。
例的组限分别为: 141---143 144---146 147---149 |
168---170
为避免归组时出现差错,组限一定要
明确,不能有重叠、交叉。 组限的小数位数比观察值多取一位; 4.数据归组
(1)计量资料(measurement data)
凡用称量、测量等量测手段得到的 数量性状资料。 各个观察值不一定是整数,两个 相邻的整数间可有带小数的任何数值 出现; 计量资料也称之为连续性数据 (continuous data).
(2)计数资料(count data)
指用计数方式得到的数据资料.
– 由于试验的初始条件相差较大,种类、品质、数量、 条件未控制相同 ,测量的仪器不准 、 标准试剂未经校 正,以及观测、记载、抄录、计算中的错误所引起。
5、准确性与精确性
• 准确性(accuracy)是指统计数接近参数真 值的程度,是说明测定值对真值符合程度 的大小。 • 精确度(precision)是指样品中的各个变量 间变异程度的大小。
第二节
试验资料的整理
(一)计量资料的次数分布表
一、次数分布表
【例】今测得100株高粱的株高如表, 其次数分布表的制作方法如下:
155 159 150 159 157 161 158 148 164 158
153 158 150 161 149 159 155 163 155 166
159 153 160 156 153 161 153 156 156 154
2、参数与统计数
用总体的全体观察值计算的、描述总 体的特征数称为参数(parameter)。
如:总体平均数 ---- μ
总体方差----
2
由样本的全体观察值计算的、描述样本 的特征数称为统计数(statistics)。
如:样本平均数---- x
样本均方---- s
2
统计上,通常由样本统计数估计或推 断总体相应参数。