[理学]生物统计 第二章 资料整理2
高级生物统计学第2章资料整理
计量资料 量、测 实数 或直接计数
正态分布 t 检验、 F检验
次数资料 先分组, 正整数 二项分布 X2检验
再计数
零
5
例一: 次数资料
采用二种不同生殖激素处理奶水牛发情结果如下:
处理 总母牛数 发情数
A激素 46
34
B激素 51
48
试分析两种激素效果有无显著差异。
6
例二:计量资料
采用二种不同生殖激素处理奶水牛发情结果如下:
39
应用Excel作频数分布表
一法:输入样本数据,后用Frequency统 计函数;
二法:数据分析工具------直方图(接收区输 入分组区间)----频数-----折线图
40
四、实例
北京肉鸭平均生长速度计算; 仔猪体内抗体效价计算; 发情期母畜生殖激素变化曲线。
41
测定北京肉鸭各周龄(x)与平均体重(g , y) 如下:
1、描述样本方法
二种受精方法体外受精效果比较 方法 卵子数 卵裂率(%) 囊胚率(%) A法 611 50.30±9.29 19.9±4.31a B法 753 57.79±7.56 21.00±2.49b
注: 未能注明是标准差还是标准误; 重复数是多少; 字母顺序有误。
32
计算器作统计运算
4
4
4.1
256
128
32
16
8
4.2
128
128
32
8
4
4.3
256
128
32
16
8
5
5.1
128
64
32
16
8
5.2
256
生物统计复习资料(精品)
第一章 统计数据的搜集与整理1.1.3 抽样从总体获得样本的过程称抽样,抽样的目的是希望通过对样本的研究推断其总体。
抽样方法有随机抽样、分类抽样等。
1.1.4 随机抽样要求总体中的任何个体都有同等的机会被抽到;要求抽样时不受任何主观因素的影响。
1.1.5 放回式抽样和非放回式抽样放回式抽样:从总体中抽出一个个体,记下它的特征后,放回总体中,再做第二次抽样。
非放回式抽样:从总体中抽出个体后,不再放回。
1.2.1 连续型数据和离散型数据连续型数据(度量数据):与某种标准做比较所得到的数据.例如:长度,时间,重量。
对连续型数据进行分析的方法,通常称为变量的方法。
离散型数据(记数数据):由记录不同类别个体的数目所得到的数据.例如:尾数,成活或死亡个数对离散型数据进行分析的方法,通常称为属性的方法。
1.3 样本的几个特征数1.3.1 平均数:数据集中点的度量 1.3.2 标准差:数据的变异程度平均离差 样本方差 标准差1.3.3 偏斜度和峭度偏斜度:度量数据围绕众数呈不对称的程度。
用三阶中心矩m3 :nx x MD ∑-=||1)(22--=∑n x x s 1)(2--=∑n x x s nx x m ∑-=33)(m 3 =0 ,说明曲线对称于平均数,此时平均数等于中位数也等于众数。
m 3 >0,说明曲线向左偏斜,称左偏或正偏,此时众数小于中位数,而中位数小于平均数。
m 3<0,说明曲线向右偏斜面,称右编或负偏,此时平均数小于中位数,而中位数小于众数。
偏斜度 判断方法同m 3 峭度1.3.4 变异系数CV:用来表明样本标准差对平均数的变异幅度。
可以用来判断数据整齐程度,变异系数比较小的数据组比较整齐。
第二章 概率和概率分布2.1 概率的基本概念自然现象:确定性现象和非确定性现象(随机现象),统计学所研究的是非确定性现象. 2.1.1 概率的统计定义设k 次随机试验,成功事件A 出现l 次,则称l /k 是K 次随机试验中成功的频率。
生物统计-第2章 资料的整理
又称为极差(range),用R表示,即
R=Max(x)-Min(x)
本例 R=65.0-37.0=28.0(kg)
上一张 下一张 主 页
退 出
2、确定组数
组数的多少视样本含量及资料的变动范 围大小而定,一般以达到既简化资料又不影 响反映资料的规律性为原则。组数要适当, 不宜过多,亦不宜过少。分组越多所求得的 统计量越精确,但增大了运算量;若分组过 少,资料的规律性就反映不出来,计算出的
第二节
资料的整理
一、资料的检查与核对 检查和核对原始资料的目的在于确保原始 资料的完整性和正确性。 所谓完整性是指原始资料无遗缺或重复。 所谓正确性是指原始资料的测量和记载无 差错或未进行不合理的归并。
上一张 下一张 主 页
退 出
检查中要特别注意特大、特小和异 常数据(可结合专业知识作出判断)。对 于有重复、异常或遗漏的资料 ,应予以
第二章 资料的整理
上一张 下一张 主 页
退 出
本章主要内容
第一节 第二节 资料的分类 资料的整理
第三节
常用统计表与统计图
由调查或试验收集来的原始资料,往 往是零乱的,无规律性可循。只有通过统 计整理,才能发现其内部的联系和规律性, 从而揭示事物的本质。资料整理是进一步 统计分析的基础,本章首先介绍资料的分 类,然后介绍不同类型资料的整理方法。
上一张 下一张 主 页 退 出
由于相邻两组的组中值间的距离等
于组距,所以当第一组的组中值确定以 后,加上组距就是第二组的组中值,第 二组的组中值加上组距就是第三组的组
中值,其余类推。
组距确定后, 首先要选定第一组
的组中值。在分组时为了避免第一组中
观察值过多,一般第一组的组中值以接
第二章 生物统计 资料的整理
贵州大学
第二节 资料的整理
一、资料的检查与核对
检查和核对原始资料的目的在于确保原始资料的完 整性和正确性。 所谓完整性是指原始资料无遗缺或重复。
所谓正确性是指原始资料的测量和记载无差错或未进 行不合理的归并。检查中要特别注意特大、特小和异常 数据(可结合专业知识作出判断)。对于有重复、异常 或遗漏的资料,应予以删除或补齐 ;对有错误、相互 矛盾的资料应进行更正,必要时进行复查或重新试验。
贵州大学
在绘制长条图时,应注意以下几点: (1)纵轴尺度从“0”开始,间隔相等,标 明所表示指标的尺度及单位。 (2)横轴是长条图的共同基线,应标明各长 条的内容。长条的宽度要相等,间隔相同。间隔的 宽度可与长条宽度相同或者是其一半。 (3)在绘制复式长条图时,将同一属性种类 、等级的两个或两个以上指标的长条绘制在一起, 各长条所表示的指标用图例说明,同一属性种类、 等级的各长条间不留间隔。
容,有时须注明时间、地点。
2、标目 标目分横标目和纵标目两项。横标目
列在表的左侧,用以表示被说明事物的主要标志; 纵标目列在表的上端,说明横标目各统计指标内容 ,并注明计算单位,如%、kg、cm等等。
贵州大学
3、数字
一律用阿拉伯数字,数字以小数点对齐,
小数位数一致, 无数字的用“─”表示,数字是 “0”的,则填写“0”。 4、线条 表的上下两条边线略粗,纵、横标目间及Fra bibliotek贵州大学
2、圆图
用于表示计数资料、质量性状资料或半定量(
等级)资料的构成比。
所谓构成比,就是各类别、等级的观测值个数 (次数)与观测值总个数(样本含量)的百分比。 把园图的全面积看成100%,按各类别、等级的 构成比将园面积分成若干分, 以扇形面积的大小表 分别表示各类别、等级的比例。
生物统计学 第二章 统计数据与数据整理
பைடு நூலகம்
连续性数据可以用组中值代替单个具体观察 值。 对较大的一组数据,每个数减去一个常数C, 不影响S值的计算,据此可减化计算过程。
如样本: 101;103;105;109
4. 变异系数
方差,标准差皆有单位 若两样本单位不同,或者 若两样本平均数相差较大
例:
样本A:
样本B:
101;103;105;109
差数。当n≤10 时,可用来反映样本的变 异度,简单明了。n 较大时,易受资料中 不正常极端值的影响。
2 . 方差 需要根据样本全部观察值来度量资料的变异 度.
方差,用v 或s2 表示,当样本含量不很大时, 用n-1作分母,n-1称自由度。
注意:
3. 标准差
这样可免除 中间计算, 直接利用最 初基本数据。
权数两种表现形式:一是绝对数(频数), 另一个是用相对数(频率)表示。 频数(f) 频率(f/∑f), 为权数系数 .
加权平均数:
算术平均数的几个特性 :
2. 几何平均数G
例:番茄遗传中,曾有从亲本果重预测F1果重。
主要用的还是 x . 总体平均数用μ表示:
可以用
x 估计无限总体的μ值。
第二章 统计数据与数据整理
统计数据的特点
(1)一组数据;
(2)具有变异性, 故又称为变量。
(3)变量取值取决于随机取到的个体, 但全部个体所有取值又有规律可循。
第一节
频数分布
两种类型的数据
(1) 连续型数据:变量的取值是一个范围, 即变量可以在某个区间内连续取值。 (2) 离散性数据:试验只有若干确定的结果, 变量的取值可一一列出。
生物统计学考试复习笔记整理
σ 不变时,μ 越大越向右移动 μ 不变时,σ 越大越矮肥,越小越高瘦。
,或
标准正态分布:
平均数 μ=0,方差 σ2=1
记作 u~N(0.1)
二项分布 贝努利试验的特点:
(1)每次试验中事件只有两种结果:事件发生或者不发生,如硬币正面或反面,患病或没病; (2)每次试验中事件发生的概率是相同的,注意不一定是 0.5; (3)n 次试验的事件相互之间独立。 二项分布概念: 设随机变量 x 所有可能取的值为 0 和正整数:0,1,2,...,n,且有
在各变数上加减 c,标准差不变;乘除 a,标准差扩大缩小 a 倍。 变异系数 CV =标准差/平均数 反映相对变异度的统计指标,确定资料可靠性。
若大于 15%则该资料不可靠
第三章 概率及其分布(非重点)
(1)● 概率的统计定义:在相同条件下进行 n 次重复试验,如果随机事件 A 发生的次数为 m,
描述资料变异程度的特征数:
意义:反应资料变异程度大小 极差 R 反应资料最大离散程度
平方和 SS 样本观察值的离均差平方和,表示一组数据的离散情况 计算化简:
方差=平方和/自由度 样本方差 MS = S2 总体方差 σ2
自由度:df,计算统计量的过程中所用的独立变数的个数 标准差 S 表达平均数代表性的强弱,越大数据越离散,越小均数代表性越好。
(4)正态分布、标准正态分布、二项分布和波松分布的基本概念
正态分布: 正态分布概念:若连续型随机变量 服从一个位置参数为
、尺度参数为
的概率分布,且
其概率密度函数为
,则这个随机变量就称为正态随机变量,正态
随机变量服从的分布 就称为正态分布,记作
生物统计第二章资料的整理与描述
大样本与小样本; 随机样本(random sample);
非随机样本(non-random sample)。
总体与样本的关系
由样本推断总体虽然有很大可靠 性,也有一定错误率。俗语说“不 可不信,不可全信”,这是我们对 待统计推断的正确态度。
2、参数与统计数 用总体的全体观察值计算的、描述总 体的特征数称为参数(parameter)。
玉米的穗行数等
上一张 下一张 主 页 退 出
(二)质量性状资料
质量性状是指只能观察而不能测量的性状。
如花药、种子、果实、叶片的颜色、籽粒的
饱满度、芒的有无等。 质量性状本身不能用数值表示,要获得这 类性状的资料,须对其观察结果作数量化
处理。数量化方法可分为以下两种:
统计次数法 评分法
上一张 下一张 主
页 退
出
1、统计次数法
在一定的总体或样本内,根据某一质量性状的
类别统计其次数,以次数作为质量性状的数据。
【例如】红花豌豆与白花豌豆的 【例如】 玉米果穗 杂交试验,统计F2不同花色植株, 上甜粒与 在1000个F2植株中,红花266株、 非甜粒的 分离比率。 紫花494株、白花240株。 这种利用统计次数法对质量性状 数量化得来的资料又叫次数资料。
这一条件的约束,能自由变动的
离均差的个数是 n-1 。当 n-1 个离均差确定 后,第n个离均差也就随之而定,不能再任 意变动。
【例】有5个观察值3、4、6、8、9,其平均数6。
5个察值的离均差为-3,-2,0,2,3,满足:
(x x) 0
一般,在计算离均差平方和时,若约束条 件为k个,则其自由度dƒ=n-k。
如:总体平均数 ---- μ
生物统计学 第二章 资料的整理
1.6 划线归组,作次数分布表
资料的整理
规律:螭(chi)霖体长变异范围在7-16;大部分数据集中在9-13; 分布的中心趋向11.5;两头小、中间大的分布趋势。
资料的整理
2.间断性资料(计数资料)的次数分布表 单向分组法进行整理。常用变量的自然数值进 行分组,每组用一个变量值表示。然后把各个观察 值归入相应的组内。
资料的整理
1.5 确定组限 组下限=组中值-1/2组距;组上限=组中值 +1/2组距。本题:第一组下限=7.5-1/2*1=7,上 限7.5+1/2*1=8,所以,本题的分组为7-8;8-9; 9-10;…。 约定:当各组上限为整数时减去0.1,一位小 数时减去0.01; 本资料的分组可改写为7-7.9;88.9;…;这个样可解决临界值‘8’的分组归属。 这样8就归为第二组。
资料的整理
圆形图 用于表示计数资料、质量性状资料或半 定量资料的构成比例。 图1.某渔场鱼苗放养情况 鲢鱼 鲤鱼 鳜鱼 草鱼
524
351
126
438
资料的整理
线图
用于表示事物或现象随时间而变化发展的情况
资料的整理
多边形图 用于表示连续性资料的次数分布。横 轴表示组中值,纵轴表示次数。
30 25
资料的整理
资料的整理
2、统计图 直观清楚的表示数据分布规律,常用于PPT等报告。 2.1 基本要求 标题简明扼要,列于图的下方。 纵、横两轴应有刻度,注明单位。 横轴由左至右、纵轴由下而上,数值由小到大。 图中需用不同颜色或线条代表不同事物时,应有
图例说明。
资料的整理
2.2 范例 长条图 展示某一指标划分属性种类或等级的次数 或频数分布。
样本含量(n) 10—100 100—200 200—500 500以上 组 数 7—10 9—12 12—17 17—30
[理学]生物统计 第二章 资料整理2
2.7 离散趋势的度量
一、平均数的代表程度与样本的变异程度有关
一个样本内有很多的变数,用平均数作为样本 的代表,其代表程度决定于样本内各个变数的变异 程度。 1.如果各个变数相同或者变异程度比较小,则平均 数能够代表整个样本。 2.如果各个变数的变异程度比较大,则平均数的代 表性就小。 因此,单靠平均数不能全面、正确地了解样 本。也不能了解平均数作为样本的变异程度
(70-78.6)+(72-78.6)+(80-78.6)+ (83-78.6)+(88-78.6) =(-8.6)+(- 6.6)+ 1.4+ 4.4+ 9.4 = 0
2.6.1 算术平均数
(二)离均差平方和最小:一个样本的各个观察值 与平均数之差的平方和比各个观察值与任意其他数 之差的平方和小。即:
2.6.2 几何平均数
【例】 某波尔山羊群1997—2000年各年度的存 栏数见表,试求其年平均增长率。
2.6.2 几何平均数
G=
1 lg [ (lg x1 lg x 2 lg x n )] n
1
=lg-1[(-0.368-0.398–0.602)] =lg-1(-0.456)=0.3501
2.6.6 各个集中趋势度量指标之间的关系和评价
例:一家小企业13个员工工资为:13500,11500, 11000,9000,8500,8000,6500,6000,3500, 3500,3500,3500,3000元。 如果低工资的员工抱怨工资低,老板可以用算术平均 数消除员工不满,我们平均有7000元收入。 如果慈善机构来募捐,他会搪塞说,我们多数人工资 才3500元(众数)。 在别的场合,他又可以用中位数6500元。 对于学过统计的人来说,不能盲目接受别人说的一个 统计指标,而应对数据进行分析并作出科学的评价。
《生物统计学》习题集总参考答案
《生物统计学》习题集总参考答案第一章绪论一、名词解释1、总体:根据研究目的确定的研究对象的全体称为总体。
2、个体:总体中的一个研究单位称为个体。
3、样本:总体的一部分称为样本。
4、样本含量:样本中所包含的个体数目称为样本含量(容量)或大小。
5、随机样本:从总体中随机抽取的样本称为随机样本,而随机抽取是指总体中的每一个个体都有同等的机会被抽取组成样本。
6、参数:由总体计算的特征数叫参数。
7、统计量:由样本计算的特征数叫统计量。
8、随机误差:也叫抽样误差,是由于许多无法控制的内在和外在的偶然因素所造成,带有偶然性质,影响试验的精确性。
9、系统误差:也叫片面误差,是由于一些能控制但未加控制的因素造成的,其影响试验的准确性。
10、准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测值与真值接近的程度。
11、精确性:也叫精确度,指调查或试验研究中同一试验指标或性状的重复观测值彼此接近的程度。
二、简答题1、什么是生物统计?它在畜牧、水产科学研究中有何作用?答:(1)生物统计是数理统计的原理和方法在生物科学研究中的应用,是一门应用数学。
(2)生物统计在畜牧、水产科学研究中的作用主要体现在两个方面:一是提供试验或调查设计的方法,二是提供整理、分析资料的方法。
2、统计分析的两个特点是什么?答:统计分析的两个特点是:①通过样本来推断总体。
②有很大的可靠性但也有一定的错误率。
3、如何提高试验的准确性与精确性?答:在调查或试验中应严格按照调查或试验计划进行,准确地进行观察记载,力求避免认为差错,特别要注意试验条件的一致性,即除所研究的各个处理外,供试畜禽的初始条件如品种、性别、年龄、健康状况、饲养条件、管理措施等尽量控制一致,并通过合理的调查或试验设计,努力提高试验的准确性和精确性。
4、如何控制、降低随机误差,避免系统误差?答:随机误差是由于一些无法控制的偶然因素造成的,难以消除,只能尽量控制和降低;主要是试验动物的初始条件、饲养条件、管理措施等在试验中要力求一致,尽量降低差异。
生物统计学二解析
(1)P(x≥2)=1-P(0)-P(1)=1-
(2)P(0)=
C
0 n
p
0
q
n=0.01
对于本问题即 0.9955n =0.01
查对数表可得n=1021
C0 100
p-
0
q100
C1 100
p1=q099.0751
例如:某种昆虫在某地区的死亡率为40%,即p=0.4, 现对这种害虫用一种新药进行治疗试验,每次抽样10 头为一组治疗。试问如新药无疗效,则在10头中死3 头、2头、1头以及全部愈好的概率为多少?
按照上面的公式进行计算:
7头愈好,3头死去的概率为:P(3) C130(0.4)3(0.6)7 0.21499
8头愈好,2头死去的概率为:P(2) C120(0.4)2(0.6)8 0.12093
9头愈好,1头死去的概率为:P(1) C110 (0.4)1(0.6)9 0.04031 10头全部愈好的概率为:P(0) C100(0.4)0(0.6)10 0.00605
二项分布试验具有重复性和独立性。重复性是指 每次试验条件不变,即在每次试验中时间A出项 的概率皆为p。独立性是指任何一次试验中事件A 的出现与其余各次试验中出现何种事件无关。
以x表示在n次试验中事件A出现的次数。x是一个离散型随 机变性,它的所有可能取值为0,1,2,…,n,其概率分 布函数为:
P(A) p lim m n n
频率和概率是不相同的,只有当试验次数无限增 大时,任一事件的频率趋于稳定,这时频率又称 统计概率.这时的频率和概率才是一样的.
种子总数(n) 10
.20
50
100
200
500
1000
发芽种子(m
生物统计学复习资料(二)
生物统计学复习资料(二)引言概述:生物统计学是基于统计原理和方法来进行生物数据分析和推断的科学领域。
本文档为生物统计学复习资料(二),旨在帮助读者复习统计学的基本概念和方法,并应对其在生物学研究中的应用。
本文将从五个大点出发,系统地介绍生物统计学的相关主题。
正文:一、描述统计学1.数据类型和测量尺度2.数据收集和整理方法3.描述性统计的基本概念和方法4.数据的图形表示与解读5.概率分布的基本特征及其应用二、参数估计1.总体与样本的概念2.参数估计的原理和方法3.点估计和区间估计的概念和计算方法4.常见参数的估计方法5.置信区间的解读与应用三、假设检验1.假设检验的基本原理和步骤2.单样本假设检验和双样本假设检验的概念和计算方法3.假设检验的显著性水平和P值的解释与应用4.常见假设检验的应用示例5.误差的类型和检验结果的解读四、回归分析1.线性回归的基本原理和假设2.回归方程模型的建立和参数估计3.回归系数的显著性检验和自变量的选择4.残差分析和模型的适应性检验5.回归分析在生物学研究中的应用案例五、方差分析1.方差分析的基本概念和原理2.单因素方差分析和多因素方差分析的概念和计算方法3.方差分析中的显著性检验和效应量计算4.方差分析中的多重比较方法5.方差分析的应用示例和注意事项总结:本文系统地介绍了生物统计学的相关主题,包括描述统计学、参数估计、假设检验、回归分析和方差分析。
通过阅读本文,读者可以复习统计学的基本概念和方法,并了解其在生物学研究中的应用。
希望本文对读者的生物统计学复习和学习有所帮助。
生物统计重要复习资料(畜牧兽医)
第一章绪论1.生物统计学的内容:统计原理、统计方法和试验设计。
2.生物统计的作用:a.科学地整理分析数据;b.判断试验结果的可能性;c.确定事物之间的相互关系;d.提供试验设计的原理。
3.样本容量常记为n,通常把n≤30的样本称为小样本,n.>30的样本称为大样本。
4.名解:(重)①生物统计:生物统计是应用概率论和数据统计的原理和方法来研究生物界数量变化的学科;②总体:是被研究对象的全体,据所含的个体的多少,总体分为有限总体和无限总体。
③样本:是指总体内随机抽取出来若干个体所组成的单位。
④随机误差:由于许多无法控制的内在和外在的偶然因素所造成的误差,内在如个体差异,外在如环境,它影响试验的精确性。
(了)①参数:从总体计算出来的数量特征值,它是一个真值,没有抽样变动的影响,一般用平均数u,标准差s。
②统计量:是从样本计算出来的数量特征值,它是参数的估计值,受样本变动的影响,一般用拉丁字母表示,如平均数。
③系统误差:主要是试验动物的初始条件不同,试验条件相差较大,仪器不准,标准试剂未经校正,药品批次不同,药品用量与种类不符合试验计划要求,以及观察,记录抄案,计算中的错误所引起的误差,它影响试验的准确性。
④准确性:指在试验或调查中某试验指标或形状的观测值与其真值接近的程度。
⑤精确性:指试验或调查中一试验指标或形状的重复观测值彼此接近的程度。
第二章资料的整理1.统计资按性质分为:计量资料、次数资料和半定量资料。
2.计量资料是指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测量获得的数量性状资料。
计量资料整理的五步骤如下:(1)求全距,即资料中最大值和最小值之差R=Max(x)—Min(x);(2)确定组数即按样本大小而定;样本含量与组数样本含量组数30~60 6~860~100 8~10100~200 10~12200~500 12~17500以上17~30(3)确定组距,每组最大值与最小值之差记为i ,公式:组距(i)=全距(R)/组数k ;(4)确定组中值及组限,各组的最大值和最小值称为组限,最小值为下限,最大值为上限,每组的中点值称为组中值,组中值=(下限+上限)/2=下限+组距/2=上限-组距/2;(5)归组划线计数,作次数分布表。
第二章生物统计课件
用计数方式
各观察值不一定是整数 各观察值只能是整数
两相邻的整数间可以有 两个相邻整数不得有任 带小数的任何数值出现 何带小数的数值出现
变异是连续性的
变异不连续性
体重、体尺、剪毛量、产 产仔数、产蛋数、鱼的尾
蛋量、日增重等
数、寄生虫虫卵数等
二、质量性状资料
质量性状是指只能观察而不能直接测量的性 状。 这类性状本身不能直接用数值表示,要获得这 类性状的数据资料,须对其观察结果作数量 化处理。 数量化方法——统计次数法(次数资料) 根据某一质量性状的类别统计其个体数(频 数)
组别
组中值 画线计数 次数(f)
44.15—
45.0
3
45.85—
46.7
6
47.55—
48.4
16
49.25—
50.1
22
50.95—
51.8
30
52.65—
53.5
44
54.35—
55.2
28
56.05—
56.9
30
57.75—
58.6
12
59.45—
60.3
5
61.15—
62.0
3
62.85 —
63.7
1
合计
200
直方图(图2-6,P19)
以每组的组限为宽、次数为高作矩形 (横轴标记组限,纵轴标记次数)
折线图(图2-7, P19 )
横坐标标记组中值,纵坐标标记次数, 以组中值为横坐标,次数为纵坐标描 点,用线段依次连接这些点
(三)质量性状资料、半定量(等 级)资料的整理
• 可按性状或等级进行分组,分别统计 各组的次数,然后制成次数分布表和 次数分布图。
生物统计2
表5 白猪和黑猪子二代的毛色分离情况
毛色 白色 黑色 花色 合计 次数(f) 332 96 22 450 频率/% 73.78 21.33 4.89 100.00
由质量性状数量化得来的资料又叫次数资料。
• 等级资料(ranked data)亦称有序分 类资料(ordinal categorical data), 是将观察单位按属性的等级分组,清点 各组的观察单位数,所得的资料为等级 资料。 • 如治疗结果分为治愈、显效、好转、无 效四个等级。
(2)标目
横标目(主语) 纵标目(谓语) 总纵标目
横标目(即第一分组标志)位于表的左侧, 说明每一横行的内容;总纵标目写在表的 上部,用来说明下面的现象或情况;纵标 目(即第二分组标志)写在总纵标目之下, 说明每一列的内容。
(3)线条
尽量少; 不必要的横线都可取消; 不能有左上角的斜线; 不能有竖线; 为了使行数很多的表在取消横线后不看错行, 可将横行每隔几行分为一个组,组间空一行隔开。 若表中有“合计”行,“合计”行上沿应有一 条横线,但同时,该横线不应划到“合计”二字 头上。
数据的频率分布 数 据 的 频 率 分 布 离散性资料的频率分布
分类资料
计数资料
连续性资料的频率分布
离散性资料的频率分布
分类资料:
其频率分布就是属于不同类别的观测值出 现的次数(频数)和所占的比例(频率)。 计数资料: 以每个自然值代表一类,计算各类中观察 值出现的频数和频率。
表2-1 70头经产母猪窝产仔数资料
表1
总 的 横标目 纵标目:
统计表的模式
总的纵标目(指标)
各行书 写具体 的横标 目内容
表体内书写与“总的纵标目”对应的绝对数或相对数
生物统计学第二章资料的描述性统计分析
11.5 12.0 13.0 13.0 15.0 9.0 13.5 9.0 13.0 10.0 9.5 12.5 9.0 11.5 15.0 17.0 15.0 14.0 15.5 16.0
14.5 9.0 12.3 9.5 18.0 13.0 11.0 10.5 12.5 12.5 16.5 14.5 13.5 9.0 14.0 11.5 11.5 11.5 11.8 11.8 15
11 9 8 9 10 8 13
10 12 10 9 11 9 10
10 8 11 11 13 9 11
7 10 13 10 11 11 9
1
12
表2-2 70头经产母猪窝产仔数资料的频数分布表
产仔数 7 8 频数 2 5 累计频数 2 7 频率(%) 2.86 7.14
9 10
11 12 13 14 总和
1 3
第二章
原始数据:
资料整理
大量的、“杂乱无章” 不能直接用于统计分析,必须经过统整理 和加工。
1
4
第二章
资料整理
资料整理的主要内容
(1)审核与订正:人为错误、小数点等
(2)分组与汇总:内部结构、类型和特征
(3)计 算各种综合数字特征:如,n、平均数、标准差
(4)统计表或统计图:显示资料的基本特征和内在规律
4. 求组中值和组限
组限:每组的两个极限值 组下限:最小值 组上限:最大值 组中值:(组上限+组下限)/2
组下限= 组中值- 0.5X组距
一般是首先确定第一组的组中值,然后根据加上组 距得到第二组的组中值,依次类推…… 本例为8.5,组下限为8,依次类推……
1 18
2.2.2 连续性资料的频率分布
生物统计学第2章-2012
三、试验资料的整理
(4) 归组和制表
确定好组数和各组上下限后,可按原始资料中各观 测值的次序,将各个数值归于各组,计算各组的观 测数次数、频率、累积频率,制成一个次数分布表。
(2) 确定组数和组距(class boundary)
组数是根据样本观测数的多少及组距的大小来 确定的,同时考虑到对资料要求的精确度以及进一 步计算是否方便。
组数 组距
多 少
小 大
统计数精确,计算不方便 统计数不精确,计算方便
19
表2-5
样本容量与分组数的关系 分组数 5~8 7 ~ 10 9 ~ 12
11~17
分为7组
统计各组次数 计算频率和累积频率 制表
15 16 16 14 13 14 15 13 15 13
15 15 15 14 14 16 14 15 17 13 16 14 16 15 13 14 14 14 14 16 12 13 12 14 12 15 16 15 16 14 13 15 17 14 13 14 12 17 14 15
56 49 62 78 41 47 65 45 58 55 52 52 60 51 62
(1) 求全距,
78 66 45 58 58 56 46 58 70 72 76 77 56 66 58
63 57 65 85 59 58 54 62 48 63 58 52 54 55 66 52 48 56 75 5563 75 65 48 52 55 54 62 61 62
计数资料基本上采用单项式分组法进行整理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
xi x
2
xi A
2
所以:平均数是与各个观察值最接近的数值。 所以:平均数代表这个样本的集中趋势。
2.6.2 几何平均数
定义:n个非负数的乘积开n次方的根称为几何平均 数,用 G 表示。
G n X1 X 2 X n n X i
为了计算方便,各变数先取对数,再相加除以n,即 为logG,再求其反对数,即为G值。
例2.2:一个有1000个个体的群体,等位基因 A 的 频率为0.6,另一个400个个体的群体, 等位基因 A 的频率为0.3,这两个群体的混 合在一起,整个混合群体的等位基因 A 的 频率为:
0.6 1000 0.3 400 0.5131 1000 400
2.6.1 算术平均数
2.6.2 几何平均数
【例】 某波尔山羊群1997—2000年各年度的存 栏数见表,试求其年平均增长率。
2.6.2 几何平均数
G=
1 lg [ (lg x1 lg x 2 lg x n )] n
1
=lg-1[(-0.368-0.398–0.602)] =lg-1(-0.456)=0.3501
上次课主要内容回顾
1. 原始资料 2. 统计资料
3. 资料整理的目的和过程
4. 连续性资料和离散性资料
5. 连续性资料的频率分布(全距、组数、组距、 组中值、组上限、组下限、频数、频率) 6. 离散性资料的频率分布(类别、频数、频率) 7. 统计表(简单表、复合表、与统计图的关系)
8. 统计图(种类以及适合那类资料)
x1 5 70 72 80 83 88 78.6(kg)
从计算结果看5头猪都距78.6(kg)不远, 所以平均数是数量资料的代表值。 上述计算方法称为直接法,适用于样本小, 即资料内包含变数个数不多,一般在30个变数以 下未经分组的资料。
2.6.1 算术平均数
二、加权法
2.6.2 几何平均数
例2.3:某奶牛场在1995年有100头奶牛,已知在 1996,1997和1998年的奶牛头数分别为前一年的 2,3和4.5倍,求其年平均增加率。 解:
G 2 3 4.5 27 3
3 3
1998年的奶牛头数为: 100×2×3×4.5=2700头 或者100×33=2700头
1. 分类资料:每个类别在某个指标上取相同的值。
2. 计数资料和连续性资料:频率分布表
加权法,即计算时先将各个变数乘上它 的权数,再经过总和,然后除以权数的总合, 称为加权平均数。
2.6.1 算术平均数
计算公式:
f x x f
i i
i
xi=变数值 fi=变数值xi出现的频数
2.6.1 算术平均数
(70-78.6)+(72-78.6)+(80-78.6)+ (83-78.6)+(88-78.6) =(-8.6)+(- 6.6)+ 1.4+ 4.4+ 9.4 = 0
2.6.1 算术平均数
(二)离均差平方和最小:一个样本的各个观察值 与平均数之差的平方和比各个观察值与任意其他数 之差的平方和小。即:
G lg (lgG) lg
1
1 1 n
lg X1 lg X 2 lg X n
2.6.2 几何平均数
从公式可以知道:几何平均数就是首先将原数据转 换为对数;然后求对数值的算数平均数;最后再取 反对数还原。 几何平均数用于以百分率、比例表示的数据资料, 如增长率、利率、药物效价、抗体滴度等。 能够消弱数据中个别过分偏大值的影响。
例如:不同国家、地区、种族之间身高、体重等的
比较;不同品种的家畜、家禽之间生产性能 的比较
2.6 集中趋势的度量
主要内容:
一、算术平均数
二、中位数、众数、几何平均数和调和平均数
三、5 种平均数的关系和评价
2.6.1 算术平均数一来自定义一组资料中,所有观测值的总和除以其个 数所得到的商,称为算术平均数,简称平均数 或均数。最常用的一种集中趋势度量指标。 样本的平均数记为 x 总体平均数记为
2.6 集中趋势的度量
在数理统计中,平均数是用来反映 一组变数的集中趋势,即变数分布的中 心位置。常用的度量指标有: 1. 算术平均数 X
2. 中位数(Md)
3. 众数(Mo)
4. 几何平均数(G)
5. 调和平均数(H)
2.6 集中趋势的度量
意义:
作为一个资料的代表,指资料中各变数集中 较多的中心位置,用来与另一资料相比较。不同的 平均数适合于不同的数据资料。
例2.3:200头大白猪的仔猪的一月窝重的资料见表2-1
组别
81624324048566472808896104112-
组中值
12 20 28 36 44 52 60 68 76 84 92 100 108 116
频数(f)
4 6 9 10 13 17 26 35 28 21 16 8 4 3
fx
48 120 252 360 572 884 1560 2380 2128 1764 1472 800 432 348
2.6.1 算术平均数
计算公式:
x
1 n
x x x
1 2
x
n
x i
n
x
n:观察值或变数的个数
i
:第i个观察值或变数
∑:求和符号(sigma)
2.6.1 算术平均数
一、直接法:
例2.1:5头猪的体重分别为70、72、80、83、 88kg,问 5头猪的算术平均数是多少?
三、性质
(一)离均差之和为零: 一个样本观察值与平均数之差简称离 均差。
∑(xi- x ) =(x1- x )+(x2- x )+……+(xn- x ) = x1+x2+……+xn-n• x = ∑xi- n‧∑xi/n =0
2.6.1 算术平均数
例2.2:5头猪的体重分别为70、72、80、83、 88kg,5头猪的算术平均数是78.6 kg。
总合
200
13120
2.6.1 算术平均数
f x x f
i i
i
xi=组中值 fi=组中值出现的频数
12 4 20 6 ...... 116 3 x 4 6 ...... 3 13120 65.6( kg ) 200
例2.3:表2-2和表2-5
2.6.1 算术平均数