生物统计学 统计数据的收集与整理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2 数据类型及频数(率)分布
根据观察数据之间有无缝隙(gap),常将数据 定量变量(quantitative variable):亦称为数值变 分类为离散型(discrete)变量(有缝隙)与连续型 量,变量值是定量的,表现为数值大小,一般有度 (continuous)变量(无缝隙)两大类。 量衡单位。e.g. 身高、体重。 定性变量(qualitative variable):亦称为分类变量, 与某种标准作比较所得到的数据称为连续型 其变量值是定性的,表现某个体属于几种互不相容 数据(continuous data),又称为度量数据 的类型中的一种。e.g. 血型,豌豆花的颜色。
(measurement data)。 常数(constant):是不能给予不同数值的变量,代 由记录不同类别个体的数目所得到的数据, 表事物特征和性质的数值。e.g.样本平均数,标准差。 称为离散型数据(discrete data),又称为计 数数据(count data)。
在判断数据的类型之后,就要进一
步研究数据的变化规律。描述数据 变化规律的最简单方法是将这些数 据列成频数表(frequency table)或 绘成频数图(frequency graph), 根据频数分布进行研究。
频数(率)表和频数(率)图的编绘
离散型数据频数(率)表 和频数(率)图
源自文库
编制连续型数据的频数(率)表 的方法步骤
从原始数据表中找出最大值和最小值,并求出
例1.2 “三尺三”株高
标准差
对于数据的变异程度,经常使用的度量方法有三种, 它们是:范围(range)或称为极差,平均离差 (mean deviation, MD)和标准差(Standard deviation, s or SD)或称为标准离差。其中最重要的 是标准差。
学习小组任务
1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料 是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么 推导出来的(可参考1.3.3或课外参考资料)。
平均离差(mean deviation, MD)
表1-6中数据的MD:
除得的商称为样本方差(sample variance), 用符号s2表示。
离差平方和 (sum of square of deviations)
标准差(s,SD)
方差的缺点: 方差s2是离均差平方的平均数。虽然方 差在实际应用中用得最广泛,但它还不 能直接地指出某个数x与平均数之间的 偏离究竟达到什么程度。
s要比MD要大一些。
如果数据分布曲线是平滑且对称的,
那么大约57%的数据落在平均数 ±MD内; 如果数据分布曲线是平滑且对称的, 那么大约68%的数据落在平均数 ±s内。
总之,衡量数据离散程度时,三种方法 都可以使用。用抽样理论可以证明:用 标准差估计总体离散程度最可靠,平均 离差次之。
若频数分布是对称于平均数的,则三阶中心
矩等于0。 当曲线在大于平均数的一侧有一个“长尾” 时(图1-5A) ,m3 >0;正偏。 当曲线在小于平均数的一侧有一“长尾”时 (图1-5B),m3 <0。负偏。
m3 >0
m3 <0
m3的两个严重缺点
(l)它的单位为物理学单位的立方,
因此在不同类型数据之间不易比较。 (2)因为它没有计算数据变异的性 质,因此没有一个绝对的含义。为 了解决这一问题,制定了一个没有 任何单位的量。
极差。 决定划分的组数,分组数是由数据的多少决定 的,在数据较少时,如50~100个数,可以分 为7~10组。数据较多时,可分为15~20组。 根据极差与决定划分的组数,确定组限。 在频数表中列出全部组限、组界及中值。 将原始数据表中数据,用唱票的方式填入频数 表中,计算出各组的频数和频率。
本章作业
第3版教材
P20
1.5(要求通过频数资料计算平均数和标准差) 1.16 (要求列表、编码)
第2版教材
P20
1.12 (要求列表、编码)
6.5
6.6
学习小组任务
1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料 是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么 推导出来的(可参考1.3.3或课外参考资料)。
连续型数据频数(率)表 和频数(率)图
最低与最高一组非零 频数的点分别与相邻 零频数中值点相连
累计频数图的意义?
横坐标与多边形 图有何差异?
累计的意义?累计频数图的意义?
研究频数(率)分布的意义
1. 根据频数(率)分布,可以看出数据的集中 情况(重心)。 平均值(average value, mean) 算术平均数(arithmetic mean)、中位数 (median)和众数(mode)。 2. 从频数(率)表或频数(率)图中,可以直 观地看出数据的变异情况。 3. 可以直观看出频数(率)图的变化形状。还 可显示一些不规则的情况。
偏斜度和峭度
度量数据围绕众数呈不对称的程度,即通常
所称的偏斜度(skewness)。虽然有几种不 同的度量偏斜的方法。但是鉴于三阶中心矩 (third central moment)的方法有最好的特 性,因而使用得最广泛。三阶中心矩的定义 为:
下面用4、11、12和13这四个数示意性地说明三阶 中心矩并计算出 m3 。从下表中可以看出,当我们将 离差立方后,其中有一个负数,它远远超过另外三 个正数,其代数和为负数,因此m3= 负数说明在平均数左侧的离差大于右侧的离差。因 此分布是不对称的。
频数(率)分布的不恒定性
当用随机抽样方法获得样本时,由于偶然性,
有时在一个样本中抽到的数值偏高,而另一个 样本中数值偏低,使两个样本的频数分布出现 不同。由于样本分布的不恒定性,当用样本去 推断总体时,推断的结果也会有所不同。这就 需要考察当用某一样本去推断总体时所得结果 与真正总体之间有多大误差,结果的可信度有 多高。
1.3 样本的几个特征数
样本统计量
平均数(mean)
生物统计学中,使用最多的是算术平均数(x)。
求和符号3个简单运算法则
[b-(a-1)]c
算数平均数的基本特征
算术平均数的计算与样本内的每个值都有关,
它的大小受每个值的影响。 若每个xi都乘以相同的数k,则平均数亦应乘 以k。 若每个xi都加上相同的数A,则平均数亦应加 上A。 如果 是n1个数的平均数, 是n2个数的平均 数,那么全部n1 + n2个数的算术平均数是加 权平均数(weighted mean):
g1 >0
g1 <0
第二个度量曲线形状的量是g2,称为峭度
(kurtosis)
不要求推导。
了解
对于频数资料,可用类似计算标准差的方法, 将中值编码后再计算。可以使用以下公式:
了解
例1.2 “三尺三”株高分布的g1和g2。将表1-3 中的数据用C=157编码后,列成下表
g1和 g2值与“正态”曲线的值差异都不大。g1=-0.105与 正态的0很接近,但稍微有些负偏。g2=0.295略高于正态 的0,即曲线的峰略突起。所以两者均可被认为接近“正 态”曲线。 在做曲线形状判断时,必须是一个大的样本, g1 和 g2 才可靠。判断g1 时,样本含量至少要200以上,g2需l000 以上。以上各阶矩都是由样本计算得到的,因此称为样本 矩(sample moment)。
编码和列表都是好习惯。 现仅对例1.3中的 第一个小区进行 计算,取C=25, 于是x=x-25。 根据(1.12)式
编码列表了如何 计算平均值?
1. 频数资料的计算方法
对于连续型数据,可以用中值代替离散型数 据中的组值做近似的计算,但是连续型数据 中的中值一般都较大,必须编码后再计算。 可用下式:
标准差的计算方法
1. 非频数资料的计算方法
不要求公式推导。
例1.3 从两个小区分别随机抽取20株小麦,测 其单穗粒数,结果如下表,计算其标准差。
列出下表计算
但是若将上述数据进行编码,则可明显看出用(1. 12) 式计算极为便利。具体做法是任选一个数C,求每一个 数与C的差,利用差值计算离差平方和。结果与未编码 所得的值是一样的。C最好选接近平均数的一个数,这 样编出的数码最容易计算。
抽样的目的,是希望通过对样本的研究,
推断其总体,样本必须能够代表总体。我 们需要的样本应该是一个总体的缩影。为 了达到这个目的,就需要用随机抽样 (random sampling)的方法获得样本。
随机数字表的使用
见附表一(p251)
不同的抽样方 式得到不同的 数据分布 从一有限总体中抽样,可分为放回式抽样 (sampling with replacement)和非放回式抽 样(sampling without replacement)。所谓 放回式抽样是指:从总体中抽出一个个体, 记下它的特征后,放回总体中,再做第二次 抽样。这种抽样方式可能会重复抽中某一个 体。非放回式抽样是指:从总体中抽出个体 后,不再放回。
变异系数(coefficient of variability,CV)
假若两组数据的标准差相等,但是平均数不
等,那么平均数大的样本,比平均数小的样 本相对来说更整齐。 为了客观地比较两者的变异程度,引入变异 系数(coefficient of variability,CV)这一概 念。变异系数的公式为:
样本(sample):从总体中随机抽取的若干 样本(sample) 个个体所构成的集合。 样本含量(sample size) 样本单位(sample unit)
总体(pupulation):根据研究目的确定的
样本含量(sample size),记为n。
从总体中获得样本的过程称为抽样
(sampling)
生物统计学
Biostatistics
第一章 统计数据的收集 与整理
2012.2
1.1 总体与样本
总体(population) 同质研究对象的全体(集合)。分有限总体 无限总体(intinite population) 与无限总体。 有限总体(finite population) 个体(individual)
平均数的计算方法
离散型数据频数资料:
注意记住所 有字母符号 的含义
例1.1 新生儿体重
作表计算是个好习惯
连续型数据频数资料:
和离散型数据计算 公式比较,符号有 何异同
怎么才能精确计算? accurate calculation
学习小组任务
1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料 平均数是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么 推导出来的(可参考1.3.3或课外参考资料)。