生物统计学总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物统计学总结
绪论
统计工作的四大步骤:设计、搜集、整理、分析统计资料的三大类型:
计量资料:对每个观察值单位用定量方法测得每项指标量的大小所得的资料计数资料:将观察单位按照某种属性类别分组,所得的观察单位数等级资料:将观察单位按某种属性的不同程度分组所得的资料
同质与变异同质:除研究因素外,其他因素相同或相近为同质变异:观测值的不齐性
总体与样本:总体:根据研究目的所确定的同质观察单位的全体=所有研究对象
性质相同的全体观察单位某项变量值的集合总体含量:总体中所包含的观察单位数
有限总体:总体观察单位数可数无限总体:总体观察单位数不可数样本:从总体中随机抽取的部分观察单位样本含量:样本中所包含的观察单位数抽样:从总体中获得样本的过程放回式抽样不放回式抽样抽样误差:因个体变异的存在,由抽样而导致的样本指标与总体指标之差统计量:有样本所得指标或数参数:由总体所得指标,关于特征的表征频数:完全相同的观察只出现的次数频率:某一观察值出现的次数与样本含量的比值概率:描述某事物发生可能性大小的一个度量样本空间:一次实验所有可能的结果的集合基本事物:样本空间每一个可能的结果
小概率事件:P<=0.05或P<=0.01的事件小概率原理:小概率事件在一次抽样中不可能发生
计量资料的统计描述
集中趋势的指标:
平均数
定义:描述一组同质计量资料的集中趋势,反映某一组观察值的平均水平或某一分布的平均位置的指标作用:作为一组资料的代表值,可用于组间的分析比较
均数的两个重要特征代表性
1. 离均差和等于0
2. 离均差平方最小小于常用平均数指标:
1. 算术均数
(1)定义:全部观察值相加之和除以观察值个数所得的商总体均数样本均数
(2)算法:
1)直接法:
2)加权法:
3)缩减法
(3)注意事项:
1)只有在合理分组的基础上对同质数据取均数才有意义
2)均数用于近似正态分布的对称分布,尤其是正态分布
2•几何均数G (不能用算术均数时)
(1)定义:几个观察值相乘之积,开几次方所得根
(2)计算
1)直接法
2)
(3)应用注意:
1)几何均数适用于观察值相差很大,甚至呈倍数关系(等比或几何级数资料)或用于对数正态分布资料
2)观察值不能有零,不能同时有正负,若都为负,去符号最后加符号,
观察值比较小或有零,可加1,最后减去
3)同一资料求得的几何均数小于均数
中位数M
(1 )定义:把一组观察值按大小顺序排列,位次居中的
(2)计算:
1)直接法
2)频数表法:
(3 )注意事项
1)适用场合:偏态,开口(一端或两端无界限),分布不清的
2)特性:只代表了居中观察值的特性,敏感性低,不受特小特大值的影响
3)对于正态分布资料,理论上,中位数=均数(数值上)
百分位数
(1 )定义:将n个观察值由小到大排列,编上秩次,将n个秩次100等分,与X%秩次相对应的数值, 即X的百分位数,是一个位置指标,以Px表示(x代表百分秩次)
Px将整个数列分为两半,X%比Px小,1-X%比Px大
(2)计算:
(3)应用注意
1 )百分位数常用于描述一组资料(样本或总体)在某百分位数上的水平和分布特征,多个百分位
数结合使用,可全面描述观察值分布特征,包括位置的大小和变异度
2)一般分布中部的百分位数相当稳定,代表性好,
靠近两端的百分位数,只在样本含量足够大(>120个)才足够稳定,
所以当样本含量不够大时,不宜取两端百分位数
3)用百分位数确定正常值范围,习惯上95%
离散趋势的描述
1. 极差R:
样本资料中最大值和最小值之差
在一定程度上能说明样本波动幅度的大小,但它只受样本中两个极端个体数值大小的影响,不能反映样本中各个观测值的变异程度,稳定性差
2. 四分位数间距:
是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小•
稳定性好,灵敏度不够
3. 标准差:
1)定义:描述一组同质计量资料离散程度大小的指标
反映了均数对一组观察值的代表性说明了观察值围绕均数分布的离散程度,个体变异2)计算:
3)应用:
1. 表示变量分布的离散程度
2. 结合均数描述正态分布特征
3. 结合均数计算变异系数
4. 结合样本含量计算标准误
4)注意:
(1)不同单位,相同标准差,不能比较
(2)大个体差异大,变异度大,小个体则变异度小
4. 变异系数CV
1)定义:标准差与均数之比,用百分数表示
2)计算:
3)应用:单位不同的几组资料变异度及均数相差悬殊的几组资料的变异度的比较,不单独使用自由度V
泛指可以自由取值的变量的个数
正常值:正常动植物解剖生理生化等各种数据的波动范围
1)必要性
1. 区分正常和异常
2. 看不同种群在不同时间地域上某一指标的差异
2)选取
1. 极差中的一部分
2. 单侧或双侧正常值之分,由指标实际情况及实验要求确定
3. 方式之一为正常值范围的百分位数,习惯上95%
双侧:确定P2.5或P97.5
单侧:P5或P95,看实验需要
计量资料的统计推断
统计推断
-用样本信息推断总体特征
-参数估计:由样本结果对总体参数在一定概率水平下所做出的估计
•假设检验
正态分布
1)概念:一种连续型随机变量的概率分布
密度函数:
分布函数:
2)特征:
1. 在横轴上均数处最高