生物统计学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二. 变异数
极差 方差 标准差 变异系数
1.极差
极差是数据分布的两端变异的最大范围,即样本变量 值最大值和最小值之差,用R表示。
R = max{x1,x2,……, xn} - min{x1,x2,……, xn} ={x1,x2,……, xn}max - {x1,x2,……, xn}min
2.方差
第三节 几种常见的理论分布
随机变量的概率分布:
二项分布
离散型变量
泊松分布
变
(discrete random variable)
量
连续型变量
正态分布
(continuous random variable)
一、二项分布
试验只有两种可能结果
对立事件
雄性
动物
雌性
发芽
种子
不发芽
合格
产品
不合格
成活 生物个体 死亡
定义:是各观测值的平方和的平均数的平方根,用q 表示。
n
xi2
q i1 n
k
或
q
fi xi2
i 1 k
fi
i 1
主要适用在一些具有一定体积的物体的边长、直 径、半径等资料上。
5. 中位数(median)
Md
资料中所有观测数依大小顺序排列,居于中间位置 的观测数称为中位数或中数。
变异数 极 方 标变 差 差 准异
差系 数
一. 平均数
1. 算术平均数 (arithmetic mean)
μ 总体: = x1+x2+x3+…+xN =
N
1
N
N
xi
i 1
x 样本: = x1+x2+x3+…+xn =
n
1
n
xi
n i1
2. 几何平均数
G
定义:n 个观测值相乘之积开 n 次方所得的方根,称
第二节 随机变量及其分布
事件的概率表示了一次试验某一个结果发生的可能 性大小。若要全面了解试验,则必须知道试验的全部可 能结果及各种可能结果发生的概率,即必须知道随机试 验的概率分布。为了深入研究随机试验 ,我 们 先引入 随机变量的概念。
离 散 型 随 机 变 量:如果表示试验结果的变量x,其可 能取值为有限个或可列无穷多个 ,且以各种确定的概率 取这些不同的值 , 则称 x为离散型随机变量。
e f (x) 1
2
( x )2
2 2
( x )
其中μ、σ2为常数,则称随机变量x服从正态分布 (normal distribution), 记为x~N(μ, σ2),表示具有平均数 为μ,方差为σ2的正态分布。
标准正态分布(standard normal distribution):指μ=0, σ2=1的正态分布,概率密度函数为:
为几何平均数,记为G。
G
n
x1 x2 x3
xn
(x1 x2 x3
1
xn ) n
实际计算,常用以10为底的对数方法,即
G
lg
1[ 1 n
(lg
x1
lg
x2
lg
xn
)]
适用范围:数据呈倍数关系或不对称分布时。它 主要应用于水产业的生产动态分析,如增长率或生长 率,抗体滴度,药物效价,传染病的潜伏期,动态发 展速度等,用几何平均数比用算术平均数更能代表其 平均水平。
概率定义(probability,P)
概率是随机事件发生可能性大小的数值度量。 统计定义:设在相同的条件下,进行大量重复试验, 若事件A的频率稳定地在某一确定值p的附近摆动,则 称p为事件A出现的概率。
P(A) = p
mm P(A) = p=lim n n
在一般情况下,随机事件的概率P是不可能准确 得到的。通常以试验次数n充分大时,随机事件A的 频率作为该随机事件概率的近似值。
1.2 计量资料的整理
计量资料一般采用组距式分组法。
全距
组数
组距
制表
归组
组限
2 次数分布图
类型:条形图、直方图、多边形图、饼图和散点图 图形的选择取决于资料的性质:
计量资料:直方图和折线图; 计数资料、质量性状资料:条形图、饼图。
第三节 试验资料特征数的计算
集中性
离散性
平均数 算 几 调 平中 众 术 何 和 方位 数 平 平 平 平数 均 均 均均 数 数 数数
连续 型 随 机 变 量:如果表示试验结果的变量x ,其可 能取值为某范围内的任何数值 ,且x在其取值范围内的 任一区间中取值时,其概率是确定的,则称x为 连续 型 随机变量。
研究随机变量的方法,大致几种:
分布列或分布表,它用于离散型随机变量。 密度函数,用于连续型随机变量。通过积分可以得到变量落
常用几个概率
P (μ-σ≤x<μ+σ)=0.6826 P (μ-2σ≤x<μ+2σ) =0.9545 P (μ-3σ≤x<μ+3σ) =0.9973 P (μ-1.96σ≤x<μ+1.96σ) =0.95 P (μ-2.58σ≤x<μ+2.58σ)=0.99
第三节 抽样分布
一. 样本平均数的分布 二. 样本平均数差数的分布 三. t分布 四. F分布
u x
x
u x
s x
t x
s x
二. 两个样本平均数的假设检验
适用范围:检验两个样本平均数x1和x2所
属的总体平均数1和2是否来自同一总体。
成组数据平均数的比较
试 验 设 计
成对数据平均数的比较
成组数据平均数的比较
如果两个样本的各个变量是从各自总体中随机 抽取的,两个样本之间的变量没有任何关联,即两 个抽样样本彼此独立,则不论两样本的容量是否相 同,所得数据皆为成组数据。两组数据以组平均数 作为相互比较的标准,来检验其差异的显著性。
二、泊松分布
泊松分布(Poisson distribution) 是一种可以用 来描述和分析随机地发生在单位空间或时间里的稀 有事件的概率分布,也是一种离散型随机变量的分 布。
泊松分布是二项分布的一种极限分布(p值很 小,n很大)。
泊松分布的概率函数
P(x) e-λ x
x!
λ为参数,λ=np x = 0,1,2,…
样本1 样本2
x1
d x1 x2
… …
n对
x2
d
d
n
(x1 x2 ) n
x1 n
x2 n
x1 x2
样本差数的平均数等于样本平均数的差数
样本差数的方差
样本差数平均数 的标准误 t值
H0: μd=0
sd2
(d d )2 n 1
d 2 ( d )2 n
入任何区间的概率。其性质为 f (x)dx 1.
为了统一起见,又引入了分布函数:
F(x)=P(X<x) (-∞<x<+∞) 它用于任何随机变量。P(a≤X<b)= F(b)-F(a)
x
离散型:F (x) p(xi )
xi x
连续型F (x) f ( y)dy
第一章
试验资料的集中性 和 变异性
试验资料的集中性和变异性
试验资料的整理 平均数 变异数
总体与样本
参数与统计数
总体:根据研究目的 确定的同质研究对象 的全体(集合)。
样本:从总体中随机 抽取的部分研究对象
大、小样本
统计分析的核心:由样本的信息来推断总体的信息
试验资料的整理
试验资料的性质与分类 次数分布表 次数分布图
f (u)
1
u2wk.baidu.com
e2
2
随机变量u服从标准正态分布,又称为u分布,记作u~ N(0,1) 。
对于任何一个服从正态分布N(μ,σ2)的随机变量x,都可 以通过标准化变换:
u x
将其变换为服从标准正态分布的随机变量u。u 称 为
标准正态离差,它表示离开平均数μ有几个标准差σ 。
若随机变量 x~N(μ,σ2) ,则随机变量 u x ~N(0,1)
根据两样本所属的总体方差是否已知和样本大 小不同而采用不同的检验方法。
1、两个总体方差σ12 和σ22已知,或σ12 和σ22未知,但 两个样本都是大样本,即n1>30且n2>30时,用u检验法
2、两个总体方差σ12 和σ22未知,且两个样本都是小样 本,即n1<30且n2<30时,用t检验法。
第一步 F检验
对于样本来说,样本方差(sample variance)s2为:
n
_
( xi x)2
s 2 i1 n 1
总体来说,总体方差(population variance) σ2 为:
N
( xi )2
2 1
N
3 标准差 (standard deviation, Sd)
样本
标准正态分布的概率累积函数记作F(u),它是变 量u小于某一定值ui 的概率。
F (ui ) P(u ui )
ui f (u)du
双侧概率(两尾概率)、单侧概率
为了计算方便,对于不同的u值,计算出不同的F(u), 编成函数表,称为标准正态分布的概率表(附表1),从中 可以查到u任意一个区间内取值的概率。
第三章 统计推断
第一节 假设检验的原理与方法 第二节 样本平均数的假设检验 第三节 参数的区间估计与点估计 第四节 方差的同质性检验
假设检验的基本步骤
对样本所属总体提出无效假设H0和备择假设HA; 确定检验的显著水平; 在H0成立的前提下,构造合适的统计量,并研究试验
所得统计量的抽样分布,计算相应的概率; 根据小概率原理,进行差异是否显著的推断,并做出
生物统计学
章节
绪论 1 试验资料的集中性和变 异性 2 概率及其分布 3 统计推断 4 方差分析 5 直线回归和相关
绪论
统计学与生物统计学的概念 生物统计学的基本作用 统计学发展中的重要人物 常用术语
生物统计学(Biostatistics)是数理统计在生 物学研究中的应用,它是应用数理统计的原理, 运用统计方法来认识、分析、推断和解释生命过 程中的各种现象和试验调查资料的科学。
结论。
一. 一个样本平均数的假设检验
适用范围:
检验某一样本平均数x所属的总体平均数是否 和某一指定的总体平均数0相同。
1、总体方差σ2已知,无论n是否大于30都可采用u检验法
2、总体方差σ2未知,但n>30时,可用样本方差s2来代替 总体方差σ2 ,仍用u检验法
3、总体方差σ2未知,且n<30时,可用样本方差s2来代替 总体方差σ2 ,采用df=n-1的t检验法
第二步 t检验
u x1 x 2
x1 x 2
u x1 x2 s x1 x2
t x1 x 2 s x1 x 2
成对数据平均数的比较
将性质相同的两个样本(供试单位)配偶成 对,每一对除随机地给予不同处理外,其他试验条件 应尽量一致,以检验处理的效果,所得的观测值称为 成对数据。
计数资料/非连续变量资料
试 数量性状资料
验 资
计量资料/连续变量资料
料
类 型 质量性状资料/属性性状资料
1 次数分布表 1.1 计数资料的整理
计数资料基本上采用单项式分组法进行整理。
特点:用样本变量自然值进行分组,每组用一 个或几个变量值来表示。然后把每个观察值归 入到相应的组内,制成次数分布表。
3.调和平均数 (harmonic mean)
H
定义:资料中各观测值的倒数的算术平均数的倒数。
H
(1 1
n x1
1
1 x2
1 xn
)
1
1 n1
n n1
x n i1 i
x i1 i
适用范围:主要用于反映生物不同阶段的平均增长 率或不同规模的平均规模(阶段性变异的资料)。
4. 平方平均数
则称变量 x 服 从 参 数 为 λ 的 波 松分布 (Poisson’s distribution),记 为 x~P(λ)。
p(x) 1
三、正态分布
n大 p与1-p接近
二项分布
λ大
泊松分布
正态分布
正态分布是生物统计学的重要基础。
1. 正态分布的概率密度函数
若连续型随机变量x的概率密度函数为
生物统计学:用统计学的原理和方法研究生 命科学中的问题的学科 。
生物统计学的基本作用
提供调查或试验设计的依据,有效收集研究数据。
提供整理和描述数据资料的科学方法,展现数据的基本 特征。 提供数据分析的方法,合理推断研究问题。
生物统计学的常用术语
总体、个体与样本
参数与统计数 变量与常量 因素、水平、处理、重复 准确性与精确性 随机误差与系统误差
s=
(x-x ) 2
n-1
总体
σ= (x-μ) 2
N
4. 变异系数(coefficient of variability, CV )
定义:样本的标准差除以样本平均数,所得到的比值 就是变异系数。
CV=s / x × 100%
第二章
概率 及其 分布
第一节 随机事件及其概率
随机事件的概念 事件的关系及其运算 概率的定义 概率的运算