生物统计学3
生物统计学(第3版)杜荣骞 课后习题答案 第二章 概率和概率分布
第二章概率和概率分布2.1做这样一个试验,取一枚五分硬币,将图案面称为A,文字面称为B。
上抛硬币,观察落下后是A向上还是B向上。
重复10次为一组,记下A向上的次数,共做10组。
再以100次为一组,1 000次为一组,各做10组,分别统计出A的频率,验证2.1.3的内容。
答:在这里用二项分布随机数模拟一个抽样试验,与同学们所做的抽样试验并不冲突。
以变量Y表示图向上的次数,n表示重复的次数,m表示组数,每次落下后图向上的概率φ=1/2。
SAS程序如下,该程序应运行3次,第一次n=10,第二次n=100,第三次n=1000。
options nodate;data value;n=10;m=10;phi=1/2;do i=1 to m;retain seed 3053177;do j=1 to n;y=ranbin(seed,n,phi);output;end;end;data disv;set value;by i;if first.i then sumy=0;sumy+y;meany=sumy/n;py=meany/n;if last.i then output;keep n m phi meany py;run;proc print;title 'binomial distribution: n=10 m=10';run;proc means mean;var meany py;title 'binomial distribution: n=10 m=10';run;以下的三个表是程序运行的结果。
表的第一部分为每一个组之Y的平均结果,包括平均的频数和平均的频率,共10组。
表的第二部分为10组数据的平均数。
从结果中可以看出,随着样本含量的加大,样本的频率围绕0.5做平均幅度越来越小的波动,最后稳定于0.5。
binomial distribution: n=10 m=10OBS N M PHI MEANY PY1 10 10 0.5 5.7 0.572 10 10 0.5 4.5 0.453 10 10 0.5 5.1 0.514 10 10 0.5 6.1 0.615 10 10 0.5 6.1 0.616 10 10 0.5 4.3 0.437 10 10 0.5 5.6 0.568 10 10 0.5 4.7 0.479 10 10 0.5 5.2 0.5210 10 10 0.5 5.6 0.56binomial distribution: n=10 m=10Variable Mean ---------------------- MEANY 5.2900000 PY 0.5290000 ----------------------binomial distribution: n=100 m=10 OBS N M PHI MEANY PY1 100 10 0.5 49.71 0.49712 100 10 0.5 49.58 0.49583 100 10 0.5 50.37 0.50374 100 10 0.5 50.11 0.5011 5 100 10 0.5 49.70 0.49706 100 10 0.5 50.04 0.50047 100 10 0.5 49.20 0.49208 100 10 0.5 49.74 0.49749 100 10 0.5 49.37 0.4937 10 100 10 0.5 49.86 0.4986binomial distribution: n=100 m=10Variable Mean ---------------------- MEANY 49.7680000 PY 0.4976800 ----------------------binomial distribution: n=1000 m=10 OBS N M PHI MEANY PY1 1000 10 0.5 499.278 0.499282 1000 10 0.5 499.679 0.499683 1000 10 0.5 499.108 0.499114 1000 10 0.5 500.046 0.50005 5 1000 10 0.5 499.817 0.49982 6 1000 10 0.5 499.236 0.49924 7 1000 10 0.5 499.531 0.499538 1000 10 0.5 499.936 0.499949 1000 10 0.5 500.011 0.50001 10 1000 10 0.5 500.304 0.50030binomial distribution: n=1000 m=10Variable Mean ---------------------- MEANY 499.6946000 PY 0.4996946 ----------------------2.2 每个人的一对第1号染色体分别来自祖母和外祖母的概率是多少?一位男性的X 染色体来自外祖父的概率是多少?来自祖父的概率呢?答: (1)设A 为一对第1号染色体分别来自祖母和外祖母的事件,则()41211211=⨯⨯⨯=A P(2)设B 为男性的X 染色体来自外祖父的事件,则()21211=⨯=B P(3)设C 为男性的X 染色体来自祖父的事件,则 ()0=C P2.3 假如父母的基因型分别为I A i 和I B i 。
生物统计学3
2.样本相关系数
n
n
n
同样的有: ( yi y)2 ( yi yˆ)2 ( yˆi y)2
i 1
i 1
i 1
1
于是: N
n
( yi
i 1
y)2
1 N
n
( yi
i 1
yˆi )2
1 N
n
( yˆi
b)两个变量均为随机变量 如:林木胸径与树高之间的关系,对于同一胸径的的林木、胸高不尽相同,反过来对于同一 树高的林木,胸径也不尽相同,二者都是随机变量,且都存在相应的概率分布,这种两变量之 间的关系,称为相关关系(即不能确定谁依赖于谁)。
四.回归分析前提
线性、独立、正态、等方差
6.1 一元线性回
2 u
2
2 u
2 y
则称:
2 u
2 y
n
( yi y)(zi z)
i 1
cov(z, y)
n
n
(zi z ) ( yi y) 2
z y
i 1
i 1
为总体相关系数
说明:①| |≤1,| |1 线性关系紧密,| |0,线性关系不紧密。 ② >0,y 随z增大而增大,称正相关。
i 1
i 1
i 1
令:
n
u ( yˆi y)2 : 称回归平方和
i1
n
Q ( yi yˆi )2 : 称剩余平方和
i1
于是有 : Lyy u Q
得到如下检验方法:(原理省略)
生物统计学第三章 统计推断PPT幻灯片
2.3.2 两个总体方差不相等
例3-5,测定冬小麦“东方红3号”的蛋白 质含量(%)10次,得到x1 14.3 s1 ,1.621 ; 测定“农大193”的蛋白质含量(%)5次, 得到 x2 11.7,s2 0.135。试检验两个小麦品 种的蛋白质含量是否有显著差异。
2.3.2 两个总体方差不相等
例3-2
例3-2,某罐头厂生产肉类罐头,其自动装 罐机在正常工作状态下每罐净重服从正态 分布N(500,82)(单位:g)。某日随机 抽查了10听罐头,测得结果为:505、512、 497、493、508、512、502、495、490、 510。请问装罐机工作是否正常?
① Minitab
在工作表中输入数据:
2.2 单样本平均数的t检验
② 6SQ统计插件
点击确定,即可得到结果:
2.2 单样本平均数的t检验
③ DPS
在工作表中输入数据,然后选择数据(不 选择标题行),然后点击菜单试验统计→ 单样本平均数检验:
2.2 单样本平均数的t检验
③ DPS
弹出菜单后,在输入总体平均数下面填入 4.5:
2.2 单样本平均数的t检验
异显著。
2 样本平均数的假设检验
2.1 单样本平均数的u检验
当正态总体方差σ2已知,检验样本平均数
x 所属总体平均数 与已知总体平均数 0
是否有显著差异时,可以用u检验(也称Z 检验)。
Байду номын сангаас
2.1 单样本平均数的u检验
例3-1,某渔场按照常规方法所育鲢鱼苗一 月龄的平均体长为7.25cm,标准差为 1.58cm。为了提高鱼苗质量,现采用一新 方法进行育苗,一月龄时随机抽取100尾 进行测量,测得其平均体长为7.65cm,试 问新方法与常规方法有无显著差异?
生物统计学第三章概率分布
中位数 ➢ x轴为曲线向左、右延伸的渐进线
➢ 由两个参数决定: 平均数 和 标准差 • 决定曲线在x 轴上的位置 • 决定曲线的形状
正态分布
平均数的影响
标准差的影响
正态分布
标准正态分布(standard normal distribution)
对于给定的两尾概率求标准正态分布在x 轴上的分位点
/2
/2
对于给定的一尾概率求标准正态分布在x 轴上的分位点
/2
/2
(1)设标准正态分布的右尾(左尾)概率为
,求分位数u值
用2 查附表2,可得一尾概率为 时的分位数u值
= 20.05 = 0.1查表得u = 1.644854 。
(2)
, = 20.01 = 0.02查表得u = 2.326348
离散型随机变量的概率分布
普哇松分布的概率函数
普哇松分布的期望与方差
离散型随机变量的概率分布
例2:某遗传病的发病率为0.0003,某鸡场有10000头 肉鸡,问今年发生该遗传病4头及4头以上的概率有 多少?
λ=μ=np=10000×0.0003=3 x=4 P(x≥4)=1-P(x<4)=1-P(0)-P(1)-P(2)-P(3)
离散型随机变量的概率分布
二项分布的概率函数
二项分布的期望 二项分布的方差
离散型随机变量的概率分布
例1:一头母猪一窝产了10头仔猪,分别求其
中有2头公猪和6头公猪的概率。
产公猪头数的期望值: 产公猪头数的方差:
离散型随机变量的概率分布
普哇松分布(Poisson distribution)
生物统计学(第3版)杜荣骞 课后习题答案 第十二章 实验设计
第十二章实验设计12.1一项关于在干旱地区生长的一种杨树(Populus euphratica),在土壤中的水分逐渐丧失后,其基因表达、蛋白谱、生态生理学及生长性能等方面产生可逆性改变的研究。
作者在本实验的5个时间点上(H5为对照),用qPCR方法度量了该杨树叶子中的三个基因的转录丰度比[83],表中给出的为阵列数据:GenBank ID 基因H1H2H3H4H5AJ 780 423 半胱氨酸蛋白酶0.7 1.0 2.3 13.1 1.9AJ 780 698 环核苷酸和钙调节的离子通道 1.5 1.2 3.0 4.3 1.5AJ 777 362 核糖体蛋白 1.1 1.1 1.0 0.9 1.2借用上述数据,以三个基因作为三个区组,计算在5个时间点上转录丰度比差异是否显著?答:随机化完全区组实验设计方差分析的程序,类似于两因素交叉分组实验设计。
以下是本题的程序和结果:options linesize=76 nodate;data poplar;do block=1 to 3;do time=1 to 5;input trans @@;output;end;end;cards;0.7 1.0 2.3 13.1 1.91.5 1.2 3.0 4.3 1.51.1 1.1 1.0 0.9 1.2;proc anova;class block time;model trans=block time;run;The SAS SystemThe ANOVA ProcedureClass Level InformationClass Levels Valuesblock 3 1 2 3time 5 1 2 3 4 5Number of observations 15The SAS SystemThe ANOVA ProcedureDependent Variable: transSum ofSource DF Squares Mean Square F Value Pr > F Model 6 72.5560000 12.0926667 1.53 0.2809Error 8 63.1013333 7.8876667Corrected Total 14 135.6573333R-Square Coeff Var Root MSE trans Mean0.534848 117.6745 2.808499 2.386667Source DF Anova SS Mean Square F Value Pr > F block 2 18.82533333 9.41266667 1.19 0.3519 time 4 53.73066667 13.43266667 1.70 0.2416从上表中的结果可以看出,如果按随机化完全区组设计进行分析,不同时间点之间的差异不显著。
生物统计学3
1 f (x) = e σ 2π
( x− µ )2 − 2σ 2
, −∞ < x<∞
记作 X ~ N ( µ , σ 2 )
设X~ N ( µ , σ ) ,
2
X的分布函数是 的分布函数是
( t − µ )2 − 2σ 2
1 F (x) = σ 2π
∫
x
−∞
e
dt , − ∞ < x < ∞
x−µ t= s/ n
服从自由度为n-1的t分布
F t ( d f ) = P ( t < t1 ) =
∫− ∞
t1
f (t ) d t
F t (df)
1-F t (df)
例如:当df=15时,查t分布表得两尾概率等于 0.05的临界t值为 =2.131,其意义是: P(-∞<t<-2.131)= P(2.131<t<+∞)=
σ x2 − x = σ x21 + σ x22
1 2
(2) 样本平均数差数的方差等于两样本平均数
(总体方差除以各样本容量之和)
σ 12 σ 22 = + n1 n 2
(3) 从两个正态总体中抽出的样本平均数差数的
分布是正态分布, 记作
N ( µ1 − µ 2 ,σ
2 x1 − x 2
)
三、t分布 分布
µx =
σ
2 x
∑
Nn
f x / N n = 48 . 0 / 16 = 3 = µ
∑ =
f ( x − µ x )2
∑ =
fx 2 −ቤተ መጻሕፍቲ ባይዱ( ∑ fx ) 2 / N n Nn
生物统计学课件-3正态分布和抽样分布
近似性
当样本量足够大时,样本 统计量近似服从正态分布。
抽样分布在生物学中的应用
01
实验设计
在生物学实验中,常常需要从总体中随机抽取一定数量的样本进行实验,
以评估实验结果的可重复性和可靠性。抽样分布理论为实验设计提供了
理论基础。
02
数据处理和分析
在生物学数据分析和统计推断中,常常需要利用样本统计量来估计总体
生物统计学课件-3正态分布 和抽样分布
目录
• 正态分布 • 抽样分布 • 正态分布与抽样分布的关系 • 实例分析
01
正态分布
正态分布的定义
正态分布是一种连续概率分布,其概率密度函数呈钟形,对称轴为均值所在直线。
在正态分布中,数据点在均值附近最为集中,向两侧逐渐减少,形成钟形曲线。
正态分布是自然界和人类社会中最为常见的分布形态之一,许多随机变量都服从或 近似服从正态分布。
02
抽样分布
抽样分布的定义
01
02
03
抽样分布
描述样本统计量(如样本 均值、样本方差等)的概 率分布。
样本统计量
从总体中随机抽取的样本 所计算出的各种统计指标, 如样本均值、样本方差等。
总体
研究对象全体个体的集合。
抽样分布的性质
独立性
样本统计量之间相互独立。
随机性
样本统计量的取值具有随 机性。
中心极限定理
在大量独立随机抽样的前提下,不论总体分布如何,样本均值的分布趋近于正态分布。
样本均值的方差与总体方差的关系
样本均值的方差随着样本量的增加而趋近于总体方差的1/n,其中n为样本量。
正态分布与抽样分布的区别
定义不同
正态分布是对总体特征的描述,而抽样分布是对样本统计 量的描述。
生物统计学第三版课程设计
生物统计学第三版课程设计简介生物统计学是对生物学领域中大量数据的收集、整理、分析和解释的科学。
本课程设计旨在帮助学生了解生物统计学的基本概念、技术和应用,并掌握在生物学研究中常用的生物统计学方法和工具。
教学目标通过本课程的学习,学生应该能够:•理解基本的生物统计学概念,例如总体、样本、变量、测量和假设检验等。
•掌握基本的生物统计学方法,例如描述性统计分析、推断统计分析、方差分析和回归分析等。
•学习使用生物统计学软件和工具来分析和解释生物学数据。
•学会编写生物统计学实验报告和写作论文。
教学大纲1.生物统计学基础知识–生物统计学的定义和历史–生物统计学的应用领域和目标–生物统计学中的基本概念:总体、样本、变量、测量、假设检验等。
2.描述性统计分析–生物学数据的测量尺度–中心趋势和离散程度的度量–正态分布的性质和应用–相关系数和回归分析3.推断统计分析–变异性和抽样误差的概念和度量–假设检验的基本原理和应用–方差分析和多重比较方法4.生物统计学软件和工具–常用的生物统计学软件和工具–如何使用生物统计学软件和工具进行数据分析和解释教学方法本课程采用讲授、讨论和实践相结合的教学方法。
具体来说,该课程将包括以下内容:1.初步讲解生物统计学的基本概念及其应用;2.通过案例和实验操作的方式锻炼学生分析实验数据的能力;3.学生的练习内容包括:计算统计学基本统计量、绘制数据直方图或箱线图、执行t检验或方差分析、执行简单线性回归或多重回归分析。
学生还将撰写和提交一篇生物统计学报告样本,以展现其独立思考能力和实验数据分析与解读能力;4.提供在线工具和例程,以帮助学生更快速地完成实验和数据分析。
考核方法本课程采用综合考核的方式,包括课堂参与度、作业完成度和历次考试成绩等。
其中:•课堂参与度占总分的10%。
即学生在课堂上的贡献、互动和表现度等;•作业完成度占总分的30%。
即满勤并保证作业质量;•历次考试成绩占总分的60%。
生物统计学答案第三章
第三章 几种常见的概率分布律3.1 有4对相互独立的等位基因自由组合,问有3个显性基因和5个隐性基因的组合有多少种?每种的概率是多少?这一类型总的概率是多少?答:代入二项分布概率函数,这里φ=1/2。
()75218.02565621562121!5!3!83835==⎪⎭⎫⎝⎛=⎪⎭⎫ ⎝⎛⎪⎭⎫⎝⎛=p结论:共有56种,每种的概率为0.003 906 25(1/256 ),这一类型总的概率为 0.21875。
3.2 5对相互独立的等位基因间自由组合,表型共有多少种?它们的比如何? 答:(1)543223455414143541431041431041435434143⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛=⎪⎭⎫⎝⎛+表型共有1+5+10+10+5+1 = 32种。
(2)()()()()()()6976000.0024114165014.00241354143589087.002419104143107263.0024127104143105395.00241815414353237.0024124343554322345541322314==⎪⎭⎫⎝⎛==⨯=⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛===⎪⎭⎫⎝⎛=隐隐显隐显隐显隐显显P P P P P P 它们的比为:243∶81(×5)∶27(×10)∶9(×10)∶3(×5)∶1 。
3.3 在辐射育种实验中,已知经过处理的单株至少发生一个有利突变的概率是φ,群体中至少出现一株有利突变单株的概率为P a ,问为了至少得到一株有利突变的单株,群体n 应多大?答: 已知φ为单株至少发生一个有利突变的概率,则1―φ为单株不发生一个有利突变的概率为:()()()()()φφφ--=-=--=-1lg 1lg 1lg 1lg 11a a an P n P n P3.4 根据以往的经验,用一般的方法治疗某疾病,其死亡率为40%,治愈率为60%。
生物统计学3
(1)假设
H0:μ1= μ2,即认为两种方法所得天数相同。
HA: μ1≠ μ2 选取显著水平α=0.05
(2)水平 (3)检验
x
1 x2
1 1 0.598 n1 n2
u
x1 x2
x
1 x2
69 .5 70 .3 1.338 0.598
u u u u
或
t t t t
接受H0否定HA
或
否定H0接受HA
成组数据平均数的比较
试 验 设 计
成对数据平均数的比较
成组数据平均数的比较
如果两个样本的各个变量是从各自总体中随机
抽取的,两个样本之间的变量没有任何关联,即两
个抽样样本彼此独立,则不论两样本的容量是否相
同,所得数据皆为成组数据。两组数据以组平均数 作为相互比较的标准,来检验其差异的显著性。 根据两样本所属的总体方差是否已知和样本大 小不同而采用不同的检验方法。
2 e 2 1 2 2
sx
1 x2
2 2 se se 1.608 n1 n2
x1 x2 t 4.229 sx x
1 2
x1 x2 t 4.229 sx x
1 2
df=n-1=9
t 0.05(9) =2.262
(4)推断
P<0.05
在0.05显著水平上,否定H0,接受HA; 认为两品种千粒重存在明显差异,即品种甲 的千粒重显著高于品种乙。
u
x1 x2
x x
1
2
当σ
1
2
和σ 22未知,两样本都为大样本时
李春喜《生物统计学》第三版 课后作业答案
《生物统计学》第三版课后作业答案(李春喜、姜丽娜、邵云、王文林编著)第一章概论(P7)习题1、1 什么就是生物统计学?生物统计学得主要内容与作用就是什么?答:(1)生物统计学(biostatistics)就是用数理统计得原理与方法来分析与解释生物界各种现象与实验调查资料,就是研究生命过程中以样本来推断总体得一门学科。
(2)生物统计学主要包括实验设计与统计推断两大部分得内容。
其基本作用表现在以下四个方面:①提供整理与描述数据资料得科学方法;②确定某些性状与特性得数量特征;③判断实验结果得可靠性;④提供由样本推断总体得方法;⑤提供实验设计得一些重要原则。
习题1、2 解释以下概念:总体、个体、样本、样本容量、变量、参数、统计数、效应、互作、随机误差、系统误差、准确性、精确性。
答:(1)总体(populatian)就是具有相同性质得个体所组成得集合,就是研究对象得全体。
(2)个体(individual)就是组成总体得基本单元。
(3)样本(sample)就是从总体中抽出得若干个个体所构成得集合。
(4)样本容量(sample size)就是指样本个体得数目。
(5)变量(variable)就是相同性质得事物间表现差异性得某种特征。
(6)参数(parameter)就是描述总体特征得数量。
(7)统计数(statistic)就是由样本计算所得得数值,就是描述样本特征得数量。
(8)效应(effection)试验因素相对独立得作用称为该因素得主效应,简称效应。
(9)互作(interaction)就是指两个或两个以上处理因素间得相互作用产生得效应。
(10)实验误差(experimental error)就是指实验中不可控因素所引起得观测值偏离真值得差异,可以分为随机误差与系统误差。
(11)随机误差(random)也称抽样误差或偶然误差,它就是有实验中许多无法控制得偶然因素所造成得实验结果与真实结果之间产生得差异,就是不可避免得。
生物统计学3 代表数与变异数
样本标准差S相应总体参数叫总体标准差σ,对于有
∑ 限总体, σ = (x— μ)2 /N
二、标准差的计算
(一)直接法
s=
(二)加权法
∑x2 — (∑x)2 / n
n —1
【公式推导】
∑ ∑ s =
fi(xi — x)2 =
k
(
fi
)(xi — x)2
∑fi —1
标准差和变异系数;
样本分布对称程度——偏斜度。
教学重点: 1. 样本特征数的意义、作用与计算方法 2. 对数量资料进行基本统计分析的方法 教学要求:
掌握数量资料样本特征数的意义、作用与 计算方法
第一节 平均数 Mean
平均数的意义: 平均数是资料的代表数, 用来描述资料的集中性,即指出资料中数据 集中较多的中心位置,常用于同类性质资料 间的相互比较。
算术平均数(Arithmetic mean)
一、算术平均数的定义
资料中各观察值的总和除以观察值的个数所得 的商,称为算术平均数。在统计学中,简称为平
均数或均数。用符号 x表示。
二、计算方法
1、直接法 适用范围:对样本含量较小,未分组的资料适用。
直接法计算公式
∑n
x = x1 +x2 ++xn
=
i n —1
∑ ∑ ∑ =
fixi2 — ( fixi)2 / fi
∑fi —1
金枪鱼体重
方差与全距
顺序号 1 2 3 4 5 6 7 8 9
Mode
样本1 8.9 9.4 9.6 9.7 9.9 10.4 10.9 11.0 11.2 9.9
样本2 2.9 3.1 3.8 5.1 9.9 10.0 17.0 18.0 21.2 9.9
生物统计学(第三版)
概论名词:生物统计:将概率论和数理统计的原理应用到生物学中以分析和解释其数量资料的科学试验设计:试验工作未进行之前应用生物统计原理,来制定合理的试验方案,包括选择动物,分组和对比以及相应的资料搜集整理和统计分析的方法。
总体与样本⏹数据具有不齐性。
⏹根据研究目的确定的研究对象的全体称为总体(population);⏹含有有限个个体的总体称为有限总体;⏹包含有无限多个个体的总体叫无限总体;⏹总体中的一个研究单位称为个体(individual);⏹从总体中随机抽出一部分具有代表性的个体称为样本(sample);⏹样本中所包含的个体数目叫样本容量或大小,常记为n。
⏹通常把n≤30的样本叫小样本,n >30的样本叫大样本。
随机抽取(random sampling) 的样本是指总体中的每一个个体都有同等的机会被抽取组成样本。
变数与变异数列、变量:⏹变数:研究中对样本个体的观察值。
⏹变量:相同性质的事物间表现差异性的某种特征。
如:身高、体重。
⏹变异数列:将变数按从小到大的顺序排列的一组数列。
参数与统计量⏹由总体计算的特征数叫参数(parameter);⏹由样本计算的特征数叫统计量(staistic)。
准确性与精确性⏹准确性(accuracy)也叫准确度,指观测值与其真值接近的程度。
若x与μ相差的绝对值|x-μ|小,则观测值x的准确性高;反之则低。
⏹精确性(precision)也叫精确度,指重复观测值彼此接近的程度。
若观测值彼此接近,即任意二个观测值xi、xj相差的绝对值|xi -xj |小,则观测值精确性高;反之则低。
⏹调查或试验的准确性、精确性合称为正确性。
由于真值μ常常不知道,所以准确性不易度量,但利用统计方法可度量精确性。
随机误差与系统误差随机误差也叫抽样误差(sampling error) ,是由于许多无法控制的内在和外在的偶然因素所造成。
带有偶然性质,在试验中,即使十分小心也难以消除。
随机误差影响试验的精确性。
生物统计学第三章
250
249 251 246 250
252
251 249 247 252
254
246 245 250 255
250
253 248 247 252
254
245
250
251
251
4
資料表格化法
Tabulation of Data
50粒四環素按重量大小排列後次數分配表(未分組)
組值 244 245 246 247 248 249 250 251 252 253 254 255 256 合計 次數登記 / // // /// //// ///// //////// /////// ///// /// /// / // 次數 1 2 2 3 4 6 9 8 6 3 3 1 2 50 累計次數 1 3 5 8 12 18 27 35 41 44 47 48 50 相對次數 2% 4% 4% 6% 8% 12% 18% 16% 12% 6% 6% 2% 4% 100% 累計相對次數 2% 6% 10% 16% 24% 36% 54% 70% 82% 88% 94% 96% 100%
9
長條圖
bar chart
25 20 15 10 5 0 < 250 = 250 > 250
10
23 18
9
圓形圖
pie chart
= 250, 9, (18%)
< 250, 18, (36%)
> 250, 23, (46%)
11
製圖法
Graph
連續變數(continuous variable)的統計圖:
莖葉圖(stem-leaf plot):為Tukey(1960)提出 的,將資料由小到大依序排列,將每一觀察 值分成兩部分,一部分屬於「莖」(stem), 其餘的屬於「葉」(leaf),可以洞悉資料的集 中與分散情形。 直方圖(histogram):與長條圖非常類似,適 用於連續變數並且分組的資料,作法如同長 條圖,橫軸代表各組的組值,縱軸代表各組 的次數。
生物统计学课件--3正态分布和抽样分布备课讲稿
正态分布密度函数在直角坐标上的图象称正态曲线
x
决定正态曲线最高点横坐标的值,决定正态曲线最 高点纵坐标的值和曲线的开张程度, 越小,曲线越 陡峭,数据越整齐。
N( ,2 ) N(156,4.82),N(15,4)
正态曲线有一组而不是一条
2、正态分布的累积函数
f (x)
1
x2
e2
2
三、标准正态分布
称=0,=1时的正态分布为标准正态分布,记为N(0,1)。
1、标准正态分布的密度函数和累积函数
密度函数:
(u)
1
u 2
e2
2
其中:-∞ u∞
累积函数:
(u)P(Uu) 1
u u2
e 2du
2
标准正态分布的分布曲线
u 标准正态分布的累积分布曲线
u
服从正态分布,且有:
x ,
2 x
2
n
即: X N(,2 )
n
将平均数标准化,则:u
x
, u服从N(0,1)
n
例:假如某总体由三个数字2、4、6组成,现在从该总体中做放回式抽样,
样本容量
样本
样本数
n=1
2
4
6
31
平均数
2
4
6
n=2
2 2 ,2 4 ,4 2,2 6,6 2, 4 4, 4 6,6 4,6 6
310=59049
n=20
5904959049
2、标准差未知时的样本平均数的分布----t 分布 若总体的方差是未知的,即标准差 未知,可以用样 本的标准差 s代替总体的标准差 ,
则变量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 方差分析引言在第四、五章中,学习了单样本与总体或两样本间平均数的显著性检验。
然而,在生物学研究中,常收集到多样本的数据,对这些多样本间平均数差异的统计分析方法即为方差分析(多样本分析)。
方差分析不仅能够分析单因素多水平(处理)效应值间平均数的差异,还能同时分析两个因素、多个因素多水平间平均数的差异,以及各因素间的交互作用。
方差分析是对多因素总体作用的检验,各因素内水平间一对一的比较方法是多重比较。
在方差分析检验差异显著的前提下,进行多重比较的分析。
本章仅对单因素和两因素方差分析,以及多重比较进行介绍。
学习目标1.辨析概念:固定因素和随机因素;固定模型、随机模型和混合模型。
2.掌握适于进行方差分析的不同类型生命科学数据。
3.理解不同方差分析模型计算过程的异同。
4.在方差分析中,固定因素和随机因素在对统计结果进行解释时的不同。
5.掌握方差分析的基本步骤。
6.了解多重比较的前提条件,掌握常用比较方法。
第六章 方差分析方差分析又叫变量分析,它是对多个样本平均数差异显著性检验的一种引伸。
在对多个样本进行比较时,如果用t 检验就会产生较大的误差,提高了犯α错误的概率。
例如我们用t 检验一对一比较的方法检验4个样本平均数之间的差异显著性,就需要做624=C 次检验,每次无效假设的概率都是l 一α=0.95,而且这些检验都是独立的,那么6次都接受的概率是(0.95)6=0.735,犯α错误的概率为1—0.735=0.265,即6次犯错误可能性的累积,因此所犯错误的概率大大增加,使用方差分析就可以避免这一问题。
方差分析是对各因素总体处理效应的显著性检验。
第一节 方差分析的基本原理方差亦称均方,是标准差的平方,是表示变异的量。
在一个多处理试验中,可以得到多组不同的观测值。
各组观测值不同的原因可以分为两大类,一类是因素处理的不同引起的,叫处理效应或条件变异,另一类是试验过程中偶然性因素的干扰和测量误差所致,称为误差或试验误差。
方差分析的基本思想是将测量数据的总变异按照变异原因不同分解为处理效应和试验误差,并作出其数量估计。
通过方差比较以确定两种原因在总变异中所占的重要程度,如果处理效应和试验误差相差不大,说明试验处理对指标影响不大,如二者相差较大,处理效应比试验误差大得多,说明试验处理影响是很大的,不可忽视。
方差分析的用途非常广泛,可用于多个样本平均数的比较、分析多个因素间的交互作用、回归方程的假设检验、方差的同质性检验等。
本章主要介绍多个样本平均数的比较,并对两个因素间的交互作用进行分析。
一、数学模型假定有k 组观测数据,每组有n 个观测值,则用线性可加模型来描述各观测值,有:ij i ij x ετμ++=式中,ij x 是在第i 次处理下的第j 次观测值,μ为总体平均数,i τ为处理效应,ij ε是试验误差,要求ij ε是相互独立的,且服从正态分布),0(2σN 。
对于由样本估计的线性模型为:ij i ij e t x x ++= 式中,x 为样本平均数,i t 为样本的处理效应,ij e 为试验误差。
依据对i τ的不同假定,即试验因素的性质和作用不同,将方差分析数学模型分为固定模型和随机模型。
(一)固定模型所谓固定模型是指各个处理的效应值i τ是固定的,各个处理的平均效应μμτ-=i i 是一个常量,且∑=0iτ。
在试验中,我们只能讨论参加试验的个体而不是随机选择的样本,就是说除去随机误差之后每个处理所产生的效应是固定的。
实际上试验因素的各水平常常是根据试验目的,事先主观选定的而不是随机选定的。
例如几种不同温度下小麦的发芽情况,不同月龄小白鼠抗药性的测定等。
在这些试验中处理的水平是特意选择的,得到的结论只适合于方差分析中所考虑的那几个水平,上述的温度、月龄等因素称为固定因素,固定因素是指因素的水平可以严格地人为控制,水平固定后它的效应值也是固定的,试验重复时可以得到相同的结果。
对单个或多个固定因素作用的方差分析应采用固定模型,在生产实践和科学实验中有很多这样的情况。
(二)随机模型随机模型是指各处理的效应值i τ不是固定的数值,而是由随机因素所引起的效应。
这里i τ是一个随机变量,是从期望均值为0,方差为2σ的正态总体中得到的随机变量。
得出的结论可以推广到多个随机因素的所有水平上。
试验中随机因素的各水平是从总体全部水平中随机抽取的样本,水平不能严格人为控制,在水平确定之后其效应值并不固定,重复试验时也很难得出相同的结果。
这类试验通过样本对所属总体作出推断时应采用随机模型,例如在研究动物体重对生长率,或土壤对植物生长的影响时,体重、土壤条件是无法人为控制的,均要用随机模型来处理。
(三)混合模型在多因素试验中,若既有固定因素,又有随机因素存在时,方差分析则采用混合模型进行统计计算。
由于固定模型、随机模型和混合模型在设计思想和统计推断上有明显不同,因此进行方差分析时的公式推导也有所不同。
所推导的平方和及自由度的分解公式没有区别,但在进行统计推断时假设检验构成的统计数是不同的。
另外,模型分析的侧重点也不完全相同,方差期望值也不一样。
固定模型主要侧重于效应值的估计和比较,而随机模型则侧重效应方差的估计和检验。
因此在进行分析及试验设计之前就要明确关于模型的基本假设。
对于单因素方差分析来说,固定模型和随机模型统计方法完全相同,只是在根据统计数作推论时有所不同。
二、统计假设的显著性检验——F 检验设试验A 具有k 个处理样本,每个样本有n 个观测值,则试验A 共有nk 个观测值,其样本资料可用表7-1来表示。
从第二章可知,方差是离均差平方和除以自由度的商,对于总体:Nx ∑-=22)(μσ,对于样本:1)(22--=∑n x x s ;因此,要把一个试验的总变异依据变异来源分为相应的变异,首先要将总平方和和总自由度分解为各个变异来源的相应部分。
方差分析的步骤:同t 检验相同,方差分析首先也要作假设,无效假设把各个处理的变量假设来自同一总体,即处理间方差不存在处理效应,只有误差的影响,因而处理间的样本方差2A σ与误差的样本方差2e σ相等,即220:e A H σσ=,22:e AA H σσ≠。
还要确定显著水平α。
(一)平方和的计算从方差分析的基本指导思想出发,引起观测值出现变异的原因有处理效应和试验误差。
处理间平均数的差异由处理的效应所致;同一处理内的变异则由随机误差引起,根据线性可加数学模型,则有:总平方和 ∑∑∑-=-=knT kn T x x x SS 11222)(令矫正数knT C 2=, 则C x SS T -=∑2处理间平方和 ∑∑-=-=kk i i A C T n x x n SS 11221)(处理内平方和 A T i k ni e SS SS T nx x x SS -=-=-=∑∑∑∑221121)((二)自由度的计算总自由度:1-=nk df T 处理间自由度:1-=k df A处理内自由度:)1()1()1(-=---=-=n k k nk df df df A T e (三)方差(均方)处理间:AAA df SS MS = 处理内:eee df SS MS =(四)显著性检验——F 检验上面的处理(水平)内方差可以作为误差方差的估计量,而水平间方差则作为水平差异的估计量,为比较不同水平间效应值有无差别,要应用F 分布进行F 检验。
从第四章已知,从一个总体随机抽取两个样本,其样本方差1MS 和2MS 的比值为F ,即:21MS MS F =其F 分布曲线随1df 和2df 的变化而变化。
由于F 值表是一尾表,一般将大方差作分子,小方差作分母,使F 值大于1,因此,表上的1df 代表大方差自由度,2df 代表小方差自由度。
进行不同处理差异显著性的F 检验时,一般是把处理间方差作为分子,称为大方差,误差方差作分母,称为小方差。
无效假设是否成立,决定于计算的F 值在F 分布中出现的概率。
F 值为:eAMS MS F =然后根据确定的显著水平α从F 值表中查出在A df 和e df 下的αF 值。
如果所计算的αF F <,α>P ,则接受0H ,说明处理间差异不显著,若αF F ≥,α≤P ,则接受A H ;应否定0H 。
说明处理间差异是显著的(05.0≤P )或差异达到极显著水平(01.0≤P ),并分别在计算的F 值的右上角标上一个或两个“*”号;如果处理间方差小于误差方差,则可不必进行检验,即可作出接受0H 结论。
第二节 单因素方差分析在试验中所考虑的因素只有一个时,称为单因素实验。
单因素方差分析是方差分析中最简单的一种。
单因素方差分析依组内观测数目不同而分为两种情况。
一、组内观测次数相等的方差分析这是在k 组处理中,每一处理皆含有n 个观测值,其方差分析的基本方法前面已做介绍,这里以一实例,说明单因素方差分析的计算过程。
例6.1 在实验室内有多种方法可以测定生物样品中的磷含量,为研究各种测定方法之间是否存在差异,随机选择四种方法,测定同一干草样品的磷含量,结果如表7.2。
试分析不同方法之间差异是否显著。
(一)假设:0H :各种测定方法之间没有显著差异;A H :各种测定方法之间有显著差异。
(二)显著水平:05.0=α (三)统计量计算:矫正数 252055471022=⨯==kn T C 总平方和 2925205)353634(2222=-+++=-=∑ C xSS T处理间平方和 925205)176137(511222=-++⨯=-=∑ C T n SS iA 处理内平方和 20929=-=-=A T e SS SS SS 总自由度:191451=-⨯=-=nk df T 处理间自由度:3141=-=-=k df A处理内自由度:161541(=-⨯=-=-=)()n k df df df A T e 处理间均方:339===A A A df SS MS 处理内均方:25.11620===e e e df SS MS F 值为:40.225.13===e A MS MS F 查附表? 24.305.0163=;,F ;05.0;05.0><P F F (四)推断:接受0H ,拒绝A H 。
(五)结论:所有测定方法间没有显著差异。
采用统计软件来进行方差分析:1. 打开程序:开始—程序—STATISTICA—STATISTICA,出现模块转换对话框,选其中的ANAVA/MANOVA,击Switch To按钮。
2. 建如下图的数据库,在Analysis中选Resume analysis,在对话框中点Variables,选取自变量(处理因素)和因变量(效应值),由于方法是随机选取的,所以,点Random factors,将方法项定为随机因子,点OK。