生物统计学第十章
生物统计学各章题目(含答案)
生物统计学各章题目一填空1.变量按其性质可以分为(连续)变量和(非连续)变量。
2.样本统计数是总体(参数)的估计值。
3.生物统计学是研究生命过程中以样本来推断(总体)的一门学科。
4.生物统计学的基本内容包括(试验设计)和(统计分析)两大部分。
5.生物统计学的发展过程经历了(古典记录统计学)、(近代描述统计学)和(现代推断统计学)3个阶段。
6.生物学研究中,一般将样本容量(n ≥30)称为大样本。
7.试验误差可以分为(随机误差)和(系统误差)两类。
判断1.对于有限总体不必用统计推断方法。
(×)2.资料的精确性高,其准确性也一定高。
(×)3.在试验设计中,随机误差只能减小,而不能完全消除。
(∨)4.统计学上的试验误差,通常指随机误差。
(∨)二填空1.资料按生物的性状特征可分为(数量性状资料)变量和(质量性状资料)变量。
2. 直方图适合于表示(连续变量)资料的次数分布。
3.变量的分布具有两个明显基本特征,即(集中性)和(离散性)。
4.反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(变异数)。
5.样本标准差的计算公式s=( )。
判断题1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。
(×)2. 条形图和多边形图均适合于表示计数资料的次数分布。
(×)3. 离均差平方和为最小。
(∨)4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。
(∨)5. 变异系数是样本变量的绝对变异量。
(×)单项选择1. 下列变量中属于非连续性变量的是( C ).A.身高 B.体重 C.血型 D.血压 2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成( A )图来表示.A. 条形B.直方C.多边形D.折线 3. 关于平均数,下列说法正确的是( B ).122--∑∑n n x x )(A.正态分布的算术平均数和几何平均数相等. B.正态分布的算术平均数和中位数相等. C.正态分布的中位数和几何平均数相等. D.正态分布的算术平均数、中位数、几何平均数均相等。
高级生物统计学学习心得
高级生物统计学课程学习总结摘要:经过一学期对生物统计学的学习,我对生物统计学有了进一步的理解。
本文主要讲述了本学期学习生物统计之后,我对生物统计学的收获和体会。
关键词:生物统计学收获体会学习了黄老师讲授的《高级生物统计学》这门课程,我觉得自己又收获了不少。
经过一学期对生物统计学的学习,我对生物统计学有了进一步的理解。
虽说我的专业是课程与教学论,对生物统计学知识的运用较少,但我深信,于我自身,它将起到不可估量的作用。
下面主要谈谈我对这门课程的理解与感悟。
1.对生物统计学的认识1.1生物统计学的概念生物统计学是一门以概率理论为基础的,实际应用性非常强的综合性的学科。
它运用概率论与数理统计的原理和方法处理生物学中的各种数量资料,从而透过现象揭示生物学本质的一门科学,是科学研究与实践应用的基础工具。
它是研究如何搜集、整理、分析反映整体信息的数字资料,并以此为依据,推断总体特征,然后用生物学的语言加以描述的工具。
从生物统计学的概念我们不难看出,生物统计是要我们根据部分所反映出来的性质,推断总体的性质,在推断的过程中,不可避免的会有一定的出错概率,我们只是选择不同的分析方法将这一概率降到最低。
它不仅为我们提供了设计试验,获取资料的方法,还提供了整理资料,最后得出科学结论的方法。
因此,学好生物统计对我们以后设计试验,分析试验数据,得出科学而精简的结论有很大帮助。
1.2生物统计学的重要性统计学在生物学中的应用已有长远的历史,许多统计的理论与方法也是自生物上的应用发展而来,而且生物统计是一个极重要的跨生命科学各研究领域的平台。
随着基因组学、蛋白质组学与生物信息学的蓬勃发展,使得生物统计在这些突破性生物科技领域上扮演着不可或缺的角色。
,生物统计学在这些领域被广泛应用,并显得日益重要。
生物统计学是生物领域学生应具备的基本知识和素质,与生命活动有关的各种现象中普遍存在着随机现象,大到整个生态系统,小到核苷酸序列,均受到许多随机因素的影响,表现为各种各样的随机现象,而生物统计学正是从数量方面揭示大量随机现象中存在的必然规律的学科。
生物统计学自学手册
《生物统计学》自学手册第一章概论目的要求:了解生物统计学的进展概况,把握生物统计学内容与作用及其大体术语—整体、样本、参数、统计数、机误与错误等。
知识点编码1.统计学概念2.统计学作业3.统计学进展史4.样本与整体5.变量与常数6.参数与统计数7.效应与互作8.机误与错误9.准确性与精准性一、单项选择(每题四个备选答案中仅有一个是正确的,每题1分)1-4-1-41. 从样本中计算所得的数值称为……………( )(1)整体参数(2)样本统计数(3)估量值(4)样本参数1-4-2-42. 某高校全部学生的身高能够以为是…( )(1)无穷整体(2)有限整体(3)常数(4)非持续变量1-4-2-53. 某抗生素的抑菌实验中,计数菌落中细菌的个数属于…( )⑴持续变量⑵性质变量⑶无穷变量⑷定性变量1-4-1-44. 小样本是指样本容量在…( )⑴30个以下者⑵20个以下者⑶8个以下者⑷50个以下者1-4-1-45. 大样本是指样本容量在………( )⑴30个以上者⑵20个以上者⑶10个以上者⑷50个以上者1-4-3-56. 测得某稻田的株高数据属于一组…( )⑴常量⑵非持续变量⑶离散变量⑷持续变量1-4-3-47. 某一地域棉田棉铃虫的头数能够以为是…( )⑴有限整体⑵无穷整体⑶常量⑷个体1-4-1-38. 生物统计学的开创人是( )⑴⑵Gosset ⑶Neyman ⑷Galton1-4-1-99. 准确性是指…()(1)准确性确实是精准性(2)测定值的变异程度(3)统计数接近真值的程度(4)减少错误1-4-2-910. 关于精准性的表述正确的选项是…( )(1)精准性确实是准确性(2)各测定值的变异程度(3)统计数接近真值的程度(4)精准性确实是减少机误1-4-2-811. 关于机误表述正确的选项是……………( )(1)机误等于错误(2)人为引发的过失(3)随机因素引发的不同(4)能够幸免1-4-2-612. 关于参数的表述错误的选项是……( )(1)确实是参量(2)是对整体特点的气宇(3)样本计算值(4)能够用统计数进行估量1-4-2-613. 关于统计数的说法正确的选项是………………( )(1)确实是参量(2)是对整体特点的气宇(3)样本估量值(4)能够用来估量参数1-4-2-514. 变量按其性质可划分为………()(1)持续变量和非持续变量(2)离散变量和非持续变量(3)非持续变量和定量变量(4)持续变量和定性变量1-4-3-515. 以下哪个不可能是常数…………………()(1)平均数(2)标准差(3)变异系数(4)观测值二、判定题(每题1分)。
生物统计学0210精品PPT课件
对某种具体事物或现象的观察结果,以及来自生 物学试验及调查的原始数据,都称为资料(data)。
在未整理之前,这些资料一般是分散的、零星的 和孤立的,是一堆无序的数字和符号。
统计分析过程就是对这些资料进行整理、分类、 计算,再以图、表、特征值(统计量)、方程等反映结果。
目录
0. 本章提要 1. 试验资料的搜集与整理
1.1 试验资料的搜集 (调查; 试验) 1.2 试验资料的整理 (检查与核对; 类型; 表; 图) 2. 试验资料统计量的计算 2.1 平均数 (算术平均数; 中位数; 众数; 几何平均数) 2.2 变异数 (极差; 方差; 标准差; 变异系数)
第二章 试验资料的整理与统计量的计算
试验和调查资料一般具有两类性状:数量性状 (quantitative character)和质量性状(qualitative character)。数量性状是定量的,而质量性状则是定性 的。所以资料也可以如此分为二类。
1.2.2.1 数量性状资料
数量性状资料(data of quantitatiБайду номын сангаасe character),一般是 由计数和测量得到的。由计数法得到的数据称为计数 资料(enumeration data),也称为非连续变量资料(data of discontinuous variable),以正整数出现。例如,鱼 尾数、玉米果穗籽粒行数、种群内个体数、白血细胞 数等,只可能是 1,2,…,n。
本章提要:试验资料的搜集与整理,是数据资料处理 的首要环节。
搜集资料时常用的方法为调查和试验;资料的整 理,一般通过对原始资料进行检查、核对、制作频数 分布表和频数分布图来完成。
第十章_logit回归
第十章 logitic 回归本章导读:Logitic 回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。
10.1 logit 模型和原理Logistic 回归分析是对因变量为定性变量的回归分析。
它是一种非线性模型。
其基本特点是:因变量必须是二分类变量,若令因变量为y ,则常用y=1表示“yes ”,y=0表示“no ”。
[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。
自变量可以为虚拟变量也可以为连续变量。
从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:⎩⎨⎧===事情未发生事情发生01y 我们可以采用多种方法对取值为0、1的因变量进行分析。
通常以P 表示事件发生的概率(事件未发生的概率为1-P ),并把P 看作自变量x 的线性函数。
由于y 是0-1型Bernoulli 分布,因此有如下分布:P=P (y=1|x ):自变量为x 时y=1的概率,即发放现金股利公司的概率1-P=P (y=0|x ):自变量为x 时y=0的概率,即不发放现金股利公司的概率 事件发生和不发生的概率比成为发生比,即相对风险,表现为PP odds -=1.因为是以 对数形式出现的,故该发生比为对数发生比(log odds ),表现为)1ln(P P odds -=。
对数发生比也是事件发生概率P 的一个特定函数,通过logistic 转换,该函数可以写成logistic 回归的logit 模型:)1(log )(log PP P it e -= Logit 一方面表达出它是事件发生概率P 的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。
根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P进而得到x P y E 10)(ββ+==因此,从以上分析可以看出,当因变量的取值为0、1时,均值x y E 10)(ββ+=总是代表给定自变量时y=1的概率。
生物统计学:第10章 多元线性回归分析及一元非线性回归分析
H0 : 1 2 k 0 H A : 至少有一个i 0
拒绝H0意味着至少有一个自变量对因变量是有影 响的。
检验的程序与一元的情况基本相同,即用方差
胸围X2 186.0 186.0 193.0 193.0 172.0 188.0 187.0 175.0 175.0 185.0
体重Y 462.0 496.0 458.0 463.0 388.0 485.0 455.0 392.0 398.0 437.0
序号 体长X1 胸围X2 体重Y 11 138.0 172.0 378.0 12 142.5 192.0 446.0 13 141.5 180.0 396.0 14 149.0 183.0 426.0 15 154.2 193.0 506.0 16 152.0 187.0 457.0 17 158.0 190.0 506.0 18 146.8 189.0 455.0 19 147.3 183.0 478.0 20 151.3 191.0 454.0
R r Y•1,2,,k
yp yˆ p
,
p 1,2,, n
对复相关系数的显著性检验,相当于对整个回 归的方差分析。在做过方差分析之后,就不必再检 验复相关系数的显著性,也可以不做方差分析。
例10.1的RY·1,2为:
RY •1,2
24327 .8 0.9088 29457 .2
从附表(相关系数检验表)中查出,当独立
表示。同样在多元回归问题中,可以用复相关系数表 示。对于一个多元回归问题,Y与X1,X2,… ,Xk 的线性关系密切程度,可以用多元回归平方和与总平 方和的比来表示。因此复相关系数由下式给出,
生物统计学课件
第二节 数据类型及频数(率)分布
1. 数据类型 2. 用图和表对样本数据进行定性归纳:
频数表和频数图
1. 数据类型:连续型数据和离散型 数据
数据
连续型数据: (度量数据)
指用量测手段得到的数量性状资料,即用度、 量、衡等计量工具直接测定的数量性状资料。 其数据是长度、容积、重量等来表示。例如: 身高、产奶量、体重、绵羊剪毛量等。这类 数据通常是非整数,数据的变异是连续的。
第一章 统计数据的收集与整理
第一节 总体与样本
1. 什么是生物统计学? 2. 生物统计学的一些重要术语 3. 本课程的主线
1.什么是生物统计学
• 生物统计学(Biostatistics)是数理统计学 的原理和方法在生物科学研究中的应用, 是用统计学方法分析和解释生物界各种现 象与数量资料的一门学科
组限 37~39 40~42 43~45 46~48 49~51 52~54 55~57 58~60 61~63 64~66
组限
组界
组中值
频数
频率
37
40
43
组下限
。。。
64
组限 37~39 40~42 43~45 。。。 64~66
组界
组中值
频数
频率
(4)在频数表中列出组界和中值。
由于测量精度的原因,第一组(组限为37~39)实际代表从36.5kg到39.5kg的 所有数据,因为连续型数据一般是小数,这里只是因为测量精度以及记录的方便 以整数表示出来。
3230 …
0032 …
选出位于1~2000的数:411,1828,32,768,1024,…,满20 个数为止。
• 这20个数对应的学生就是一个随机样本
张勤主编的生物统计学方面的习题作业及答案
第一章绪论一、名词解释总体个体样本样本含量随机样本参数统计量准确性精确性二、简答题1、什么是生物统计?它在畜牧、水产科学研究中有何作用?2、统计分析的两个特点是什么?3、如何提高试验的准确性与精确性?4、如何控制、降低随机误差,避免系统误差?第二章资料的整理一、名词解释数量性状资料质量性状资料半定量(等级)资料计数资料计量资料二、简答题1、资料可以分为哪几类?它们有何区别与联系?2、为什么要对资料进行整理?对于计量资料,整理的基本步骤怎样?3、在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好?4、统计表与统计图有何用途?常用统计图、统计表有哪些?第三章平均数、标准差与变异系数一、名词解释算术平均数几何平均数中位数众数调和平均数标准差方差离均差的平方和(平方和)变异系数二、简答题1、生物统计中常用的平均数有几种?各在什么情况下应用?2、算术平均数有哪些基本性质?3、标准差有哪些特性?4、为什么变异系数要与平均数、标准差配合使用?三、计算题1、10头母猪第一胎的产仔数分别为:9、8、7、10、12、10、11、14、8、9头。
试计算这10头母猪第一胎产仔数的平均数、标准差和变异系数。
2、随机测量了某品种120头6月龄母猪的体长,经整理得到如下次数分布表。
试利用加权法计算其平均数、标准差与变异系数。
组别组中值(x)次数(f)80—84 288—92 1096—100 29104—108 28112—116 20120—124 15128—132 13136—140 33、某年某猪场发生猪瘟病,测得10头猪的潜伏期分别为2、2、3、3、4、4、4、5、9、12(天)。
试求潜伏期的中位数。
4、某良种羊群1995—2000年六个年度分别为240、320、360、400、420、450只,试求该良种羊群的年平均增长率。
5、某保种牛场,由于各方面原因使得保种牛群世代规模发生波动,连续5个世代的规模分别为:120、130、140、120、110头。
生物统计学课后习题解答李春喜
第一章概论解释以下概念:总体、个体、样本、样本容量、变量、参数、统计数、效应、互作、随机误差、系统误差、准确性、精确性。
第二章试验资料的整理与特征数的计算习题2.1 某地 100 例 30 ~ 40 岁健康男子血清总胆固醇(mol · L -1 ) 测定结果如下:4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.124.56 4.375.396.30 5.217.22 5.54 3.93 5.21 6.515.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.694.38 4.89 6.255.32 4.50 4.63 3.61 4.44 4.43 4.254.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.975.16 5.10 5.85 4.79 5.34 4.24 4.32 4.776.36 6.384.885.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.094.52 4.38 4.31 4.585.726.55 4.76 4.61 4.17 4.034.47 3.40 3.91 2.70 4.60 4.095.96 5.48 4.40 4.555.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90计算平均数、标准差和变异系数。
【答案】=4.7398, s=0.866, CV =18.27 %2.2 试计算下列两个玉米品种 10 个果穗长度 (cm) 的标准差和变异系数,并解释所得结果。
24 号: 19 , 21 , 20 , 20 , 18 , 19 , 22 , 21 , 21 , 19 ;金皇后: 16 , 21 , 24 , 15 , 26 , 18 , 20 , 19 , 22 , 19 。
生物统计学第四版教学大纲
1 差异显著性检验的意义、基本原理、基本步骤, 2 u 、 t 检验方法、总体参数的区间估计方法
第五章 χ2 检验 第一节 χ2检验的原理与方法 第二节 适合性检验 第三节 独立性检验
2学时
1掌握非线性回归的直线化原理 2了解可直线化的非线性回归的 种类及其分析方法
倒数函数、指数函数、对数函数、幂函数及生长曲线的特点及显著性检验方法。
第九章 抽样原理与方法 第一节 抽样误差的估计 第二节 样本容量的确定 第三节 抽样的基本方法 第四节 抽样方案的制定
2学时
掌握抽样误差的估计 ,方案的制定 熟悉抽样方案的制定了解调查研究的质量控制
2学时
明确生物统计学的重要作用和常用术语
1 生物统计与试验设计的概念 2 常用统计术语
第二章 试验资料的整理与特征数的计算 第一节 试验资料的搜集与整理 第二节 试验资料特征数的计算
4 学时
1 掌握对不同类型资料的整理和相关统计图表的绘制方法 2 掌握平均数、标准差和变异系数的计算和应用
1 抽样调查方法 2 样本容量的确定
第十章试验设计及其统计分析 第一节 试验设计的基本原理 第二节 对比设计及其统计分析 第三节 随机区组设计及其统计分析 第四节 裂区设计及其统计分析 第五节 正交设计及其统计分析
8学时
1 掌握试验设计的重要性和基本原则 2 掌握常用的几种试验设计的方法和适用条件
本课程系统地介绍了生物统计学的基本原理和方法,在简要叙述了生物统计学的概念、产生、发展和作用、生物学研究中试验资料的整理、特征数的计算、概率和概率分布、抽样分布基础上,着重介绍了平均数和频率的假设检验、 X 2 检验、方差分析、直线回归与相关分析、可直线化的非线性回归分析、协方差分析、试验设计的原理和常用试验设计及其统计分析、多元回归与相关分析和多项式回归分析,同时简要介绍聚类分析、判别分析、主成分分析等多元分析。
生物数学:第十章 生物统计学基础-2
假设检验的步骤
根据实际问题所关心的内容, 建立
原假设 H0与备择假设H1
在 H0为真时,选择一个合适的检验统 计量V ,它的分布是已知的,由H1确定
拒绝域的形式
给定显著性水平 , 对应的拒绝域
双侧检验 右边检验 左边检验
(V
V1
2
) (V
V )
2
(V V )
(V V1)
其中 P(V V)
0,tail 0; 0,tail 1; 0,tail 1
➢ 输出参数h=0表示接受H0,h=1表示拒绝H0, p表示在假设H0下出现的概率,p越小H0越值
得怀疑,ci是0的置信区间 ➢ 总体方差2未知时的均值检验,用t检验
[h,p,ci]=ttest(x,mu,alpha,tail)
两总体均值的假设检验
(n1)S12 (m1)S22 n m2
(2)
关于方差比
2 1
/
22
的检验
原假设 备择假设 检验统计量及其在
H0
H1
H0为真时的分布
拒绝域
2 = 2 2 2
1
21
2
F S12 ~ S22
F(n 1,m1)
F F1 (n 1, m 1)
2
或 F F (n 1,
m 1)
2
12
22
2 1
19.8 20.0 20.3 20.8 20.9 m = 15 20.9 21.0 21.0 21.0 21.2
21.5 22.0 22.0 22.1 22.3
x 22.20 s2 0.4225
1
y 21.12 s2 0.5689
2
试判别两个样本均值的差异是仅由随机因素
生物统计学 第10讲 假设检验2
内的记分数FWT. 智商发育指标:Wechsler的语言IQ得分、行为IQ得分及
总量表得分.
要考察铅暴露对结果变量的影响.
Case 1 铅对儿童的神经及心理健康的影响的研究
33
澳大利亚某医院进行骨密度测定研究,记录了41对 双胞胎中年妇女(每对妇女具有不同的抽烟史)的 抽烟的详细情况。利用烟叶消费量变量将82人分为 严重抽烟组及轻微抽烟组. 骨无机质密度 :在腰椎骨、股颈骨和股骨干三个部 位测试. 考察两组的骨无机质密度是否有差异.
混杂
X2 a b2
方法3
26
治疗某种疾病有现行的方法A。有人提出了可 提高疗效的新方法B。 为进行验证,各取患者若干做试验,结果B的 治愈率高。 但仔细检查发现用疗法B的患者多数年轻而且 病情轻,用疗法A的患者则反之。
A组=疗法A+体质1+病情1 B组=疗法B+体质2+病情2
方法3实例
试验设计的基本原则
29
H0 : p1 p2 H A : p1 p2
定期服用阿司匹林能减少心脏病发作的危险?
30
H0 : 1 2 H A : 1 2
特殊的杀虫剂能增加亩产量?
31
H0 : 1 2 H A : 1 2
男女同工不同酬?
32
一组儿童生活在一个铅矿(在Texas州的EI Paso)的附近, 测量其血铅水平. • 对照组:78名儿童,72年和73年的血铅水平均<40g/mL; • 暴露组:46个儿童,72年或73年的血铅水平>40g/mL
27
干扰一个试验结果: 随机误差 混入的系统性因素
减小随机误差的影响一般有3种方法:
张勤主编的(畜牧兽医)生物统计学方面的习题作业及答案
第一章绪论一、名词解释总体个体样本样本含量随机样本参数统计量准确性精确性二、简答题1、什么是生物统计它在畜牧、水产科学研究中有何作用?2、统计分析的两个特点是什么?3、如何提高试验的准确性与精确性?4、如何控制、降低随机误差,避免系统误差?第二章资料的整理一、名词解释数量性状资料质量性状资料半定量(等级)资料计数资料计量资料二、简答题1、资料可以分为哪几类它们有何区别与联系?2、为什么要对资料进行整理对于计量资料,整理的基本步骤怎样?3、在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好?4、统计表与统计图有何用途常用统计图、统计表有哪些?第三章平均数、标准差与变异系数一、名词解释算术平均数几何平均数中位数众数调和平均数标准差方差离均差的平方和(平方和)变异系数二、简答题1、生物统计中常用的平均数有几种各在什么情况下应用2、算术平均数有哪些基本性质?3、标准差有哪些特性?4、为什么变异系数要与平均数、标准差配合使用?三、计算题1、10头母猪第一胎的产仔数分别为:9、8、7、10、12、10、11、14、8、9头。
试计算这10头母猪第一胎产仔数的平均数、标准差和变异系数。
2、随机测量了某品种120头6月龄母猪的体长,经整理得到如下次数分布表。
试利用加权法计算其平均数、标准差与变异系数。
组别组中值(x)次数(f)80—84 288—92 1096—100 29104—108 28112—116 20120—124 15128—132 13136—140 33、某年某猪场发生猪瘟病,测得10头猪的潜伏期分别为2、2、3、3、4、4、4、5、9、12(天)。
试求潜伏期的中位数。
4、某良种羊群1995—2000年六个年度分别为240、320、360、400、420、450只,试求该良种羊群的年平均增长率。
5、某保种牛场,由于各方面原因使得保种牛群世代规模发生波动,连续5个世代的规模分别为:120、130、140、120、110头。
生物统计学资料
生物统计学10.1 变量间的关系参数估计是对某一种变量的值进行估计;假设检验是对某一种变量的值进行比较。
它们的研究对象是某一种变量:这种变量的集中点、变异程度、大小、是否相同等,没有研究其它变量对该变量有怎样的影响。
实际上,不同的变量之间往往存在相互影响。
例如:施肥量往往影响产量、身高影响体重等。
相关与回归研究变量之间的关系。
● 函数关系:如果对于变量 X 的每一个可能的值,都有随机变量 Y 的一个确定值(y) 相对应,则 Y 与 X 存在函数关系(确定性关系)。
如:一元线性方程:y=a+bxX 为自变量、Y 为因变量,两者都是确定值。
例:已知圆的半径R(自变量),就能精确地求出圆的直径D(因变量)。
● 回归关系:如果对于变量 X 的每一个可能的值,都有随机变量 Y 的一个确定的分布()相对应,则随机变量 Y 对变量 X 存在回归关系(非确定性关系)。
如一元线性回归方程=a+bxX 为自变量,是确定值,没有随机误差。
Y 为因变量,不是确定值,具有随机误差。
例:在一定范围内,年龄越大身高越高。
但无法根据年龄精确地求出身高。
● 相关关系:如果对于任一随机变量的每一个可能的值,另一个随机变量都有的一个确定的分布与之相对应,则这 2 个随机变量间存在相关关系(非确定性关系)。
在 Y 对 X 存在回归关系的同时, X 对 Y 也存在回归关系。
例:在一定范围内,树木的胸径越大则高度越高,但无法根据胸径精确地求出高度;树木的高度越高则胸径越大,但无法根据胸径精确地求出高度。
● 确定性关系与非确定性关系的转化确定性关系( 如函数关系 )受到其它因素干扰──────────────→←──────────────排除其它因素干扰非确定性关系( 如:回归关系 )本章的内容包括:判断变量间存在着什么样的关系——求回归方程判断这种关系是否可靠存在——显著性检验5.10.2 基本步骤● 数据输入:数据必须是观测值、不能是统计量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
+3 +3
9 11
-2 0
+1 +3
合計 96 96
0
96 0,0,0
0
10.4.3 平方和劃分
xij x (xi x ) (xij xi ) i 1, 2, , m(處理數)
xij x (xi x ) (xij xi ) j 1,2, ,n(試驗單位數)
生
8 8
大
8
學(B) 8
生
8 8
研
8
究(C) 8
生
8 8
合計 96
再分配 所得
xi
6 6 6 6
7 7 7 7
11 11 11 11
96
再分配得 失
ti xi x
-2 -2 -2 -2
-1 -1 -1 -1
+3 +3 +3 +3
0
賭博後 賭博時得 最後與最初
所得
失
所得之差
xij
eij xij xi dij xij x
S22
1 [62 8 1
9.82 (65.2)2 8] 12.16 7 1.7371
F
S12 S22
6.7457 1.7371
3.883
今實測 F 3.883 F0.05,7,7 3.787 ,故拒絕H0的 假設,表示兩種尿酸測定法之變方不相等。
10.4 變方分析
(1)虛無假設 H 0
: 12
2 2
(2)對立假設
H1
:
2 1
2 2
(3)設定顯著水準 0.05(單尾)
(4)計算F S12 S22,若F F ,1,2 表示兩變方不相等。
例子10.2
S12
1 [4.52 8 1
122 (65.2)2 8] 47.22 7 6.7457
假設有一老祖父過96歲生日,他將美金96元分給 12位孫子當零用錢,為求公平所以每人得8元,不 過分配後祖父覺得這樣不妥,因為12位孫子中, 四位為研究生、四位為大學生、另四位為中學生, 根據不同年齡層消費會不同,因此祖父決定再重 新分配,如下表所示:
觀測值
組別 最初 (處理) 所得
x
中
8
學(A) 8
顯著水準為
,即其信賴水準為
。
故6對樣品均值差0.0異5 獨立比較結果之正1確率 為0.9:5
(0.95)6 0.735 73.5%,犯第一型錯誤率為26.5%。
變方分析(ANOVA)
而採用變方分析法,可維持在 0.05的顯著水準 下,同時比較數個樣品均值的相等性問題。
7
+1
-1
3
-3
-5
10
+4
+2
4
-2
-4
4
-3
-4
10
+3
+2
6
-1
-2
8
+1
0
10
-1
+2
14
+3
+6
9
-2
+1
11
0
+3
96 0,0,0
0
今以三種飼料12隻天竺鼠增重比較試驗結果代替
處 總平 處理平 處理
觀測
試驗
總
理 均值 均值
效應
值
誤差
差異
x
xi
ti xi x
xij
eij xij xi dij xij x
(Analysis of Variance:ANOVA) 針對數個樣品(處理)均值之比較檢定法,雖然也
可以採用兩樣品均值差異的t檢定(兩兩成對比較), 但此種方式結果犯第一型錯誤機率,要比我們設 定的顯著水準(0.05)高很多,也就是可靠性會降低。
假設有四個樣品均值要互相比較,則共有 對
樣品均值差異的比較檢定,若設每對比較C檢24 定 6的
第十章.F分布與變方分析
F-Distribution and Analysis of Variance
F分布 兩族群變方相等性檢定 變方分析(ANOVA) 試驗設計
10.1 F分布
兩個族群變方的比值稱為F值
即
F 12
2 2
若F=1,即表示兩族群變方相等
(
2 1
應用變方分析的前提: 各樣品(處理)互相獨立。 各處理之試驗誤差應獨立 各處理之試驗誤差應同質(homogeneity)。 並且服從常態分佈。
變方分析之原理
一般試驗結果難免會發生誤差(error),有些誤差 是可以控制,而有些則是不明原因所造成的。
我們以下面的例子來說明試驗資料之成因、試驗 誤差以及變方分析之原理。
2 2
)
。
而由F值所組成之次數分布即為F分布。
F分布為紀念 R.A. Fisher 而命名,故又稱費氏 F分布(Fisher’s F distribution)。
若族群變方未知,而以樣品均方(S 2)作為變方
的估值,則F值亦可以兩樣品均方之比值表示為:
F S12 S22
F分布
F分布曲線是根據
A
8
6
-2
7
+1
-1
x飼 料ij
8
x8
8
ti
6
6
6
eij
-2
-2x
-2
3
-3
-5
(x140i
x
+)4
-2
(
xij
+-42xi
)
B
8
7
-1
4Leabharlann -3-4飼87
-1
10
+3
+2
料
8 8
7 7
-1 -1
6 8
-1 +1
-2 0
C 8 11
+3
10
-1
+2
飼
8
11
+3
14
+3
+6
料
8 8
11 11
也就採用右單尾檢定。但若欲計算左單尾F值所
發生的機率,可採用 F1',2,1
1 F ,1,2
換算。
10.2 兩族群變方相等性檢定
例子10.2 設下列為人工與儀器測定成年人血液中尿酸 含量之記錄,是檢定兩種測定法之變異是否相同。
人工 n1=8 4.5 5.6 6.5 7.5 8.6 9.8 10.7 12 mg% / ml 儀器 n2=8 6 6.8 7.6 8 8.5 9 9.5 9.8 mg% / ml
兩邊取平方後總和為:
mn
mn
(xij x )2
[(xi x ) (xij xi )]2
i1 j1
i1 j1
m
mn
n (xi x )2
(xij xi )2
i 1
i1 j1
SST SSt SSE
總平方和 = 處理平方和 + 誤差平方和
(total sum of squares)
(treatment sum of squares)
(error sum of squares)
S12自由度
1
n1
1
及
S
2之自由
2
度 2 n2 1 而定的一條分布曲線,故F分布曲線
依 1及 2 之不同而異。
F分布之機率求法,已製有右尾積分10%、5%、 1%之機率表(附表七)。
F分布
通常計算F值時,常把較大的均方放於分子,而
較小的均方放於分母,因此F值均大於1,故F值