生物统计学 第九章 多元统计分析简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第九章多元统计分析简介
多元统计分析主要研究多个变量之间的关系以及具有这些变量的个体之间的关系。

无论是自然科学还是社会科学,无论是理论研究还是应用决策,多元统计分析都有较广泛的应用。

近年来,随着计算机的普及和广泛应用,多元统计分析的应用越来越广泛,越来越深入。

生物学研究中,有许多问题要考虑样本与样本之间的关系、性状与性状之间的关系,也要考虑样本与性状之间的关系,为了能够正确处理这些错综复杂的关系,就需要借助于多元统计分析方法来解决这些问题。

从应用的观点看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。

一般认为,典型的多元统计分析主要可以归结为两类问题:第一类是决定某一样本的归属问题:根据某样品的多个性状(特征)判定其所属的总体。

如判别分析、聚类分析即属于此类内容。

第二类问题是设法降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系。

主成分分析、因子分析和典型相关分析均属于此类问题。

此外,多因素方差分析、多元回归与多元相关分析和时间序列分析,均是研究一个变量和多个变量之间的关系的,也是多元统计分析的内容。

第一节聚类分析(Cluster Analysis)
聚类分析是研究分类问题的一种多元统计方法,聚类分析方法比较粗糙,但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视。

近年来聚类分析发展较快,内容也越来越多。

常见的有系统聚类、模糊聚类、灰色聚类、信息聚类、图论聚类、动态聚类、最优分割、概率聚类等方法,本节重点介绍系统聚类法。

系统聚类法是目前应用较多的聚类分析方法,这种聚类方法从一批样本的多个观测指标(变量)中,找出能度量样本之间相似程度的统计数,构成一个相似矩阵,在此基础上计算出样本(或变量)之间或样本组合之间的相似程度或距离,按相似程度或距离大小将样本(或变量)逐一归类,关系密切的归类聚集到一个小分类单位,关系疏远的聚集到一个大的分类单位,直到把所有样本(或变量)都聚集完毕,形成一个亲疏关系谱系图,直观地显示分类对象的差异和联系。

第二节判别分析(Discriminant Analysis)
判别分析是多元统计分析中较为成熟的一类分类方法,它是根据两个或多个总体的观测结果,按照一定的判别准则和相应的判别函数,来判断某一样本属于哪一类总体。

判别分析的内容很多,常见的有距离判别、贝叶斯判别、费歇判别、逐步判别、序贯判别等方法。

第三节主成分分析(Principal components analysis)
主成分分析也称主分量分析,它是研究如何将多指标问题化为较少的新的指标问题的一种方法。

综合后的新指标称为原来指标的主成分或主分量,这些主成分新的指标既彼此不相关,又能综合反映原来多个指标的信息,是原来多个指标的线性组合。

第四节因子分析(Factor Analysis)
因子分析也是一种把多个指标化为少数几个综合指标的多元统计方法。

因子分析所涉及到的计算与主成分分析相类似,但它是从假定的因子模型出发,把数据看作是由公共因子、特殊因子和误差所构成。

主成分分析把方差划分为不同的正交成分,因子分析则把方差划归为不同的起因因子。

因子分析中特征值的计算是从相关矩阵出发,由于每个变量它是用较少个数的公共因子的线性函数和特定因子之和来表达原来观测的每个变量,以便合理地解释存在于原始变量间的相关性和简化变量的维数。

第五节典型相关分析(Canonical Correlation Analysis)典型相关分析是研究两组变量之间相关关系的一种统计方法。

要研究两组变量之间的相关关系,找出第一组变量的某个线性组合,同时找出第二组变量的某个线性组合,使其具有最大的相关,然后又在每一变量中找到第二对线性组合,使它们具有次大的相关,将此过程继续下去,直到每组变量间相关被提取完毕为止。

这样得到的线性组合对称为典型变量,二者之间的相关系数称为典型相关系数,这种用典型相关系数来代表两组变量之间相关系数的方法称为典型相关分析。

第六节时间序列分析
在生物学研究中,我们经常收集到一些不同时刻(年、月、日、时、分、秒)某一生物现象的数量特征,这些数据是有序的,研究这些数据随时间变化的相互关联规律,用于预测未来。

第十章试验设计
生物学试验研究的试验方案应设计合理,精心组织操作,采用相应的统计方法对试验结果进行分析。

第一节试验设计的基本原理
一、试验设计的意义
广义的试验设计是指整个研究课题的设计,包括试验方案的拟订,试验单位的选择、分组的排列,试验过程中生物性状和试验指标的观察记载,试验资料的整理、分析等内容;而狭义的试验设计则仅是指试验单位的选择、分组与排列方法。

合理的试验设计对科学试验是非常重要的,它不仅能够节省人力、物力、财力和时间,更重要的是它能够减少试验误差,提高试验的精确度,取得真实可靠的试验资料,为统计分析得出正确的判断和结论打下基础。

二、生物学试验的基本要求
(一)试验的代表性:
首先应抓住当前生产和科研中急需解决的问题作为试验项目。

同时要有预见性,从发展的观点出发,适当照顾到长远和在不久的将来可能出现的问题。

试验条件要能够代表将来准备推广该项试验结果的地区生产、经济和自然条件。

还应放眼未来生产、经济和科学技术水平的发展,使试验结果既能符合当前需要,又能适应未来发展,使结果具有较长的应用寿命。

(二)试验的可靠性
这包括试验的准确度和精确度两个方面。

准确度是指试验中某—性状、特征的观测值与其相应真值的接近程度;越接近准确度越高。

精确度是指试验中同一性状的重复观测值彼此接近的程度,即试验误差的大小,它是可以计算的。

试验误差越小,则处理间的比较越精确。

当试验没有系统误差时,精确度和准确度一致。

因此,在试验的全过程中,要严格按试验要求和操作规程执行各项技术环节,力求避免发生人为的错误和系统误差,尤其要注意试验条件的—致性,减少误差,提高试验结果的可靠性。

高度的责任心和科学的态度是保证试验结果可靠性的必要条件。

(三)试验的重演性
试验结果的重演性是指在相同的条件下,再进行试验或实践,应能重复获得与原试验结果相类似的结果。

为了保证试验结果能够重演,首先必须严格要求试验的正确执行和试验条件的代表性。

其次,必须注意试验的各个环节,全面掌握试验所处的条件,有详细、完整、及时和准确的试验过程记载,以便分析产生各种试验结果的原因。

此外,对生物学试验还必须考虑季节变异的特点,将试验进行2~3年,甚至做多年多点试验,以克服年份、地点环境
条件的不一致所带来的影响。

三、试验设计的基本要素
试验设计包括三个基本组成部分,即:处理因素、受试对象和处理效应。

(一)处理因素
一般是指对受试对象给予的某种外部干预(或措施),称为处理因素,或简称处理。

处理因素可以是一个或多个,即称为单因素处理或多因素处理,同一因素可根据不同强度分为若干个水平。

与处理因素相对应的是非处理因素,这是引起试验误差的主要来源,在试验设计时要引起高度重视,尽量加以有效控制。

(二)受试对象
受试对象是处理因素的客体,实际是就是根据研究目的而确定的观测总体。

在进行试验设计时,必须对受试对象所要求的具体条件作出严格规定,以保证其同质性。

(三)处理效应
处理效应是处理因素作用于受试对象的反应,是研究结果的最终体现。

由于试验效应包含了处理效应和试验误差,因此,在分析试验效应时,需按照一定的数学模型通过方差分析等方法将处理效应和试验误差进行分解,并进行检验,以确定处理效应是否显著。

四、试验误差及其控制途径
(一)试验误差的概念
在生物科学试验中,试验处理有其真实的效应,但总是受到许多非处理因素的干扰和影响,使试验处理的真实效应不能完满地反映出来。

这样,试验中所取得的观测值,既包含处理的真实效应,又包含不能完全一致的许多其他因素的偶然影响。

这种使观测值偏离试验处理真值的偶然影响称为试验误差或误差。

试验误差大致可分为两类:一种为系统误差,也称片面误差。

它是由于试验处理以外的其他条件明显不一致所产生的带有倾向性的或定向性的偏差。

另一种为随机误差,又称偶然误差。

它是由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差。

(二)试验误差的来源
1.试验材料固有的差异这是指试验中各处理的供试材料在其遗传和生长发育方面或多或少存在着差异。

2.试验条件不一致这是指各试验单位的构成不一致和各试验单位所处的外部环境条件不一致。

3.操作技术不一致操作技术不一致包括各处理或处理组合的播种、管理、接种、滴定、采样等操作在时间上和质量上存在差别。

4.偶然性因素的影响人工无法控制的自然因素以及人、畜、禽和病虫害引起的误差都是偶然性误差。

除此之外,还有工作中疏忽大意造成的错误。

试验误差是不可避免的,但是采取一些措施,降低试验误差是完全可能的。

(三)控制试验误差的途径
1.选择纯合一致的试验材料。

2.改进操作管理制度,使之标准化。

3.精心选择试验单位,各试验单位的性质和组成要求均匀一致。

4.采用合理的试验设计。

五、试验设计的基本原理
进行试验设计的目的,在于减少试验误差,提高试验的准确度和精确度,使试验结果
正确可靠。

为了有效地控制和降低试验误差,试验设计必须遵循下面三条基本原则。

(一)重复
在试验中,同一处理设置的试验单位数,称为重复。

每个处理有两个或两上以上的试验单位,称为有重复的试验。

重复的最主要作用是估计试验误差。

试验误差是客观存在的,但只能通过同一处理内不同试验单位之间的差异来估计。

设置重复的另一主要作用是降低试验误差,因而可提高试验的精确度。

(二)随机
随机是指一个重复中的某一处理或处理组合被安排在哪一个试验单位,不要有主观成见。

设置重复固然提供了估计误差的条件,但是为了获得无偏的试验误差估计值,则要求试验中的每一处理都有同等的机会设置在任何一个试验单位上。

(三)局部控制
在生物学试验中,要求把所有非处理因素控制均衡一致是不易做到的。

但我们可以将整个试验环境分解成若干个相对一致的小环境(称为区组、窝组或重复),再在小环境内分别配置一套完整的处理,在局部对非处理因素进行控制。

综上所述,一个良好的试验设计,必须遵循重复、随机、局部控制三大原则周密安排试验,才能由试验获得真实的处理效应和无偏的、最小的试验误差估计,从而对各处理间的比较得出可靠的结论。

三、实验设计的方法:
1. 完全随机化实验设计
每一个实验单位(对象)都有相同的机会受到某一处理,不受人为选择的影响,适合于实验单位初始条件高度均匀和一致。

(1)随机分组的方法:采用抽签或随机数字表法,将研究对象(实验动物、植物等)编号,从随机数字表中依次选取数字,用组数去除,所得余数为所属组号,若结果各组数量相差较多,可用随机数字表数字调整。

(2)结果分析:t 检验,单因素方差分析。

(3)优缺点:方法简便,处理组数目不受限制;适合于个体差异较小的情况,实验的随机误差较大,精确性较低。

2. 配对实验设计(对比法)
配对就是把来源、性别、年龄、体重、血缘等相同或极相近的两头动物(或其它研究对象)配成一对,标记后用随机法将两头分到两组中。

配对实验可以用于同一实验动物(或其它)前后两次施以不同的处理而成为配对实验的材料。

结果分析采用配对t 检验。

优缺点:实验误差—-差数平均数的标准误Sd ,小于成组数据t 检验的实验误差---21x x s -,精确度高于完全随机化设计;缺点是对实验对象要求较严格。

3. 随机区组实验设计
将配对实验中的两头一对扩大到三头以上一对,这种含三头以上实验动物的“对”叫做区组,一个区组中的每个对象施于一种处理,区组内的生物(对象)数与处理数相同。

分组方法还是将各区组的生物(对象)随机地分到各组中。

结果分析采用方差分析。

优缺点:比完全随机的设计提高了实验的精确性,实验的处理数和重复数不受限制。

缺点是对实验对象要求更严格。

4. 拉丁方实验设计:
将k 个不同符号排成k 列,使每一个符号在每一行、每一列都仅出现一次的方阵,叫做拉丁方设计。

如3╳3的拉丁方实验设计,有12种排列方法,4╳4的拉丁方实验设计,有576种排列方法。

A B C B C A C A B
随机选任何一种使用,再将横行和纵行用随机方法重新排列。

水平数=重复数。

这种方法适用于单因素多水平的实验研究。

5. 正交实验设计
正交实验设计适用于多因素、多水平的实验,应用广泛。

在多因素、多水平实验中,随着实验因素和水平数的增加,处理组合数将急剧增加,如2733
=个组合处理,8134
=处理组合,25644
=个处理组合。

显然,要全面实施所有这些实验是相当困难的,故采用部分实验方式---正交实验(挑选出部分有代表性的水平(处理)组合)。

正交实验设计是利用正交表科学、合理地安排实验。

正交表在生物统计学教材附表和统计软件中均有常用的可供选择。

(1)正交表和特点:以()493L 为例,L 表示正交表,4表示因素数,3代表水平数,9代
表实验次数(水平组合数),也就是从81次中选出9次有代表性的。

特点:1. 每一列中,不同数字出现的次数相等。

2.每个因素的每一水平与另一因素的各个水平相遇一次,任何两因素的搭配都是均衡的。

(2)正交实验设计的方法
A. 确定因素数和水平数:根据命题(问题)的需要,选择对效应值(指标)影响较大的因素。

各因素的水平数不一定相等,数量性质的水平数最好能覆盖整个范围,间隔要适当,太大会漏掉好的措施,太小又会使结果难以比较鉴别。

B. 选用正交表:根据因素数(n )、水平数(m )和可能存在的交互作用数(r )来选择合适的正交表。

最少实验次数1)1(1
+-=
∑=n
i i
m。

即各因素的“水平数-1”之和再加1。

如,4
3 91413=+⨯-)(; 选()493L
,3124⨯ 7131214=+⨯-+-)()(; 选()4824⨯L ,去掉一列。

若有交互作用,则在原基础上加上交互项。

如有4个因素A ,B ,C ,D,各自水平为4,3,2,2,有交互项B A ⨯和D C ⨯。

最少实验次数为:
15)12()12(131412)12(1314=-⨯-+-⨯-++⨯-+-+-)()()()(;选()424243⨯⨯L
(3)结果分析:采用多因素方差分析、回归分析、协方差分析等。

由于统计软件在统计分析时先计算处理内误差,所以,要求至少有一个重复,否则不能计算。

五、实验单位数量的确定 1. 完全随机化实验:
采用2
2205.02d S t n =计算每组所需实验对象的个数(实验重复数)。

式中,n 为每组的实验对象个数,05.0t 为自由度)
(12-n 时,05.0=p 的t 值;首次估计时,98.1,=∞=t df 约等于2。

S 为标准差,根据以往的同类实验估计;d 能辨别显著性的两个平
均数的差数,根据实验要求决定。

例1. 采用增加人工光照提高产蛋量,要求产蛋量差数在4个以上/月,有95%的可靠程度,标准差约为3.65,问每组应有多少只实验鸡?
766.6465.32222
2222
205.0≈=⨯⨯==d S t n 根据7=n ,求12)1(2=-=n df ,查表2.205.0=t ,再代入上式求8=n ,
14)1(2=-=n df …。

再算下去n 不变,因此每组至少应有8只鸡作实验。

2. 配对实验
采用2
2
205.0d S t n d
=计算每组所需实验对象的个数(实验重复数)。

式中,n 为每组的实验对象个数,05.0t 为自由度)
(1-n 时,05.0=p 的t 值;首次估计时,98.1,=∞=t df 约等于2。

d S 为差数标准差,根据以往的同类实验估计;d 能辨别显著性的
两个平均数的差数,根据实验要求决定。

将上例改为配对实验,4,65.3==d S d ;则:
433.3465.322
2222
205.0≈=⨯==d S t n d
依次计算下去,最后7=n 。

由此看出,要求精度相同时,配对实验可少用实验对象。

3. 随机区组实验
在随机区组设计中,重复次数的确定,应以实验误差的自由度不小于12为原则,因为在F 表
中,01.0.05.0.122===p p df 和,
理论F 值的下降就减慢了。

根据方差分析表,误差自由度)1(112--=k m )()(,m 为处理数,k 为重复次数。

112
+=
k ,重复数由处理数决定。

要注意,处理数大于10时,重复数不要小于3。

练习题
一、名词解释:
总体样本参数统计数机误错误次数分布表次数分布图众数中位数偏斜度峭度平均数标准差必然事件不可能事件随机事件概率正态分布统计假设零假设备择假设
二、简答题:
1.生物统计学的主要内容和作用是什么?
2.平均数与标准差在统计分析中有什么用处?它们各有哪些特性?
3.什么是小概率原理?它在假设检验中有何作用?
4.假设检验中的两类错误是什么?如何才能少犯两类错误?
5.什么是多重比较?常用的多重比较的方法有哪几种?
6.什么叫回归分析?回归截距和回归系数的统计意义是什么?
7.什么叫相关分析?相关系数和决定系数各具有什么意义?
8.常见的曲线类型有哪些?如何确定两个变量之间的曲线类型?
9.非线性回归曲线进行直线化时,常用的转换方法有哪两种?
10.什么叫多元回归?多元线性回归与一元线性回归相比较有何异同?
11.什么是复相关系数?其意义是什么?
12.建立多元式回归的基本方法是什么?
13.什么是相关指数?如何求解?
14.什么是协方差分析?协方差分析的主要作用是什么?
15.何为试验设计?生物学试验的基本要求是什么?
16.简述试验误差的来源及其控制途径。

17.试验设计的基本原理和作用是什么?
18.常用的试验设计有哪几种?这些方法各适宜在什么情况下使用?
三、论述题
检验、方差分析、回归与相关、协方差分析适用举例说明t检验、2
的数据类型。

四、实践题
选择教材中的练习题,用STATI STICA统计软件的t检验、方差分析、回归分析、协方差分析等计算。

五、开卷考试题
根据自己所学专业,选择2类不同的实验数据,采用软件进行统计分析。

相关文档
最新文档