第九章 数值分类在生态系统分析中的应用(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、数值分类的基本步骤
1、根据分类对象和分类的目的选择分类依据 这是把内涵经验转变成数量标准的过程。 2、分类用数据的采集 采用统一的方法采集资料 。 3、分类数据的标准化 目的是突出要比较的内容或消除不同项目间单位不同的差异, 增强项目间的可比性。 4、相似性或相异性计算 是表述分类单元之间异同程度的一种定量表述。 5、分类的判别 数值分类的原则是使新形成的分类具有“类内差异尽量小, 类间差异尽量大”的特点。
一般地说,在n维坐标X1---X2---…---Xn构成的空间中任意两点 Pj、Pk的距离为:
其中Xij、Xik分别为Pj和Pk在第i轴上的坐标。
以表2.12的数据为例,两个乡五年中畜牧业总产值间的欧氏距 离为:
3、
2值

2值为
设y为标准值,xi为被判断的值,则xi与yi相似性的
查卡方表df=5-1=4, 20.05 =9.488 结果表明第二个乡与第一 个乡五年来畜牧业总产值的差异没有达到显著水平。 2 越 小越相似。
例2:
例2:调查了五个地点的20种作物和水果构成如下表所示, 表中”1”代表”有”,”0”代表”无”。试用组平均聚类法 把这五个点进行分类。
第一步:数据标准化。 第二步:选择相异性指标,并计算点间相异性。 由于组平均聚类法需要的是相异性指标,因而可用下式求i点与j点间的 相异性: Dij = 1 – ( 2a / 2a + b + c) 其中a、b、c, a为共有项目数,b为i点独有项目数,c为j点独有项目数。 如 D12 = 1- ( 2*10)/(2*10+1+3)=0.167 同理算出的其他相异性指标见下表。
二、数据标准化方法
数据标准化方法很多。 分类依据的原始数据是否要开展标准化计算 和选择哪一种标准化方法要看数据内容和分 类目的。 数据标准化后应达到突出比较内容,消除量 纲差异的目的。
(一)总和标准化、最大值标准化、 极差标准化和模标准化
例:广东等五省1991年按当年价格计算的农业分部 门总产值和农业总产值如下表所示:
4、模糊相似性
5、灰色关联度
灰色关联度用于比较两个时间序列在变化趋势上的相似程 度,而不用于比较绝对值的相近程度。
三、组平均距离聚合法分类
数据标准化后就可以根据不同的分类方法和排序方 法计算点与点之间或点群与点群间的相似性。 分类之中常涉及包含1个到多个点构成的点群,计 算两个点群间相似性的不同方法就构成了不同的数 值分类方法。 组平均距离聚合法是用分属两个点群(组)所有点 间距离的平均值作点群距离。 聚类从各独立的点开始,距离最近的点或点群先归 并,最终聚集到预先设定的类数,或聚成一类为止。
(一)二元数据间的相似性
群落品种、农区作物、区域污染源的有无都可形成二元数 据。两个调查对象的二元数据调查结果可组织成下表形式。 两个对象多点调查结果统计
在对象1中 在对象2中




a
b
c
d
ab abcd
例:群落中品种调查
以群落中品种调查为例,两个群落都有的品种数为a个,只 在群落1中出现的品种有b个,只在群落2中出现的品种有c 个,两个群落都没有品种为d个。 则两个群落的相似性可用以下的指标定量比较:
广东+广西 0
西藏+青海+上海 0.259 0
最后把五个点合并成一组,聚类过程结束,聚类结果可以用下 图来表示
0.3 0.259 0.2 0.144 0.1 0.125 0.089
1
2
3
4
5
广东 广西 青海 西藏 上海
0.3 0.259 0.2
0.1 0.125 0.089
0.144
1 2 3 4 5 广东 广西 青海 西藏 上海
(二)标准差标准化、离差标准化和数据中心化
数据标准化、离差标准化和数据中心化不要求 各比较项目的数据用同一量纲。
例:广东等五省农业现代化水平
广东等五省市1991年农业现代化水平的几项主要统 计结果如下表所示。
三、相关性量度
在农业生态系统分析中定量的相关性被广泛应用于 揭示: • 生物与环境的相互关系、 • 生物与生物的关系、 • 模型结果与实际结果的相互关系等。 在不同的场合中相关性又称相似性、相异性、关联 性等。
例如调查群落A和B的结果是a=50,b=12,c=6,d=26,调查 群落A和C的结果是a=50,b=25,c=20,d=5,这样A和B的几 个相似性指数分别为S1=0.808,S2=0.847,S3=0.735. A和 C的相似性指数则为S1=0.55,S2=0.690,S3=0.526。显然, 无论用哪个指标衡量A和B比A和C更相似。
第三步:选择差异最小的点或点群先合并成新 的点群。 对本例第1县与第2个县先归并。 第四步:重新计算新点群与其他点或点群的相 异性。 例如, D12,3 = n1 D13/n12 + n2 D23/n12 =1/2*0.273 + 1/2*0.250 =0.262 其余相异性见下表。
第五步:重复第三步 和第四步直至达到预 定类数或聚成一类为 止。 全部数据见上表, 聚类结果见下图。
生态系统分析
Ecosystem Analysis
第九章 数值分类在农业生态系统 分析中的应用
背 景
农业生态系统分析经常涉及分类和排序问题。 指标简单的分类与排序可利用指标值的高低来进行。 涉及生态、经济、社会的多指标综合的分类与排序 往往不得不依赖经验。 数值分类和排序方法的出现使这类综合性强的分类 与排序能用标准化与程序化的方法进行, 内涵经验转成数量指标,使分类与排序结果重现性 增强。

DA+B,C = nA DAC/nA+B + nB DBC/nA+B
例1:
广东 广西 西藏 青海 上海
表.五省市自治区农业总产值构成比例的欧式距离 广西 西藏 青海 上海 广东 0 0.125 0.331 0.263 0.253 0 0.279 0.195 0.234 0 0.089 0.153
2、欧氏距离
在二维坐标X1---X2平面上的任意两点P1、P2,其坐标分别为 (X11,X21)和(X12,X22),则这两点在平面上的距离d12可用 下式求出(图2.15):
在三维坐标X1---X2---X3空间中任意两点P1、P2,其坐标分别 为(X11,X2l,X31)和(X12,X22,X32),则这两点在三维空 间中的距离d12可用下式求出:
(二)计数数据间的相似性
各类牲畜的数目,各种树的数量都可构成计数数据。下表是 两个树林中7种灌木数量的调查结果。
(三)计量数据间的相似性
农业生态系统分析中测定生物量、产量、产值、温 度、降水、能量、养分都用到计量数据。 用两个对象调查得到的计量数据计算相似性有很多 方法,主要有: 相关系数、欧氏距离、ⅹ2值、相对海明距离、灰色 关联度等方法。
1、相关系数
自由度df=n-1,可查表检验其相关性的显著。这种表格在任何 数理统计书本中都可查到。-1≤r≤l。xi与yi趋势越一致,r值越大, 趋势越相反,r值越小(图2.14)。
表2.12是两个乡的畜牧业总产值连续五年的变化值。相关系数 r=0.988。df=4,查表r0.05=0.8114,表明两个乡畜牧业总产 值的发展十分相似,达到显著的水平。
例3 :
例3:有四个农区的大田种植业结构如下表所示, 试用信息分划法分类。
第一步:计算总体信息量。 其中,以e为底,k = 7,n = 4
第二步:计算各种分类方式引起的信息减量。 对本例可按某种作物的有与无来分类,例如以双季 稻有无可分出ab为一类,cd为另一类;以单季稻有 无为标准则可分出a为一类,bcd为另一类。 按双季稻有无为标准的分类方式引起的信息减量可 根据前面两式算出:
0.136 0
选择差异最小的点合并成新点群,青海和西藏的农业产值结构 最接近D34=0.089 根据 计算新点群与其他点的欧式距离
同理计算出
D34,2=0.237, D34,5=0.144
如此第一次归类后的欧式距离如下表 广东 广西 西藏+青海 上海 广东 0 广西 0.125 0 西藏+青海 上海 0.297 0.253 0.237 0.234 0 0.144 0
例4
第一步:数据标准化。 本例选择标准差标准化方法。结果见下表:
第二步:计算相似性指数。 本例先计算任Biblioteka Baidu两点间的相关系数r’ij,得到相关 系数矩阵R’:
第三步:利用模糊关系合成,求出模糊录属矩阵 对应的模糊等价矩阵。
五、信息分划法分类
信息分划法适用于以二元数据为基础的分类,其分 类方向是从整体开始,选点群间差异最显著的划分 方法; 把整体分成两类,然后在点群内差异最大的类别中 继续划分,直到分出预定类群数或分到每个点为止。 信息分划法用以量度点群间差异的依据是两个点群 合成一类时的信息总量(Iab)与两个点群自身信息 量之和(Ia + Ib)的差异ΔIab,即: ΔIab = Iab - (Ia + Ib)
第三步:选择能引起信 息减量达到最大的方式 进行分类。 对本例为按双季稻、玉 米或甘蔗的有无来分类, 把ab作为一类,cd作为 第二类。
六、模糊聚类法分类
模糊聚类法利用的是相似性指数,而且要求相似性指数变化 范围是从0~1。 聚类单元间的相惟性指数构成模糊关系矩阵(R),可作模 糊聚类相似性指数的包括: 二元数据的相似性指标; 计数数据的相似性指标; 计量数据间的相关系数,并经过r’=(r’+1)/2的变换。 模糊关系矩阵R通过模糊关系的合成R2=R•R, R4=R2•R2… … ,最终求出模糊等价矩阵Rn•Rn =R2n=Rn。 通过选择适当的截矩λ,求出分类结果。
广东和广西距离D12=0.125,为最小,合并为一类,继续利用 上述公式计算新点群的距离
同理计算D12,5=0.244,如下表所示: 广东+广西 西藏+青海 广东+广西 西藏+青海 上海 最小距离为西藏青海和上海的距离,继续合并 0 0.267 0
上海 0.244 0.144 0
广东+广西 西藏+青海+上海
ad S1 abcd
0≤S1≤1,当两个群落品种完全一样时S1=1,当两个群落品 种完全不同时S1=0 在很多情况下,d是无法确定的,这时相似性可用下式表示:
2a S2 2a b c
0≤S2≤1
也可用下式表示:
a S3 abc
0≤S3≤1
S2,S3都随两个调查对象的相似性增加而上升。当a=0时,S2 =0,S3=0,当b=0,c=0时,S2=l,、S3=1。
相关文档
最新文档