农作物品种最佳聚类方法研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键词 :农作物 品种 ;聚类方法 ;数据变换 ;类间距离 ;样品间距离
中 图分 类 号 :TP399
文献 标 识 码 :A 文 章 编 号 :1002—2481(2016)07—0918-07
Study on the Best Clustering M ethod of Crop Varieties
Key words:crop varieties;clustering method;data transfor m ation;between-class distance;distance between samples
聚类 分 析 是 根 据 事 物 的 多个 数 值 特 征 来 观 察 事 物个 体 之 间 或 样 品之 间 的亲 疏 关 系 和相 似 程 度 的 一种 多 元 统计 分 析 方 法 ,内容 涉 及 面 广 ,分 类 方 法 多 而杂 ㈣ ,其 理 论 上还 不 是 至 善 至 美 ,但 是 它 比 凭感官分类效果要好 、分类结果 明确 ,借助计算机 和统 计软 件 ,分类速 度很 快 。
摘 要 :筛选 中国知 网上的期刊文献 ,选择 4篇 文章 中的 4种 豆类数据作 为评判标 准 ,对数据变换 7种方法 、样品
间 5种距离公式 、类问 7种距离定义 ,共组 合成的 245种分类方法 ,应用系统 聚类分 析 、方差 分析 、非参 数检验和
描述性统计分析等方法进行 了比较研究 。结果表明 ,过去最常使用的类 间最短距离法和类平均距离法都不是最佳
李莉等[7-9]使用最长距离法 ,要燕杰等 司使用类间 平 均 法 ,赵 明辉 等 使 用 离 差平 方 和法 ,孙敏 等 ㈣ 使 用质 心 聚类法 。从 理论 的角度 ,陈庆 富等[17-181推 崇 最 短 距 离法 ,向晓 群I】91持 相 反态 度 ;张文 彤等 [2O-2 1认 为 ,类平均距离法表现最为优异 ,克劳斯 ·巴克豪斯 等∞却 认 为 Ward法 最好 ,而盖 钧镒 I 认 为最小 组 内 平方 和法 和组 平 均法效 果 都较 好 。 因此 ,产 生 了折 中办 法 ,李静 萍等 [3,-251建议 ,尽 量 多用 几种 距离 公 式 和分 类方 法进 行 聚类 分析 ,从 多种 结果 中找 出合 适 的分 类 ,于是 对 同样 一批 样 品进 行 分类 ,由于 多 种 选择 ,就 会得 到 多种 分类 结果 。这 就 造成 了许 多 科 技人 员 在使 用 聚类分 析方 法 时 的疑惑 和 困难 ,计 算
在农 业 和生 物学 研究 中 ,聚类 分 析有 着 广泛 的 应 用 ,比如 品种 分 类 、生 产 性 状 分 类 、表 型 性 状 分 类 、土壤 分类 等 。经 过 分类 ,可 以发 现 每类 的特 征 , 再 通 过特 定试 验 ,从 而 可 以 应用 方 差 分 析 、相 关 分 析 、回归 分析 等进 一步 揭示类 群 问 的关 系 。
DU Haiping
(Institute of Agricultural Information,Shanxi Academy of Agricultura l Sciences,Taiyuan 03003 1,China)
A bstract:Screening CNKI iourna l literature,four kinds of legume data from four articles were used as evaluation criteria.245 cluster ing m ethods consisting of 7 m ethods of data transform ation,5 distance formulas between samples,7 distance def initions between classes were compared by cluster analysis,ANOVA,nonparametric test and descriptive statistical analysis.The results showed that, nearest neighbor and between-groups linkage used most com monly in the past were not the best cluster ing m ethod,because their accuracy was significantly lower than W ard’s m ethod.Z standardization was not the best m ethod of data transformation,but it was the ”Range from 0 to 1”.”Range from 一1 to 1”and ”Maximum Magnitude of 1”3 kinds of transfor m ation methods.Among the 5 distance for m ulas between samples,the most accurate classification was the Manhattan distance,followed by the Euclidean distance.Accordingly, we got the best clustering methods and steps.
的类 间距离方法 ,它们的准确性极显 著地低 于最小离差平方和法 ;原始数据 z标准化变换也不是最佳 的变换方法,
而是 “全距从 0到 1”、“全距从 一1到 1”、“1的最大 量”这 3种变换方法 ;样品间 5种距离分类最准确的是 Manhat—
tan距离 ,其次才是欧氏距离。据此得 出了最佳 的聚类方法和步骤。
山西 农 业 科 学 2016,44(7):918—924 doi:10.3969 ̄.issn.1002-2481.2016.07.07
Journal of Shanxi Agricultural Sciences
农 作 物wk.baidu.com品种 最佳 聚 类 方 法 研 究
杜 海平
(山西省农业科学院农业科技信息研究所 ,山西 太原 030031)
聚 类 分 析 是根 据 样 品之 间 的 亲疏 关 系进 行 分 类 ,亲疏 关 系是 根 据 样 品与 样 品 之 间 、类 与类 之 间 的距离 远 近来 衡量 的 ,而距 离远 近 又与 多种 距 离公
式 和 聚类方 法 的选择有 关 。 从 应 用 的角 度 ,申慧 芳 等 使 用最 短 距 离 法 ,