聚类分析方法小结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析方法小结
简单点说:分类是将一片文章或文本自动识别出来,按照先验的类别进行匹配,确定。聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术。分类和聚类都是将相似对象归类的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。
分类(classification )是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类技术在数据挖掘中是一项重要任务,目前商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
不同的分类器有不同的特点。有三种分类器评价或比较尺度:1)预测准确度;
2)计算复杂度;3)模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎。
另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据
聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。
1.含义
根据事物本身的特性研究个体分类的方法,是研究事物分类的基本方法。其是为了某种目的做的工作,并非真实存在所分的类。
2.原则
同一类中的个体相似性大,不同类中的个体差异很大。
3.分类
(1)按聚类对象分:
样品聚类:对观测量聚类,对反映被观测对象特征的各个变量值进行分类。目的是判断研究对象的属类。
变量聚类:根据所研究的问题选择反映事物某些特点的部分变量来研究事物的某方面。目的是找出彼此独立的有代表性的变量,以便在用少量有代表性变量代替众多变量时,损失信息很少。
(2)按聚类过程分:
分解方法:首先把所有个体认为一大类,然后根据距离最近或性质相似逐层分解,直到每个个体自成小类为止。
凝聚方法:首先把每个个体认为一小类,然后根据距离最近或性质相似逐步合并,直到所有个体一个大类为止。
4.3.2内容过程
1.数据准备
这里运用聚类分析方法对我国部分东西部地区的经济发展进行综合评价。2.方法选择
按分析Analyze—聚类Classify—分层聚类Hierachical Classify的顺序展开如图4.10所示对话框。从左侧原始变量备选框中指定参与分析变量送入右侧变
量Variable(s)框中。在聚类栏Classify选择聚类类型—观测量聚类Cases或变量聚类Variable,若做观测量聚类,还需指定一个标识变量送到样本标签框Label Cases by中。在输出显示栏系统默认选择统计量和图形。
单击方法选择Method功能按钮,展开对话框。
(1)聚类方法Cluster Method:定义、计算两项之间距离或相似性的方法。
组间连接:合并两类后使所有对应两项之间的平均距离最小。
组内连接:合并后使类中所有项之间的平均距离(平方)最小。
最近邻法:用两类之间最近点间的距离代表两类间的距离。
最远邻法:用两类之间最远点间的距离代表两类间的距离。
重心聚类:以计算所有各项均值间距离的方法计算两类间距离。
中位数法:以各类中的中位数为类中心。
最小方差:以类间方差最小为聚类原则。
(2)测度方法Measure:测度距离或相似性的算法。
方法一般与定义方法对应一致。聚类方法不同,测度算法相应不同,聚类结果会有区别。若方法与算法不一致,则输出警告提示,结果不能成立。
测度方法有计算连续变量的距离、离散变量的不相似性、二值变量的距离或不相似性。连续变量距离计算方法有:
欧氏距离:(∑(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。
距离平方:∑(Xi-Yi)2,目的是减少误差。
相似测度:∑(XiYi)2/((∑Xi2)(∑Yi2)),即两项间的相似性是向量间的余弦,值域-1—1,用0值表示相互垂直。