分类算法小结 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

分类算法小结
分类算法小结
学号：12013120116 李余芳
分类是数据挖掘中比较重要的一类，它的算法也有很多。

在此，我将一些常用的算法做一个简单的小结。

一、决策树
决策树技术是用于分类和预测的主要技术，决策树学习是以实例为基础的归纳学习算法。

它着眼于从一组无次序、无规则的事例中推理除决策树表示形式的分类规则。

它采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支，然后进行剪枝，最后在决策树的叶节点得到结论。

所以从根到叶节点就对应着一条合取规则，整棵树就对应着一组析取表达式规则。

树的每一个结点上使用信息增益度量选择测试属性。

可以从生成的决策树中提取规则。

优点：
1、易于理解和解释•人们在通过解释后有能力去理解决策树所表达的意义。

2、能够同时处理数据型和常规型属性。

其他技术往往要求数据属性的单一。

3、易于通过静态测试来对模型进行评测。

表示有可能测量该模型的可信度。

4、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

5、可以对有许多属性的数据集构造决策树。

&决策树可很好地扩展到大型数据库中，它的大小独立于数据库的大小。

缺点：
1、对于各类别样本数量不一致的数据，在决策树中，信息增益的结果偏向于那些具有更多数值的特征。

2、决策树处理缺失数据时的困难。

3、过度拟合问题的出现。

4、忽略数据集中属性之间的相关性。

应用
1、决策树是用二叉树形图来表示处理逻辑的一种工具。

可以直观、清晰地表达加工的逻辑要求。

特别适合于判断因素比较少、逻辑组合关系不复杂的情况。

2、决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。

比如，在贷款申请中，要对申请的风险大小做出判断。

3、决策树很擅长处理非数值型数据，这与神经网络只能处理数值型数据比起来，就免去了很多数据预处理工作等等。

二、K最近邻法（KNN）
KN法即卩K最近邻法，最初由Cover和Hart于1968年提出的，是一个理论上比较成熟的方法。

该方法的思路非常简单直观：如果一个样本在特征空间中的k个最相
似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。

因此，采用这种方法可以较好地避免样本的不平衡问题。

另外，由于KNI方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其
他方法更为适合。

优点：
1、简单、有效。

2、K最近邻算法是一种非参数的分类技术，在基于统计的模式识别中非常有效，并对未知和非正态分布可取得较高的分类准确率。

3、在类别决策时，只与极少量的相邻样本有关，可以较好地避免样本的不平衡问题。

4、该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

缺点：
1、KNF算法是建立在VSM模型上的，其样本距离测度使用欧式距离。

若各维权值相同，即认定各维对于分类的贡献度相同，显然这不符合实际情况。

2、KNN1懒散的分类算法，对于分类所需的计算均推迟至分类进行，故在其分
类器中存储有大量的样本向量。

在大样本集和高维样本分类时所需要的时间和空间的复杂度均较高。

3、计算量较大。

因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。

目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的
样本。

应用
KN在快速文本分类，快速分形图像编码，在药材的识别和查询、搜索等诸多方面都有应用。

三、人工神经网络（ANN）
神经网络的学习规则就是修改神经网络的权值和偏置值的方法和过程（也称这种过
程为训练算法）。

神经网络分类算法的重点是构造阈值逻辑单元，一个值逻辑单元是一个对象，它可以输入一组加权系数的量，对它们进行求和，如果这个和达到或者超过了某个阈值，输出一个量。

优点：
1、神经网络可以任意精度逼近任意函数
2、神经网络方法本身属于非线形模型，能够适应各种复杂的数据关系。

3、神经网络具备很强的学习能力，使它能够比很多分类算法更好地适应数据空间的变化。

4、神经网络借鉴人脑的物理结构和机理，能够模拟人脑的某些功能，具备“智能”的特点。

缺点:
1、神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值。

2、不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度。

3、学习时间过长，甚至可能达不到学习的目的。

应用
AN作为人工智能的一个分支，在暖通空调（HAVC领域、中药领域、水文领域、电力系统中、经济学、网络故障诊断以及疾病诊断等等有广泛的应用。

四、贝叶斯（Bayes）
Bayes法是统计学分类方法，它利用统计学中的贝叶斯定理，来预测类成员的概率，即给定一
个样本，计算该样本属于一个特定的类的概率。

朴素贝叶斯分类需假设每个属性之间都是相互独立
的，并且每个属性对非类问题产生的影响都是一样的。

贝叶斯算法是一种在已知先验概率与类条件
概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

利用Bayes定
理来预测一个未知类
别的样本的可能属性，可选择其可能性最大的类别作为该样本的类别。

优点：
1、朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。

2、它是一种在已知先验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

缺点：
1、贝叶斯定理假设一个属性对给定类的影响独立于其他属性，但此假设在实际情况中经常不成立，因此影响了其分类的准确率。

2、实际情况下，类别总体的概率分布和各类样本的概率分布函数（或密度函数）常常是不知道的。

为了获得它们，就要求样本足够大。

应用
Bayes在智能信息处理、医疗、网络检测和统计推断等诸多方面得到了充分的应用。

五、支持向量机（VSM
该方法是建立在统计学习理论基础上的机器学习方法。

通过学习算法，SVM可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最
大化类与类的间隔，因而有较好的适应能力和较高的分辨率。

该方法只需要由各类域的边界样本的类别来决定最后的分类结果。

优点：
1、可以避免神经网络结构选择和局部极小点问题。

2、可以解决高维问题。

3、可以解决非线性问题。

4、待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类
结果没有影响，SVM法对小样本情况下的自动分类有着较好的分类结果。

缺点：
1、对缺失数据敏感。

2、对非线性问题没有通用解决方案，必须谨慎选择Kernel fun ction 来处理
六、基于规则的分类
该算法的构造分类器分为两步：第一步用关联规则挖掘算法从训练数据集中挖掘出所有满足指定支持度和置信度的类关联规则；第二步选择高优先度的规则来覆盖训练集，即选择具有最高置信度的规则作为可能规则。

优点：
1、可以产生清晰有用的结果。

2、可以处理变长的数据。

3、计算的消耗量是可以预见的。

4、基于关联规则的分类技术在总体上分类准确度高。

缺点：
1、资源消耗大。

2、规则剪枝难。

3、分类模型较复杂。