分类(数据挖掘)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

LOGO

分类

Contents

1. 基本概念

2. 分类方法

1 基本概念❖一般来说,数据挖掘主要侧重解决四类数据分析问题:分

类、聚类、关联和预测。

❖分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。这种模型称为分类器,预测分类的(离散的、无序的)类标号。

分类的一般方法❖数据分类是一个两阶段过程:(1)学习阶段(构建分类模型)(2)分类阶段(使用模型预测给定数据的类标号)

监督学习/无监督学习

❖分类是一种监督学习方法

❖监督学习:又称为有教师学习,所谓“教师”就是对一组给定的输入提供应有的输出结果,也就是对训练样本集的每个样本都能提供其真实输出。如分类

❖无监督学习:训练数据中没有样本的输出标识,仅凭数据的自然聚类特性,进行“盲目”学习。如聚类

2 分类方法❖常用的分类方法:决策树、贝叶斯分类、基于规

则的分类、后向传播、支持向量机、KNN等

2.1 决策树

❖决策树是一种类似于流程图的树结构。其中,每个内部结点(非树叶结点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点存放一个类标号。树的最顶层结点是根节点。内部结点用矩形表示,而叶结点用椭圆表示。决策树可以是二叉的,也可以是非二叉的(根据不同的决策树算法而定)。一棵典型的决策树如下图:

❖如何使用决策树分类?

给定一个类标号未知的元组X,在该决策树上测试该元组的属性值。跟踪一条由根到叶结点的路径,该叶结点就存放着该元组的类预测。

❖为什么决策树分类器如此流行?

(1)决策树分类器的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。

(2)决策树可以处理高维数据。

(3)获取的知识用树的形式表示是直观的,并且容易被人理解。(4)决策树归纳的学习和分类步骤是简单和快速的。

(5)一般而言,决策树分类器具有很好的准确率。

决策树算法❖根据分裂属性选择度量的不同,决策树的常见算法有ID3(度量:信息增益)、C4.5(度量:增益率)、CART

(度量:基尼指数)。当然,决策树算法之间的差别也包括用于剪枝的机制等。

❖属性选择度量:是一种选择分裂准则,把给定类标记的训练元组的数据分区D“最好地”划分成单独类的启发式方法。理想情况下,D划分后的每个小分区都是纯的(即落

在一个给定分区的所有元组都属于相同的类)。“最好的”分类准则是最接近这种情况的划分。

ID3算法❖ID3算法(Iterative Dichotomiser 3 迭代的二分器3代)是

一位机器学习研究人员J.Ross Quinlan开发的决策树算法。

❖ID3算法的核心思想:以信息增益作为属性选择度量(该

度量基于香农在研究消息的值或“信息内容”的信息论方面的先驱工作),选择分裂后信息增益最大的属性进行分裂。

age属性分裂后

❖ID3的缺点:信息增益度量偏向具有许多输出的测试。换句话说,它倾向于选择具有大量值的属性。

例如,考虑充当唯一标识符的属性,如product_ID。在product_ID的划分将导致大量分区(与值一样多),每个只包含一个元组。由于每个分区都是纯的,所以基于该划分对数据集D分类所需要的信息为Infoproduct_ID(D)=0。因此,通过对该属性的划分得到的信息增益最大。显然,这种划分对分类没有用。C4.5的出现就是为了克服这种偏倚。

❖C4.5:也是Quinlan提出来的,它是对ID3算法的改进,这些改进包括处理数值属性、缺失值、噪声数据和由决策树产生规则的方法。

❖C4.5采用增益率作为属性选择度量,选择具有最大增益率的属性作为分裂属性。

❖CART:分类和回归树(Classification And Regression Tree)算法由Breiman等人于1984年提出的。它是以二叉树的形式给出,易于理解、使用和解释。如果目标变量是离散的,则该树为分类树(classification tree),而对于连续数值目标变量,则该树称为回归树(regression tree)。

❖Gini指数:是一种不等性度量,由意大利统计学家Corrado Gini提出,并于1912年发表在他的文章“Variabilita e mutabilita”中。它通常用来度量收入不平衡,但是它可以用来度量任何不均匀分布。Gini指数是一个0—1之间的数。其中0对应于完全相等(其中每个人都具有相同的收入),而1对应于完全不相等(其中一个人具有所有收入,而其他人收入都为零)。

❖CART采用不纯度降低最大的属性作为分裂属性。

2.2 朴素贝叶斯分类❖条件概率:

P(X|H) 表示事件H已经发生的前提下,事件X发生的概率,叫做事件H发生下事件X的条件概率。

❖贝叶斯定理:

✓P(H|X):后验概率,或在条件X下,H的后验概率。

✓P(H):先验概率,或H的先验概率。

✓P(X|H):条件H下,X的后验概率。

✓P(X):X的先验概率。

❖贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:很容易从给定的数据直接得出P(X)、P(H)和P(X|H),却很难直接得出P(H|X),但我们更关心P(H|X)。

❖贝叶斯定理就为我们提供了从P(X)、P(H)和P(X|H)计算后验概率P(H|X)的方法。

❖朴素贝叶斯分类法是一种简单的分类算法。

❖朴素贝叶斯分类法的思想基础是这样的:对于给出的待分类项,求解此项在出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

❖朴素贝叶斯分类法的工作过程:

(1)选定训练元组及其相关联的类标号集合记为D。每个元组用一个n维属性向量X={x1,x2,…,x n}来表示,描述由n个属性A1,A2,...,

A n对元组的n个测量。

(2)假定有m个类C1,C2,C3,...,C m。待分类元组X,分类法将预测X属于具有最大后验概率的类。即:若,则X属于类C i 。

(3)P(C i|X)通过贝叶斯公式来计算。由于P(X)对所有类为常数,故只需P(X|C i)P(C i)最大即可。

相关文档
最新文档