数据挖掘_分类方法(修改)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 分类方法
小组成员 :
庞春霞万凯明 委佩涛 彭朋
内容

回顾基本概念 贝叶斯分类 规则归纳



总结
KDD的总体过程
• 数据挖掘——知 识挖掘的核心
模式评估
数据挖 掘
任务相关数据
数据仓库 数据清理 数据集成 数据库 选择
分类
为什么要进行分类?


分类是数据挖掘中的重要任务之一
很多数据挖掘问题都可以转化为分类问题
性 别


P( X | Ci ) P( x k | Ci )
k 1
n
身高 (英尺)
6
5.92 (5'11")
体重 脚的尺寸 (磅 ) (英寸)
180
190 170 165 100 150 130 150
12
11 12 10 6 8 7 9
男 5.58 (5'7") 男 女 女 5.92 (5'11") 5 5.5 (5'6")

对每个测试样本,将已知的类标号和该样本的学习模 型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测 试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应 数据”的情况


第二步——用模型进行分 类
分类规则
测试集
未知数据 (Jeff, Professor, 4)
NAME Tom Merlisa George Joseph
问题就转换为对 P(X|Ci) 的最大化( P(X|Ci) 常被称为给
定 Ci 时数据 X 的似然度,而使 P(X|Ci) 最大的假设 Ci 称为最大
似然假设)。
因为类的条件是相互独立的所以可以用如下公式计算:
n
P(X | C i )
P(x k | C i ) k
1
在我们的问题里面比如X={6英尺,130磅,8英寸}
在一个属性上的基本测试被称为一个选择值(Selector)。
例子:<Cloudy = yes>
<Temp>60>
AQR允许测试做{=,≤,≥,≠}
AQR算法相关定义
选择值( Selector)的合取被称为复合( Complex ), Complexes之间的析取被称为覆盖(Cover)。
如果一个表达式对某个样本为真,则我们称其为对这个 样本的一个覆盖。这样,一个空Complex覆盖所有的样本,
样本域:水果 X:红的和圆的(颜色属性取值为红,形状属性取值为圆)
H:是苹果(苹果是一个类别)
P(H|X):反应了当知道水果是红的并且是圆的,则它是苹果的 概率(置信程度)。这是后验概率 P(H):是先验概率
朴素贝叶斯分类过程
实例:性别分类 问题描述:通过一些测量的特征,包括身高、 体重、脚的尺寸,判定一个人是男性还是女
此处这么举例,是假设身高的取值都是离散值数据
女 5.42 (5'5") 女 5.75 (5'9")
第三步 求P(X|C1)
xK的值可能有两种情况: (2)连续值 如果Ak是连续值属性,则通常假定该属
性 别

P( X | Ci ) P( x k | Ci )
k 1
n
身高 (英尺)
6
5.92 (5'11")

分类的目的在于用分类方法构建一个分类函数或分类模
型(分类器),该分类器可以将输入数据(数据库中的
数据项)映射到给定类别中的一个类别。
分类器的构造依据
统计方法:贝叶斯方法和非参数法等 机器学习方法:决策树法和规则归纳法 神经网络方法 其他:粗糙集等
数据分类的两步过程(1)

第一步,建立一个模型,描述预定数据类集和概念集
RANK YEARS TENURED Assistant Prof 2 no Associate Prof 7 no Professor 5 yes Assistant Prof 7 yes
Tenured?
内容

回顾基本概念 贝叶斯分类 规则归纳



总结
朴素贝叶斯分类简介
• 本质是一个分类器(分类模型,分类算法均为一个意思) • 基础是概率推理 • 先验概率:根据以往经验和分析得到的概率
g ( xk , ci , ci )是高斯分布函数, c , c i i
分别为平均值和标准差。
女 5.42 (5'5") 女 5.75 (5'9")
第三步 求P(X|C1)
假设训练集样本的特征满足高斯分布,得到下表:
性别 男性 女性 性别 Sample(?) 均值 (身高) 5.855 5.4175 方差 (身高) 3.5033e-02 9.7225e-02 身高(英尺) 6 均值 (体重) 方差 (体重) 均值 (脚的尺寸) 11.25 7.5 方差 (脚的尺寸) 9.1667e-01 1.6667e+00
180 190 170 165 100
150 130 150
12 11 12 10 6
8 7 9
第二步 预测X属于具有最高后验概率 的类
朴 素 贝 叶 斯 分 类 将 未 知 的 样 本 分 配 给 类 Ci
(1≤i≤m)当且仅当 P(Ci|X)> P(Cj|X),对任意的
j=1,2,„,m,j≠i。这样,最大化 P(Ci|X)。其

假定每个元组属于一个预定义的类,由一个类标号属性确 定
基本概念


训练数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组)

学习模型可以用分类规则、判定树或数学公式的形式提供
第一步——建立模型
分类算法
训练数 据集
NAM E RANK M ike M ary Bill Jim Dave Anne Assistant Prof Assistant Prof Professor Associate Prof Assistant Prof Associate Prof
P(X) 对于所有类来说都是一样的即 P(X)=P(C1)*P(X|C1)+P(C2)*P(X|C2) (全概率公式)
所以为了得到最大后验假定,问题转化为求P(X|C1)的最大值
未分类的样本:
性别 Sample(?) 身高(英尺) 6 体重(磅) 130 脚的尺寸(英寸) 8
第三步 求P(X|C1)
先加后减策略:由于属性间存在相关性,因此可能某个条 减法策略:以具体例子为出发点,对例子进行推广或泛化, 典型的规则归纳算法有 AQ、CN2和FOIL等。

AQ算法

AQ 算法利用覆盖所有正例,排斥所有反例的思想
来寻找规则。比较典型的有 AQ11 方法, AQ15 方 法以及AE5方法。
推广即减除条件(属性值)或减除合取项(为了方便,我 件的加入会导致前面加入的条件没什么作用,因此需要减 们不考虑增加析取项的推广),使推广后的例子或规则不 除前面的条件。 覆盖任何反例。 先减后加策略:道理同先加后减,也是为了处理属性间的 加法策略:起始假设规则的条件部分为空(永真规则), 相关性。 如果该规则覆盖了反例,则不停地向规则增加条件或合取 项,直到该规则不再覆盖反例。
176.25 1.2292e+02 132.5 5.5833e+02
体重(磅) 130
脚的尺寸(英寸) 8
第三步 求P(X|C1)
分别求得类别C1和C2的似然度 男性似然度计算项: 女性似然度计算项:
男性和女性的似然度:
可以看到女性的似然度更大,更具贝叶斯分类模型我们显然可以得到, 女性的后验概率更大,所以该样本分类为女性。
P(Ci|X)最大的类Ci称为最大后验假定。
第二步 预测X属于具有最高后验概率 的类
在这个性别分类问题中即:比较 P(C1|X)和P(C2|X)的值(X={6,130,8}),
采用贝叶斯公式:
P(C1|X)=P(X|C1)*P(C1)/P(X) 其中 先验概率P(C1)=0.5 P(X|C1)=?(还未知)
体重 脚的尺寸 (磅 ) (英寸)
180
190 170 165 100 150 130 150
性服从高斯分布。因而,
12
11 12 10 6 8 7 9
P( xk | Ci ) g ( xk , ci , ci )
1 2 ci
e
( xk ci ) 2
2 ci

男 5.58 (5'7") 男 女 女 5.92 (5'11") 5 5.5 (5'6")
P(X|C1)=P(x1|C1)*P(x2|C1)*P(x3|C1) 表示C1时样本X的似然度
第三步 求P(X|C1)
xK的值可能有两种情况:
(1)离散值
则P(xk|Ci)=sik|si,其中sik是在属性Ak上具有值xk 的类Ci的训练样本数,而si是Ci中的训练样本数 x1=6英尺 即P(x1|C1)=训练样本中身高为6英尺并且属于男性 的样本数/男性的样本数=1/4;
内容

回顾基本概念 贝叶斯分类 规则归纳



总结
规则归纳

常见的采用规则表示的分类器构造方法

利用规则归纳技术直接生成规则; 利用决策树方法先生成决策树,然后再把决策树转换为规 则;

使用粗糙集方法生成规则; 使用遗传算法中的分类器技术生成规则等。
规则归纳

规则归纳有四种策略:减法、加法、先加后减、先 减后加策略。
而一个空Cover不覆盖任何样本。
AQR算法相关定义
在 AQR 中,一个新样本被区分是看其由哪个规则推导 出来的。 如果该样本只满足一条规则,则这个样本就属于这条规 则;如果该样本满足多条规则,则被这些规则所预测的最频 繁的分类被赋予这条规则;如果该样本不属于任何规则,则
其分类为样本集中最频繁的分类。

AQR 是一个基于最基本 AQ 算法的归纳算法。很多
的算法都采用了基本 AQ 算法,如 AQ11 和 GEM。 但 AQR更为简单,AQ11使用了一种复杂的包括置 信度的规则推导方法。
AQR算法相关定义
AQR为每一个分类推导出一条规则,每一条规则形式如下:
if <cover> then predict <class>
和脚长三个属性的度量)
分类模型:
第一步 得到先验概率
训练数据集:得到先验概率,按照频率来算。P(C1)=0.5 P(C2)=0.5
性别 身高(英尺) 体重(磅) 脚的尺寸(英寸)
男 男 男 男 女
女 女 女
6 5.92 (5'11") 5.58 (5'7") 5.92 (5'11") 5
5.5 (5'6") 5.42 (5'5") 5.75 (5'9")
① 客观先验概率:由历史资料得到 ② 主观先验概率:由主观经验得到(水果,圆的,甜的,红或绿 的 是苹果)
• 朴素贝叶斯分类特点:
① ② ③ ④ 基于独立假设 需要知道先验概率 按照获得的信息对先验概率进行修正 分类决策存在错误率
朴素贝叶斯分类模型
P( X | H ) P( H ) P( H | X ) P( X )
性。
朴素贝叶斯分类过程
问题数学表示:
类别: 可以从C1到Cn ,在我们的问题中即C1=男性 C2=女性
样 本 表 示 : 每 个 数 据 样 本 ( 某 元 组 ) 用 一 个 n 维 特 征 向 量 X= {x1, x2,„„,xn} 表示,分别描述对 n 个属性 A1,A2,„„,An 样本的 n 个度 量。 比如样本 X={x1,x2,x3}={1 米 73,60 千克, 20 厘米 } (分别对应身高体重
百度文库
YEARS TENURED 3 7 2 7 6 3 no yes yes yes no no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
数据分类的两步过程(2)

第二步,使用模型,对将来的或未知的对象进行分 类

首先评估模型的预测准确率
AQR算法描述
算法 4-5 AQR:
输入:正例样本POS; 反例样本NEG 输出:覆盖COVER
AQR算法描述
(1) COVER= Φ;//初始化COVER为空集Φ
(2) WHILE COVER does not cover all positive examples in POS DO
BEGIN (3) Select a SEED;//选取一个种子SEED,例如没有被COVER覆盖的一个正 样例 (4) Call procedure STAR(SEED,NEG); //产生一个能覆盖种子而同时 排除所有反例的星 (5) Select the best Complex BEST from the STAR according to user-defined criteria;//从星中选取一个最好的复合 (6) Add BEST as an extra disjuct to COVER ;//把最好的复合与COVER 合取,形成新的COVER
相关文档
最新文档