基于规则的分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
体温 恒温 冷血 冷血 恒温 冷血 冷血 恒温 恒温 恒温 冷血 冷血 恒温 恒温 冷血 冷血
表皮覆盖 毛发 鳞片 鳞片 毛发 无 鳞片 毛发 羽毛 软毛 鳞片 鳞片 羽毛 刚毛 鳞片 无
胎生 是 否 否 是 否 否 是 否 是 是 否 否 是 否 否
水生动物 否 否 是 是 半 否 否 否 否 是 半 半 否 是 半
计算机应用技术
2020/3/26
1
目录
2020/3/26
2
基本概念
基于规则的分类法是使用一组“IF…THEN…”规则来对记录进行分类 的技术。 一个IF-THEN规则是一个如下形式的表达式:IF 条件 THEN 结论。
规则R1是一个例子 R1:IF age=youth AND student=yes THEN
规则:(胎生=是)∧(体温=恒温)—>哺乳类
Coverage= ncovers /|D|=5/15*100%=33%
Accuracy= ncorrect / ncovers =5/5*100%=100%
2020/3/26
6
ቤተ መጻሕፍቲ ባይዱ
基于规则的分类器的特征
Mutually exclusive rules (互斥规则)
R1: (age youth) (student yes) (buys _ computer yes)
2020/3/26
3
基本概念
对于给定的元组,如果规则前件中的条件(即所有属性 测试)都成立,则我们说规则前件被满足,并且规则覆盖了 该元组。
规则R可以用它的覆盖率和准确率来评估。给定类标记
• Classifier contains mutually exclusive rules if the rules are independent of each other
• 如果规则彼此独立,则分类器包含互斥规则 • Every record is covered by at most one rule • 每个纪录都由最多一个规则所覆盖
Exhaustive rules(穷举规则)
• Classifier has exhaustive coverage if it accounts for every possible combination of attribute values
• 如果分类器考虑到属性值的每一个可能的组合,都将进行详尽的覆盖 • Each record is covered by at least one rule • 每条记录至少包含一条规则
的前件为真)的元组的百分比。对于规则的准确率,考察在
它覆盖的元组中,可以被规则正确分类的元组所占的百分比。
2020/3/26
4
规则覆盖率和准确率举例
序号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
名字 人类 蟒蛇 鲑鱼 鲸 青蛙 巨蜥 蝙蝠 鸽子 猫 虹鳉 美洲鳄 企鹅 豪猪 鳗鲡 蝾螈
的数据集D中的一个元组X,设 ncovers 为规则R覆盖的元组, ncorrect为R正确分类的元组,|D|是D中的元组数。可以将R的 覆盖率和准确率定义为
cov erage(R) ncovers |D|
accuracy(R) ncorrect ncovers
也就是说,规则的覆盖率是规则覆盖(即其属性值使得规则
叶斯分类、K-近邻分类、基于软计算的分类和粗糙集等。
2020/3/26
8
研究背景和意义
研究意义
基于规则的分类方法主要包括传统的基于规则分类方法(决策树,FOIL 算 法)等。决策树分类是典型的递归构造,它的分类模型简洁且易于理解,但当数 据集的实例个数较多时,产生的决策树非常大,需要简化决策树。而且数据集中 属性值的遗失情况和类分布均匀性对决策树的分类效果产生较大的影响,此外决 策树是采用贪婪的算法,很难获得全局的信息,决策树上每条训练实例仅被一条 分类规则覆盖,这也是决策树准确率不高的一个原因。FOIL算法只用最好的属 性值产生的规则来构造分类器,且一条训练实例只被一条规则覆盖,因此当数据 集特别小时,可能产生的规则特别少,对分类准确率有一定的影响;关联规则挖 掘的分类技术是目前非常流行的而且也收到了广泛的关注,从总体上来说,关联 分类的分类准确率要显著的高于传统的基于规则分类方法,比如 FOIL 算法,决 策树等,但同时,关联分类也存在一些不足之处,例如,规则产生的过程中生成 太多的冗余规则,导致效率不高,分类模型难以理解等问题。
buys_computer=yes 规则的“IF”部分(或左部)称为规则前件或前提。“THEN”部分
(或右部)是规则的结论或后件。规则前件,它是属性测试的合取:
IF i A1 op v1 A1 op v1 ?• • A1 op v1
其中(Aj,Vj)是属性-值对,op是比较运算符,取自集合 (, , , , , ) (例如,age=youth 和 student=yes)。规则的结论包含一个类预测 (在这个例子中,预测顾客是否购买计算机)。R1也可以写作
飞行动物 有腿
否
是
否
否
否
否
否
否
否
是
否
是
是
是
是
是
否
是
否
否
否
是
否
是
否
是
否
否
否
是
2020/3/26
冬眠 否 是 否 否 是 否 是 否 否 否 否 否 是 否 是
类标号 哺乳类 爬行类 鱼类 哺乳类 两栖类 爬行类 哺乳类 鸟类 哺乳类 鱼类 爬行类 鸟类 哺乳类 鱼类 两栖类
5
规则覆盖率和准确率举例(续)
Some algorithms not always achieve these two properties
2020/3/26
7
研究背景和意义
研究背景
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的过程。数据挖掘广泛应用于各种领域,比 如电力系统的电力负荷预测、证券分析、网络入侵、网络信息的 搜索引擎、以及生物医学等等。当前主流的数据挖掘方法主要包 括关联规则、分类、聚类。分类是根据已知类别信息寻找数据间 的分类模式;分类作为数据挖掘的重要的任务之一,将在未来的 智能系统中发挥重要作用。目前,常用的分类主要包括基于规则 的分类技术(包括决策树分类、FOIL分类算法、关联分类)、贝