数据挖掘 基于关联的分类方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.6 基于源于关联规则挖掘概念的分类
• 1.基于聚类挖掘关联规则(ARCS) 基于聚类挖掘关联规则( 基于聚类挖掘关联规则 ) • (1)ARCS挖掘形如Aquant1∧Aquant2=>Acat的 关联规则 • (2)用ARCS产生的聚类关联规则用于分类
age(X,”34-35”) ∧ income(X,”30K - 50K”) ⇒ buys(X,”high resolution TV”) (5)
7.6 基于源于关联规则挖掘概念的分类 • 3.CAEP(通过聚集显露模式分类)
• CAEP如何使用EP建立分类法? • 在对一个新样本X分类时,对于每个类C,对出现在X X C X 中的类C的EP的区分能力聚集,得到C的得分,然后 对得分规格化。具有最大规格化 最大规格化得分的类决定X的类 最大规格化 标号。
7.7.4 粗糙集方法
• 选择了“蓝色的大方块或 者蓝色的小圆形”这个概 念:{x5,x7}作为X的下近 似。选择“三角形或者蓝 色的”{x1,x2,x5,x7,x8}作 为它的上近似,值得注意 的是,下近似集是在那些 所有的包含于X的知识库 中的集合中求并得到的, 而上近似则是将那些包含 X的知识库中的集合求交 得到的。
7.7.4 粗糙集方法
• 一种对集合A的划分就对应着关于A中元素的 一个知识,假如还有其他的属性,比如还有 形状R2={三角,方块,圆形},大小R3={大,中, 小},这样加上R1属性对A构成的划分分别为: A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7, x8}} (颜色分类) A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6, x7}} (形状分类) A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4, x7}} (大小分类)
7.6 基于源于关联规则挖掘概念的分类
• • • • • • 1.基于聚类挖掘关联规则 特点: 特点: 限制条件:ARCS的准确性与离散化程度有关 可扩展性:可 时间:相比之下,C4.5具有指数运行时间 空间:相比之下,C4.5要求整个数据库(乘以某个 因子)全部装入内存
7.6 基于源于关联规则挖掘概念的分类
7.6 基于源于关联规则挖掘概念的分类
• 3.CAEP(通过聚集显露模式分类) • 使用项集支持度 用项集支持度挖掘显露模式(EP)构造分类。 用项集支持度 • 显露模式(EP):是一个项集(项的集合),其支 持度由一个类到另一个类显著增加。两个支持度的 比称作EP的增长率。 • 例如,假定我们有顾客数据集,包含类 buys_computer=“yes”或C1和 buys_computer=“no”或C2。 • 项集{age=“<=30”,students=“no”}是一个典型 的EP,其支持度由在C1中的0.2%增长到在C2中的 57.6%,增长率57.6%/0.2%=288.如果一个新样本X 包含在上面的EP中,我们可以说X属于C2的几率为 57.6%/(0.2+57.6%)=99.6%。
age(X,”34”) ∧ income(X,”30K - 40K”) ⇒ buys(X,”high resolution TV”) (1) age(X,”35”) ∧ income(X,”30K - 40K”) ⇒ buys(X,”high resolution TV”) (2) age(X,”34”) ∧ income(X,”40K - 50K”) ⇒ buys(X,”high resolution TV”) (3) age(X,”35”) ∧ income(X,”40K - 50K”) ⇒ buys(X,”high resolution TV”) (4)
时间:分类时需要很高的计算开销。因此,需要有效 的牵引技术。
பைடு நூலகம்
7.7.1 k-最临近分类 最临近分类
分类: 分类:通过K个“近邻”的训练样本对此未知样本进行分 类。 • 针对连续值,返回计算k个最近邻居的平均值 • 对于离散值,返回最近的k个训练样例的最公共的值
7.7.2 基于案例的推理(case-based 基于案例的推理( 待分类案例 reasoning CBR) )
7.7.3 遗传算法
建初始状态 初始种群是从解中随机选择出来的,将这些解比喻 为染色体或基因,该种群被称为第一代,这和符号人 工智能系统的情况不一样,在那里问题的初始状态已 经给定了。 评估适应度 对每一个解(染色体)指定一个适应度的值,根据问 题求解的实际接近程度来指定(以便逼近求解问题的 答案)。不要把这些“解”与问题的“答案”混为一 谈,可以把它理解成为要得到答案,系统可能需要利 用的那些特性。 繁殖 繁殖(包括子代突变) 带有较高适应度值的那些染色体更可能产生后代 (后代产生后也将发生突变)。后代是父母的产物,他 们由来自父母的基因结合而成,这个过程被称为“杂 交”。
7.6基于源于关联规则挖掘概念的分 基于源于关联规则挖掘概念的分 类 7.7其它分类方法 其它分类方法 -7.7.1 k-最临近分类 最临近分类 -7.7.2基于案例的推理 基于案例的推理 -7.7.3遗传算法 遗传算法 -7.7.4粗糙集方法 粗糙集方法 -7.7.5模糊集方法 模糊集方法
7.7.1 k-最临近分类 最临近分类
7.6基于源于关联规则挖掘概念的分类 7.6基于源于关联规则挖掘概念的分类 7.7其它分类方法 7.7其它分类方法 k-7.7.1 k-最临近分类 7.7.2基于案例的推理 -7.7.2基于案例的推理 7.7.3遗传算法 -7.7.3遗传算法 -7.7.4粗糙集方法 7.7.4粗糙集方法 7.7.5模糊集方法 -7.7.5模糊集方法
7.7.4 粗糙集方法
• 例子:
• 假设有8个积木构成了一个集合A,我们记: A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色 属性,按照颜色的不同,我们能够把这堆积木分成 R1={红,黄,蓝}三个大类,那么所有红颜色的积木 构成集合X1={x1,x2,x6},黄颜色的积木构成集合 X2={x3,x4},蓝颜色的积木是:X3={x5,x7,x8}。按 照颜色这个属性我们就把积木集合A进行了一个划 分(所谓A的划分就是指对于A中的任意一个元素必 然属于且仅属于一个分类),那么我们就说颜色属 性就是一种知识。
7.6 基于源于关联规则挖掘概念的分类
例如: Coundset={a1,a2,a3,a4} 2.关联分类 y=C 挖掘高支持度和高置信度的规则 (1)找出所有频繁的,精确地可能规则(PR)集合 找出所有频繁的, 找出所有频繁的 精确地可能规则( )集合。 算法使用迭代方法,类似于6.2.1小节介绍的Apriori 使用的方法,先验知识用于裁减规则搜索。 (2)使用一种启发式方法构造分类 使用一种启发式方法构造分类。这里,发现的 使用一种启发式方法构造分类 规则根据支持度和置信度按递减的优先次序组织。 (3)对一个新的样本进行分类时,满足该样本的第一 个规则用于对它分类。分类法也包含省缺规则,它具 有最低的优先次序,用来为不被分类法中其它规则满 足的新样本指定一个省缺的类。
训练样本集: 维空间向量 训练样本集:n维空间向量 未知样本:k-最临近分类法搜索n维空间,找出最 未知样本 接近未知样本的k个训练样本。这k个训练样本是未 知样本的k个“近邻”。 搜索方法 欧几里德距离 搜索方法:欧几里德距离 方法 最近的邻居是用欧几里德距离定义的.其中,两个 点X=(x1,x2,...,xn)和Y=(y1,y2,...,yn)的欧几里德距 离是:
7.6 基于源于关联规则挖掘概念的分类
• 基于关联规则分类 基于关联规则分类: (1)关联规则聚类系统(ARCS): 量化关联规 则挖掘和关联规则聚类 • (2)关联分类:它挖掘形如“cond_set=>y”具有高 支持度和高置信度的规则,这里y是一个类标号 • 挖掘关联规则使用的支持度概念分类 挖掘关联规则使用的支持度概念分类: • (3)通过聚集显露模式分类( CAEP ) • 基于最小支持度和增长率挖掘显露模式(Eps)
7.7.5 模糊集方法
• 模糊逻辑使用0.0和 1.0之间的真值表示 一个特定的值是一个 给定类成员的程度, 而不是用类或集合的 精确截断。因而,使 用模糊逻辑,我们可 以断言:在某种程度 上,$49K的收入是高 的,尽管没有$50K的 收入高。
基于案例的推理
找到 NO YES
训练样本集: 符号描述。 训练样本集:CBR存放的样本或“案例”是复杂的符号描述 符号描述 返回类似案例 返回该案例的解 分类: 待分类的案例,基于案例的推理首先检查是否 分类: 存在一个同样的训练案例。如果找到一个,则返回附在该案 例上的解。如果找不到同样的案例,则基于案例的推理将搜 索具有类似于新案例成分的训练案例。概念上讲,这些训练 案例可以视为新案例的邻接者。
7.7.5 模糊集方法
• 基于规则的分类系统有一个缺点:对于连续属性,它 们有陡峭的截断。 • IF(year_employed>=2)∧(income>=50K)THEN credit=“approved”(7.21) • 根据规则(7.21),一个至少工作两年的顾客将得到信 用卡,如果他的收入是$50K;但是,如果他的收入是 $49K,他将得不到。这种苛刻的阈值看来可能不公平。 替换地,可以将模糊逻辑引入系 • 统,允许定义“模糊”阈值或边界。
7.7..2 基于案例的推理(case-based 基于案例的推理( reasoning CBR) )
• 如果案例用图描绘 • 这涉及搜索类似于新案例的子图。基于案例的推理 试图组合临近的训练案例,提出新案例的解。如 • 果解之间出现不相容,可能需要退回搜索其它解。 基于案例的推理可能使用背景知识和问题求解策 • 略,以便提出可行的组合解。 • 基于案例的推理存在的挑战包括找到一个好的相似 矩阵(例如,为匹配子图),开发对训练案 • 例索引的有效技术和组合解的方法。
7.7.3 遗传算法
• 遗传算法(Generation Algorithm GA):基于类似于 生物进化的思想 • 每个规则用一个二进位串表示 • 创建一个由随机产生的规则组成的初始群体 • 例如.,IF A1and Not A2then C2可以用“100” • 编码 根据适者生存的原则,形成由当前群体中最合适的 规则组成的新的群体,以及这些规则的后代规则的适 合度用它对训练本集的分类准确率评估 • 通过交叉和变异来产生后代
7.7.3 遗传算法
下一代 如果新的一代包含一个解,能产生一个充分接近或等 于期望答案的输出,那么问题就已经解决了。如果情况 并非如此,新的一代将重复他们父母所进行的繁衍过程, 一代一代演化下去,直到达到期望的解为止。 并行计算 非常容易将遗传算法用到并行计算和群集环境中。一 种方法是直接把每个节点当成一个并行的种群看待。然 后有机体根据不同的繁殖方法从一个节点迁移到另一个 节点。另一种方法是“农场主/劳工”体系结构,指定 一个节点为“农场主”节点,负责选择有机体和分派适 应度的值,另外的节点作为“劳工”节点,负责重新组 合、变异和适应度函数的评估。
2.关联分类 • 概念: • 挖掘形如condset=>y的规则;其中,condset 是 项(或属性值对)的集合,而y是类标号 • 满足最小支持度的规则是频繁的 频繁的 • 满足最小置信度的规则是精确的 精确的 • 如果一个规则项集具有相同的condset,则选择具 有最高置信度 最高置信度的规则作为可能规则(PR),代表该 可能规则( ) 最高置信度 可能规则 集合
制作者: 制作者:张华 杜玉锋 2012.04.16
7.6基于源于关联规则挖掘概念的分类 基于源于关联规则挖掘概念的分类 7.7其它分类方法 其它分类方法 -7.7.1 k-最临近分类 最临近分类 -7.7.2基于案例的推理 基于案例的推理 -7.7.3遗传算法 遗传算法 -7.7.4粗糙集方法 粗糙集方法 -7.7.5模糊集方法 模糊集方法