数据挖掘-基于关联的分类方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因子)全部装入内存
7.6 基于源于关联规则挖掘概念的分类
2.关联分类 • 概念: • 挖掘形如condset=>y的规则;其中,condset 是
项(或属性值对)的集合,而y是类标号 • 满足最小支持度的规则是频繁的 • 满足最小置信度的规则是精确的 • 如果一个规则项集具有相同的condset,则选择具
7.6 基于源于关联规则挖掘概念的分类
• 3.CAEP(通过聚集显露模式分类)
• CAEP如何使用EP建立分类法?
• 在对一个新样本X分类时,对于每个类C,对出现在X 中的类C的EP的区分能力聚集,得到C的得分,然后 对得分规格化。具有最大规格化得分的类决定X的类 标号。
7.6基于源于关联规则挖掘概念的分 类
分类:
待分类的案例,基于案例的推理首先检查是否
存在一个同样的训练案例。如果找到一个,则返回附在该案
例上的解。如果找不到同样的案例,则基于案例的推理将搜
索具有类似于新案例成分的训练案例。概念上讲,这些训练
案例可以视为新案例的邻接者。
7.7..2 基于案例的推理(case-based reasoning CBR)
age(X,”35”) income(X,”40K - 50K”) buys(X,”high resolution TV”) (4)
7.6 基于源于关联规则挖掘概念的分类
• 1.基于聚类挖掘关联规则 • 特点: • 限制条件:ARCS的准确性与离散化程度有关 • 可扩展性:可 • 时间:相比之下,C4.5具有指数运行时间 • 空间:相比之下,C4.5要求整个数据库(乘以某个
非常容易将遗传算法用到并行计算和群集环境中。一 种方法是直接把每个节点当成一个并行的种群看待。然 后有机体根据不同的繁殖方法从一个节点迁移到另一个 节点。另一种方法是“农场主/劳工”体系结构,指定 一个节点为“农场主”节点,负责选择有机体和分派适 应度的值,另外的节点作为“劳工”节点,负责重新组 合、变异和适应度函数的评估。
7.7.5 模糊集方法
• 基于规则的分类系统有一个缺点:对于连续属性,它 们有陡峭的截断。
• IF(year_employed>=2)∧(income>=50K)THEN credit=“approved”(7.21)
• 根据规则(7.21),一个至少工作两年的顾客将得到信 用卡,如果他的收入是$50K;但是,如果他的收入是 $49K,他将得不到。这种苛刻的阈值看来可能不公平 。替换地,可以将模糊逻辑引入系
• 统,允许定义“模糊”阈值或边界。
7.7.5 模糊集方法
• 模糊逻辑使用0.0和 1.0之间的真值表示 一个特定的值是一个 给定类成员的程度, 而不是用类或集合的 精确截断。因而,使 用模糊逻辑,我们可 以断言:在某种程度 上,$49K的收入是高 的,尽管没有$50K的 收入高。
7.7.5 模糊集方法
7.7.4 粗糙集方法
• 一种对集合A的划分就对应着关于A中元素的 一个知识,假如还有其他的属性,比如还有 形状R2={三角,方块,圆形},大小R3={大,中, 小},这样加上R1属性对A构成的划分分别为 : A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7, x8}} (颜色分类) A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6, x7}} (形状分类) A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4, x7}} (大小分类)
将属性值转换成模糊值。图7.14展示 如何将连续属性income的值映射到离 散分类{low,mediu,high}上,以及如 何计算模糊成员关系或真值。通常, 模糊逻辑系统在这一步提供图形工具 ,支持用户。 对于给定的新样本,可以使用多个模 糊规则。每个可用规则为分类的成员 关系贡献一票。通常对每个预测分类 的真值进行求和。组合上面得到的和 ,得到一个系统返回的值。这一过程 可以这样做:用每个分类的真值和加 权并乘以每个分类的平均真值。所涉 及的计算可能更复杂,这取决于模糊 成员关系图的复杂性。
繁殖(包括子代突变) 带有较高适应度值的那些染色体更可能产生后代( 后代产生后也将发生突变)。后代是父母的产物,他 们由来自父母的基因结合而成,这个过程被称为“杂 交”。
7.7.3 遗传算法
下一代 如果新的一代包含一个解,能产生一个充分接近或等
于期望答案的输出,那么问题就已经解决了。如果情况 并非如此,新的一代将重复他们父母所进行的繁衍过程 ,一代一代演化下去,直到达到期望的解为止。 并行计算
有最高置信度的规则作为可能规则(PR),代表该 集合
7.6 基于源于关联规则挖掘概念的分类
例如:
2挖.关掘联高支分持类度和高置Cyo信=uC度nd的se规t=则{a1,a2,a3,a4}
(1)找出所有频繁的,精确地可能规则(PR)集合。 算法使用迭代方法,类似于6.2.1小节介绍的Apriori 使用的方法,先验知识用于裁减规则搜索。 (2)使用一种启发式方法构造分类。这里,发现的 规则根据支持度和置信度按递减的优先次序组织。
7.7.3 遗传算法
• 遗传算法(Generation Algorithm GA):基于类似于 生物进化的思想
• 每个规则用一个二进位串表示 • 创建一个由随机产生的规则组成的初始群体 • 例如.,IF A1and Not A2then C2可以用“100” • 编码
根据适者生存的原则,形成由当前群体中最合适的 规则组成的新的群体,以及这些规则的后代规则的适 合度用它对训练本集的分类准确率评估 • 通过交叉和变异来产生后代
• 显露模式(EP):是一个项集(项的集合),其支 持度由一个类到另一个类显著增加。两个支持度的 比称作EP的增长率。
• 例如,假定我们有顾客数据集,包含类 buys_computer=“yes”或C1和 buys_computer=“no”或C2。
• 项集{age=“<=30”,students=“no”}是一个典型 的EP,其支持度由在C1中的0.2%增长到在C2中的 57.6%,增长率57.6%/0.2%=288.如果一个新样本X 包含在上面的EP中,我们可以说X属于C2的几率为 57.6%/(0.2+57.6%)=99.6%。
age(X,”35”) income(X,”30K - 40K”) buys(X,”high resolution TV”) (2)
age(X,”34”) income(X,”40K - 50K”) buys(X,”high resolution TV”) (3)
age(X,”34-35”) income(X,”30K - 50K”) buys(X,”high resolution TV”) (5)
2020/8/3
2020/8/3
7.6 基于源于关联规则挖掘概念的分类
• 基于关联规则分类: (1)关联规则聚类系统(ARCS): 量化关联规 则挖掘和关联规则聚类
• (2)关联分类:它挖掘形如“cond_set=>y”具有高 支持度和高置信度的规则,这里y是一个类标号
• 挖掘关联规则使用的支持度概念分类: • (3)通过聚集显露模式分类( CAEP ) • 基于最小支持度和增长率挖掘显露模式(Eps)
• 如果案例用图描绘 • 这涉及搜索类似于新案例的子图。基于案例的推理
试图组合临近的训练案例,提出新案例的解。如
• 果解之间出现不相容,可能需要退回搜索其它解。 基于案例的推理可能使用背景知识和问题求解策
• 略,以便提出可行的组合解。 • 基于案例的推理存在的挑战包括找到一个好的相似
矩阵(例如,为匹配子图),开发对训练案 • 例索引的有效技术和组合解的方法。
7.7.4 粗糙集方法
• 选择了“蓝色的大方块或 者蓝色的小圆形”这个概 念:{x5,x7}作为X的下近 似。选择“三角形或者蓝 色的”{x1,x2,x5,x7,x8}作 为它的上近似,值得注意 的是,下近似集是在那些 所有的包含于X的知识库 中的集合中求并得到的, 而上近似则是将那些包含 X的知识库中的集合求交 得到的。
7.6 基于源于关联规则挖掘概念的分类
• 1.基于聚类挖掘关联规则(ARCS)
• (1)ARCS挖掘形如Aquant1∧Aquant2=>Acat的 关联规则
• (2)用ARCS产生的聚类关联规则用于分类
age(X,”34”) income(X,”30K - 40K”) buys(X,”high resolution TV”) (1)
7.7.3 遗传算法
建初始状态 初始种群是从解中随机选择出来的,将这些解比喻
为染色体或基因,该种群被称为第一代,这和符号人 工智能系统的情况不一样,在那里问题的初始状态已 经给定了。 评估适应度
对每一个解(染色体)指定一个适应度的值,根据问 题求解的实际接近程度来指定(以便逼近求解问题的 答案)。不要把这些“解”与问题的“答案”混为一 谈,可以把它理解成为要得到答案,系统可能需要利 用的那些特性。 繁殖
(3)对一个新的样本进行分类时,满足该样本的第一 个规则用于对它分类。分类法也包含省缺规则,它具 有最低的优先次序,用来为不被分类法中其它规则满 足的新样本指定一个省缺的类。
7.6 基于源于关联规则挖掘概念的分类
• 3.CAEP(通过聚集显露模式分类) • 使用项集支持度挖掘显露模式(EP)构造分类。
搜索方法:欧几里德距离 最近的邻居是用欧几里德距离定义的.其中,两个 点X=(x1,x2,...,xn)和Y=(y1,y2,...,yn)的欧几里德距 离是:
时间:分类时需要很高的计算开销。因此,需要有效 的牵引技术。
7.7.1 k-最临近分类
分类:通过K个“近邻”的训练样本对此未知样本进行分 类。
7.7其它分类方法 -7.7.1 k-最临近分类 -7.7.2基于案例的推理 -7.7.3遗传算法 -7.7.4粗糙集方法 -7.7.5模糊集方法
7.7.1 k-最临近分类
训练样本集:n维空间向量
未知样本:k-最临近分类法搜索n维空间,找出最 接近未知样本的k个训练样本。这k个训练样本是未 知样本的k个“近邻”。
• 针对连续值,返回计算k个最近邻居的平均值 • 对于离散值,返回最近的k个训练样例的最公共的值
2020/8/3
7.7.2 基于案例的推理(case-based
reasoning CBR)
待分类案例
基于案例的推理
找到
Baidu Nhomakorabea
NO YES
训练样本集:CBR存放的样本或返回“类案似例案例”是复返杂回的该案符例号的描解 述。
7.7.4 粗糙集方法
• 例子:
• 假设有8个积木构成了一个集合A,我们记: A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色 属性,按照颜色的不同,我们能够把这堆积木分成 R1={红,黄,蓝}三个大类,那么所有红颜色的积木 构成集合X1={x1,x2,x6},黄颜色的积木构成集合 X2={x3,x4},蓝颜色的积木是:X3={x5,x7,x8}。按 照颜色这个属性我们就把积木集合A进行了一个划 分(所谓A的划分就是指对于A中的任意一个元素必 然属于且仅属于一个分类),那么我们就说颜色属 性就是一种知识。
7.6 基于源于关联规则挖掘概念的分类
2.关联分类 • 概念: • 挖掘形如condset=>y的规则;其中,condset 是
项(或属性值对)的集合,而y是类标号 • 满足最小支持度的规则是频繁的 • 满足最小置信度的规则是精确的 • 如果一个规则项集具有相同的condset,则选择具
7.6 基于源于关联规则挖掘概念的分类
• 3.CAEP(通过聚集显露模式分类)
• CAEP如何使用EP建立分类法?
• 在对一个新样本X分类时,对于每个类C,对出现在X 中的类C的EP的区分能力聚集,得到C的得分,然后 对得分规格化。具有最大规格化得分的类决定X的类 标号。
7.6基于源于关联规则挖掘概念的分 类
分类:
待分类的案例,基于案例的推理首先检查是否
存在一个同样的训练案例。如果找到一个,则返回附在该案
例上的解。如果找不到同样的案例,则基于案例的推理将搜
索具有类似于新案例成分的训练案例。概念上讲,这些训练
案例可以视为新案例的邻接者。
7.7..2 基于案例的推理(case-based reasoning CBR)
age(X,”35”) income(X,”40K - 50K”) buys(X,”high resolution TV”) (4)
7.6 基于源于关联规则挖掘概念的分类
• 1.基于聚类挖掘关联规则 • 特点: • 限制条件:ARCS的准确性与离散化程度有关 • 可扩展性:可 • 时间:相比之下,C4.5具有指数运行时间 • 空间:相比之下,C4.5要求整个数据库(乘以某个
非常容易将遗传算法用到并行计算和群集环境中。一 种方法是直接把每个节点当成一个并行的种群看待。然 后有机体根据不同的繁殖方法从一个节点迁移到另一个 节点。另一种方法是“农场主/劳工”体系结构,指定 一个节点为“农场主”节点,负责选择有机体和分派适 应度的值,另外的节点作为“劳工”节点,负责重新组 合、变异和适应度函数的评估。
7.7.5 模糊集方法
• 基于规则的分类系统有一个缺点:对于连续属性,它 们有陡峭的截断。
• IF(year_employed>=2)∧(income>=50K)THEN credit=“approved”(7.21)
• 根据规则(7.21),一个至少工作两年的顾客将得到信 用卡,如果他的收入是$50K;但是,如果他的收入是 $49K,他将得不到。这种苛刻的阈值看来可能不公平 。替换地,可以将模糊逻辑引入系
• 统,允许定义“模糊”阈值或边界。
7.7.5 模糊集方法
• 模糊逻辑使用0.0和 1.0之间的真值表示 一个特定的值是一个 给定类成员的程度, 而不是用类或集合的 精确截断。因而,使 用模糊逻辑,我们可 以断言:在某种程度 上,$49K的收入是高 的,尽管没有$50K的 收入高。
7.7.5 模糊集方法
7.7.4 粗糙集方法
• 一种对集合A的划分就对应着关于A中元素的 一个知识,假如还有其他的属性,比如还有 形状R2={三角,方块,圆形},大小R3={大,中, 小},这样加上R1属性对A构成的划分分别为 : A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7, x8}} (颜色分类) A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6, x7}} (形状分类) A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4, x7}} (大小分类)
将属性值转换成模糊值。图7.14展示 如何将连续属性income的值映射到离 散分类{low,mediu,high}上,以及如 何计算模糊成员关系或真值。通常, 模糊逻辑系统在这一步提供图形工具 ,支持用户。 对于给定的新样本,可以使用多个模 糊规则。每个可用规则为分类的成员 关系贡献一票。通常对每个预测分类 的真值进行求和。组合上面得到的和 ,得到一个系统返回的值。这一过程 可以这样做:用每个分类的真值和加 权并乘以每个分类的平均真值。所涉 及的计算可能更复杂,这取决于模糊 成员关系图的复杂性。
繁殖(包括子代突变) 带有较高适应度值的那些染色体更可能产生后代( 后代产生后也将发生突变)。后代是父母的产物,他 们由来自父母的基因结合而成,这个过程被称为“杂 交”。
7.7.3 遗传算法
下一代 如果新的一代包含一个解,能产生一个充分接近或等
于期望答案的输出,那么问题就已经解决了。如果情况 并非如此,新的一代将重复他们父母所进行的繁衍过程 ,一代一代演化下去,直到达到期望的解为止。 并行计算
有最高置信度的规则作为可能规则(PR),代表该 集合
7.6 基于源于关联规则挖掘概念的分类
例如:
2挖.关掘联高支分持类度和高置Cyo信=uC度nd的se规t=则{a1,a2,a3,a4}
(1)找出所有频繁的,精确地可能规则(PR)集合。 算法使用迭代方法,类似于6.2.1小节介绍的Apriori 使用的方法,先验知识用于裁减规则搜索。 (2)使用一种启发式方法构造分类。这里,发现的 规则根据支持度和置信度按递减的优先次序组织。
7.7.3 遗传算法
• 遗传算法(Generation Algorithm GA):基于类似于 生物进化的思想
• 每个规则用一个二进位串表示 • 创建一个由随机产生的规则组成的初始群体 • 例如.,IF A1and Not A2then C2可以用“100” • 编码
根据适者生存的原则,形成由当前群体中最合适的 规则组成的新的群体,以及这些规则的后代规则的适 合度用它对训练本集的分类准确率评估 • 通过交叉和变异来产生后代
• 显露模式(EP):是一个项集(项的集合),其支 持度由一个类到另一个类显著增加。两个支持度的 比称作EP的增长率。
• 例如,假定我们有顾客数据集,包含类 buys_computer=“yes”或C1和 buys_computer=“no”或C2。
• 项集{age=“<=30”,students=“no”}是一个典型 的EP,其支持度由在C1中的0.2%增长到在C2中的 57.6%,增长率57.6%/0.2%=288.如果一个新样本X 包含在上面的EP中,我们可以说X属于C2的几率为 57.6%/(0.2+57.6%)=99.6%。
age(X,”35”) income(X,”30K - 40K”) buys(X,”high resolution TV”) (2)
age(X,”34”) income(X,”40K - 50K”) buys(X,”high resolution TV”) (3)
age(X,”34-35”) income(X,”30K - 50K”) buys(X,”high resolution TV”) (5)
2020/8/3
2020/8/3
7.6 基于源于关联规则挖掘概念的分类
• 基于关联规则分类: (1)关联规则聚类系统(ARCS): 量化关联规 则挖掘和关联规则聚类
• (2)关联分类:它挖掘形如“cond_set=>y”具有高 支持度和高置信度的规则,这里y是一个类标号
• 挖掘关联规则使用的支持度概念分类: • (3)通过聚集显露模式分类( CAEP ) • 基于最小支持度和增长率挖掘显露模式(Eps)
• 如果案例用图描绘 • 这涉及搜索类似于新案例的子图。基于案例的推理
试图组合临近的训练案例,提出新案例的解。如
• 果解之间出现不相容,可能需要退回搜索其它解。 基于案例的推理可能使用背景知识和问题求解策
• 略,以便提出可行的组合解。 • 基于案例的推理存在的挑战包括找到一个好的相似
矩阵(例如,为匹配子图),开发对训练案 • 例索引的有效技术和组合解的方法。
7.7.4 粗糙集方法
• 选择了“蓝色的大方块或 者蓝色的小圆形”这个概 念:{x5,x7}作为X的下近 似。选择“三角形或者蓝 色的”{x1,x2,x5,x7,x8}作 为它的上近似,值得注意 的是,下近似集是在那些 所有的包含于X的知识库 中的集合中求并得到的, 而上近似则是将那些包含 X的知识库中的集合求交 得到的。
7.6 基于源于关联规则挖掘概念的分类
• 1.基于聚类挖掘关联规则(ARCS)
• (1)ARCS挖掘形如Aquant1∧Aquant2=>Acat的 关联规则
• (2)用ARCS产生的聚类关联规则用于分类
age(X,”34”) income(X,”30K - 40K”) buys(X,”high resolution TV”) (1)
7.7.3 遗传算法
建初始状态 初始种群是从解中随机选择出来的,将这些解比喻
为染色体或基因,该种群被称为第一代,这和符号人 工智能系统的情况不一样,在那里问题的初始状态已 经给定了。 评估适应度
对每一个解(染色体)指定一个适应度的值,根据问 题求解的实际接近程度来指定(以便逼近求解问题的 答案)。不要把这些“解”与问题的“答案”混为一 谈,可以把它理解成为要得到答案,系统可能需要利 用的那些特性。 繁殖
(3)对一个新的样本进行分类时,满足该样本的第一 个规则用于对它分类。分类法也包含省缺规则,它具 有最低的优先次序,用来为不被分类法中其它规则满 足的新样本指定一个省缺的类。
7.6 基于源于关联规则挖掘概念的分类
• 3.CAEP(通过聚集显露模式分类) • 使用项集支持度挖掘显露模式(EP)构造分类。
搜索方法:欧几里德距离 最近的邻居是用欧几里德距离定义的.其中,两个 点X=(x1,x2,...,xn)和Y=(y1,y2,...,yn)的欧几里德距 离是:
时间:分类时需要很高的计算开销。因此,需要有效 的牵引技术。
7.7.1 k-最临近分类
分类:通过K个“近邻”的训练样本对此未知样本进行分 类。
7.7其它分类方法 -7.7.1 k-最临近分类 -7.7.2基于案例的推理 -7.7.3遗传算法 -7.7.4粗糙集方法 -7.7.5模糊集方法
7.7.1 k-最临近分类
训练样本集:n维空间向量
未知样本:k-最临近分类法搜索n维空间,找出最 接近未知样本的k个训练样本。这k个训练样本是未 知样本的k个“近邻”。
• 针对连续值,返回计算k个最近邻居的平均值 • 对于离散值,返回最近的k个训练样例的最公共的值
2020/8/3
7.7.2 基于案例的推理(case-based
reasoning CBR)
待分类案例
基于案例的推理
找到
Baidu Nhomakorabea
NO YES
训练样本集:CBR存放的样本或返回“类案似例案例”是复返杂回的该案符例号的描解 述。
7.7.4 粗糙集方法
• 例子:
• 假设有8个积木构成了一个集合A,我们记: A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色 属性,按照颜色的不同,我们能够把这堆积木分成 R1={红,黄,蓝}三个大类,那么所有红颜色的积木 构成集合X1={x1,x2,x6},黄颜色的积木构成集合 X2={x3,x4},蓝颜色的积木是:X3={x5,x7,x8}。按 照颜色这个属性我们就把积木集合A进行了一个划 分(所谓A的划分就是指对于A中的任意一个元素必 然属于且仅属于一个分类),那么我们就说颜色属 性就是一种知识。