广义归纳节点_程冬旭

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– wine(酒) 、confectionery(糖果)
• 下面,再利用web节点,验证此规则的正 确与否。
• Web节点:显示两个或两个以上符号型字 段之间关系的强弱程度。这种图像通过 使用各种不同类型的线条指示联系的强 度来显示关系。
统计分析、数据挖掘与商业智能应用研究小组
案例分析
最粗的三条线 为cannedveg、 frozenmeal、 beer相连而成
if antecedent(前提) then consequent(结果)
– GRI从数据中提取一组规则,找出信息容量最 高的规则。信息容量的度量采用指数衡量,该 指数把规则的普适性(Support)和精确性 (confidence)都考虑在内。
统计分析、数据挖掘与商业智能应用研究小组
Generalized Rule Induction
• 购物篮分析主要的分析对象是发生在同 一时间的事件。
统计分析、数据挖掘与商业智能应用研究小组
关联规则
• 基本概念:
– 支持度(Support) 指在训练集中满足前提条件记录占全部记录的百分 比。
– 可信度(Confidence) 前提条件为真的记录中结论也为真的记录所占的百 分比。
– Example:If B and C then A。则它的可信度是: p(B and C and A)/p(B and C=5%/15%=0.33。
goal attribute G1 goal attribute G2
goal attribute values
v1
v2
F11
F12
F21
F22
统计分析、数据挖掘与商业智能应用研究小组
Generalized Rule Induction
• 算法优点 – maximizes the individual’s predictive accuracy for a given rule antecedent, by design. – a gain in computational efficiency
NOTE:因为这 里只是使用举例, 所以为了结果的 简洁和计算的效 率,采用了如图 所设的参数设定
统计分析、数据挖掘与商业智能应用研究小组
案例分析
图1 clementine的分析输出结果
Maximum number of rules=10<30
Maximum number of antecedents=2
Fish和fruitvg连线也较 明显,但支持度小于 10%,所以没有进入
GRI规则中
其次为wine和 confectionery的连线
统计分析、数据挖掘与商业智能应用研究小组
案例分析
• 案例1——结论: 在摆放货架时,应该把罐装蔬菜、冷冻 肉品和啤酒放在相邻的位置,把酒和糖 果放在一起。
统计分析、数据挖掘与商业智能应用研究小组
统计分析、数据挖掘与商业智能应用研究小组
案例分析
Consequent
结果
Antecedent
前提条件
Rule ID
规则的ID(按照可信度大小排序)
Instances
符合前提条件的样本数量
Support %
支持度(Instances/总样本数量)
Confidence % 可信度
可信度越 高,说明 该条规则 分类预测 准确率越 高,越重 要。
案例分析
• 案例2:寻找购买酒和碳酸饮料的客户特征划 分,从而有针对性的邮寄促销资料
输入变量:客户的个人信息 (sex 、homeown、
income 、age )
输出变量:
wine、softdrink
统计分析、数据挖掘与商业智能应用研究小组
结果如下:
案例分析
Consequent Antecedent
– 持卡者详细的个人信息: • sex 性别 • homeown. 持有信用卡的人是否是有自己的住房 • income 收入 • age 年龄
统计分析、数据挖掘与商业智能应用研究小组
案例分析
– 购物篮内容: • fruitveg 水果蔬菜 • freshmeat 新鲜肉品 • dairy 牛奶 • cannedveg 罐装蔬菜 • cannedmeat 罐装肉品 • frozenmeal 冷冻肉品 • beer 啤酒 • wine 酒 • softdrink 苏打饮料 • fish 鱼 • confectionery 糖果
Rule Support %
同时符合前提条件和结果的样本数量 (instance*confidence/总样本数量)
统计分析、数据挖掘与商业智能应用研究小组
案例分析
• 符合分析条件的购物篮内容关联规则如下:
cannedveg and frozenmeal
frozenmeal
beer
Cannedveg
统计分析、数据挖掘与商业智能应用研究小组
Generalized Rule Induction
• 与 Apriori对比
– GRI节点可以处理多重输出字段。与Apriori 节点不同,GRI节点既能处理字符型输入字 段又能处理数值型输入字段。
– 对于大型问题,Apriori通常比GRI训练得快。 Apriori对可保留规则数量没有专门的限制, 可以处理有多达32个前提的规则。Apriori提 供五种训练方法,在使数据采矿方法配合可 能出现的问题方面有更大的灵活性。
• Maximum number of rules 保留在规则集中的规则数,即结果中consequent的数目。 规则按照重要性(由GRI算法计算出)递减的顺序排列。 规则集所含规则数可能会比指定的要少,特别是在使用严 格的信赖准则或支援准则时。
• Only true values for flags(二分变数只有真值): 如果选择了该选项,只有真值会出现在最终的规则中
统计分析、数据挖掘与商业智能应用研究小组
Generalized Rule Induction
• For example:suppose that predictive accuracy maximization is achieved by selecting the maximum value Fij in the table. Suppose also that the maximum frequency value is F12. Then the GA will choose the goal attribute G1 and its value V2 to make up the rule consequent “G1 = V2”.
• 要求: 输出变量:定类型、一个或多个 输入变量:定类或定距、一个或多个
统计分析、数据挖掘与商业智能应用研究小组
Generalized Rule Induction
• 算法步骤
1
crossover and mutation operators are applied only to an individual’s rueer Frozenmeal
cannedveg
Beer
cannedveg cannedveg and beer
frozenmeal
wine
confectionery
统计分析、数据挖掘与商业智能应用研究小组
案例分析
• 可以看到,基本可以分为两类:
– cannedveg(罐装蔬菜 )、frozenmeal(冷冻 肉品)、 beer(啤酒)
• 缺点: -花费的计算时间长 -难以决定正确的数据 -容易忽略稀有的数据
统计分析、数据挖掘与商业智能应用研究小组
概念
要求
2. GRI
算法步骤
与 Apriori对比
统计分析、数据挖掘与商业智能应用研究小组
Generalized Rule Induction
• 概念:
– 广义规则归纳 – 目的:发现数据间的关联规则 – 关联规则语句形式为:
提出
定义
1.关 联 规 则
基本概念
优缺点
统计分析、数据挖掘与商业智能应用研究小组
关联规则
• 提出 Agrawal等于1993年首先提出了挖掘顾客 交易数据库中项集间的关联规则问题, 以后诸多的研究人员对关联规则的挖掘 问题进行了大量的研究。
统计分析、数据挖掘与商业智能应用研究小组
关联规则
• 定义:关联规则是发现交易数据库中不 同商品(项)之间的联系,这些规则找 出顾客购买行为模式,如购买了某一商 品对购买其它商品的影响。发现这样的 规则可以应用于商品货架设计、货存安 排以及根据购买模式对用户进行分类。
Note: 关联规则问题就是产生支持度和可信度分别大于用 户给定的最小支持度(minsupp)和最小可信度(minconf) 的关联规则。
统计分析、数据挖掘与商业智能应用研究小组
关联规则
• 优点: -寻找出多条规则,而每条规则都可得出一个不同的结论 -产生清晰有用的结果 -支持间接数据挖掘 -可以处理变长的数据 -计算的消耗量可以预见 -规则集比决策树更可能具有一般性
统计分析、数据挖掘与商业智能应用研究小组
案例分析
• 考察的案例: 1.探寻不同购买物品之间的联系,为货
架的摆放提供依据 2.探寻购买不同商品(以酒和饮料为例)
的顾客的特征,确定促销信息发放的 对象
统计分析、数据挖掘与商业智能应用研究小组
案例分析
• 案例1: • 输入变量(in):所有购物篮内容 • 输出变量(out):所有购物篮内容
Instances
Support %
Confidence Rule % Support %
Generalized Rule Induction
Of clementine11.0
报告人:程冬旭 指导老师:谢邦昌 日期:2007年11月6日
统计分析、数据挖掘与商业智能应用研究小组
1.关联规则 2. GRI 3. GRI in Clementine 11.0 4. 案例分析
目录
统计分析、数据挖掘与商业智能应用研究小组
统计分析、数据挖掘与商业智能应用研究小组
数据情况
案例1
4. 案例分析
案例2
结论
统计分析、数据挖掘与商业智能应用研究小组
案例分析
• 数据情况:
– 来源:BASKETS1n
• 变量:
– 购物篮概貌: • cardid. 该购物篮用户的VIP卡卡号 • value. 该购物篮付款总额. • pmethod. 该购物篮付款方法.(card/cash/cheque)
• Minimum antecedent support (%) 最小的条件支持度
• Minimum rule confidence (%) 最小的可信度 只有支持度和可信度大于上述两个的最小值时,该 规则才成立
统计分析、数据挖掘与商业智能应用研究小组
GRI in Clementine
• Maximum number of antecedents 指定规则的最大前提条件数(即antecedent里条件的个数)。 这是限制规则复杂程度的一种方法。如果规则过于复杂或 者过于具体,或计算时间过长,可以尝试降低该项设置。
统计分析、数据挖掘与商业智能应用研究小组
GRI in Clementine
可以使用type节点定 义的输出和输入变量, 也可以另外自己选择 输入、输出变量。
统计分析、数据挖掘与商业智能应用研究小组
GRI in Clementine
生成的节点的 名字:可以为 默认的名称 (以输出变量 为名),也可 以自定义
统计分析、数据挖掘与商业智能应用研究小组
GRI in Clementine
3. GRI in Clementine 11.0
统计分析、数据挖掘与商业智能应用研究小组
GRI in Clementine
• Model name 节点和模型的名字
• Use partitioned data 如果用户定义了分割数据集,选择训练集作为建模 数据集,并利用测试集对模型评价。
2
the just-produced rule antecedent of an offspring individual is matched against all the tuples of the database, to compute statistics.
3
Select <goal attribute, goal attribute value> whose frequency Fij maximizes the predictive accuracy of the rule.
相关文档
最新文档