第五讲 关联规则实验解释及决策树(2013)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• • 挖掘的结论易于理解
• • 初始状态是一个大的空间,挖掘的过程是 递 归分区 – 不断分割
案例
• 我们有大量的会员 • – 年龄在 20 – 60 岁 • – 月薪在 0 – 8000 元 • • 55% 的被我们认可为忠实会员(好会员) • • 里面潜在的规律是什么?
谁是我们的忠实会员?
• 不能只以购物事务表作为事例表 • 只有一个购物事务表,因Linenumber不能
当主键(有重复),而其又代表同一次购 买行为中购买的不同商品。最适合做嵌套 表中的主键 • ordernumber也有重复
• 结果集只有一个项
• 按实验要求,将顾客情况与购物事务表当 做事例表与嵌套表一起操作,如下表
300 100
IQ=Medium

500 1000
低有
200 700 900 400
IQ=Low
1800 1600 1400 1200 1000
800 600 400 200
0
PI=low
1200 1000
800 600 400 200
0

300 1600
高低 男女
400 600 500 500
400 1600 110 900 0
• 事例表中ordernumber为主键,嵌套表中 Linenumber为主键,model为predict列。
4种不同类型的列
• 键列 • 输入列 • 可预测列(predictonly) • 输入与可预测列(predict) • 对于大多数的数据挖掘模型使用一组输入
列来预测输出列,有一些算法(如聚类算 法)不需要可预测列。
4
• 事例表主键:唯一确定每个事例的属性 ordernumber
• 嵌套键:嵌套键和外键不一样,嵌套键十 分重要,在嵌套部分,其他属性用于描述 嵌套键。嵌套键不是一个标识符,它包含 有关模式的有用信息。经常用PRODUCT作 为嵌套键。
• 本例中用linenumber,可以表示不同的商品。
分析单一购物篮
一些有用的信息,进而可以在最终模型中减少列 的数量。要注意,通过这个功能进行分析时,只 对事例级列起作用,而且不能保证选择的列会对 目标变量有影响,没有选择的列不会对目标变量 产生影响
关于数据类型

下一步,在向导中将会列出已经选择的列
和这些列的数据类型及内容类型,如图4-14所示。
指定合适的内容类型对模型的性能和精确度是至
算它们的间隔。此时就会得到古怪的逻辑,比如 绿色(4)-红色(3)=蓝色(1)!

数据挖掘向导有能力自动检测出一个数值列
是分类类型(离散)的列还是连续型的列。在向导
的“指定列的内容和数据类型”页中,单击“检
测”按钮,该向导就会采样和分析源数据,并且
选择一种合适的内容类型。
• 如果选择了连续的内容类型,但是所选择的算 法不支持连续的列,则内容类型将会被指定为 DISCRETIZED。在设计器中,可以设置离散化 参数,在进入向导的下一步之前,应该确保为每
一列都指定了正确的内容类型,如果还没有正确 指定,则应该修改。
决策树
分类(Classification)
•分类的意义
数据库
分类模型
预测
了解类别属性 与 特征
Decision Tree决策树
• 决策树是用二叉树形图来表示处理逻辑的一种工 具,是对数据进行分类的方法。决策树的目标是 针对类别因变量加以预测或解释反应结果。
关重要的。
• 例如,如果有一个字段(比如Income)标记为 DISCRETE,则算法将会假定每一个可能的 Income值是完全不同的类别,并且可能花费额外 的时间进行处理,而无法得到真正有用的信息。
相反,如果有一个分类类型的列,分类由标记为 CONTINUOUS的整型指定(例如,1-蓝色,2- 黄色,3-红色,4-绿色,等等),数据挖掘算法 将会假定:可以对这些分类进行数学比较,并计
单维挖掘
结果如下图
多维挖掘:添加收入和地区为输入 列,model为输入及预测列

如果表有很多列,则很难知道选择哪些列
作为输入列。通常可以使用所有列,但是这会导
致额外的处理开销,而且,根据具体的算法,也
可能会使最终模型很难理解。
• 单击向导的“指定定型数据(Specify the Training Data)”页面中的“建议(Suggest)”按钮 将会执行一个基于熵(entropy-based)的快速分析, 它可以指出哪些列对于所选择的输出列可以提供
• 主要有两个步骤:首先,通过一批已知的样本数 据建立一棵决策树;然后,利用建好的决策树, 对数据进行预测。
• 决策树的建立过程可以看成是数据规则的生成过 程,因此,决策树实现了数据规则的可视化,其 输出结果也容易理解。
2020/5/18
24
• 可以预测离散的,或者连续的数值
• • 把已知条件(不论是离散还是连续)自动 分 解为多个离散的类别。
帮助高中生进入大学的主要因素 都有哪些?
决策树的工作方式
IQ
父母的鼓励
家庭收入 性别
进入大 是


1000 900 800 700 600 500 400 300 200 100 0
IQ=High
1800 1600 1400 1200 1000
800 600 400 200
0
PI=High

事例表与嵌套表
• 事例表包含要分析的实体的事例,嵌套 表包含每一事例附加的信息(通常是事务信 息)。
• 事例表是维度表,嵌套表是事实表

购买事务表(VassocseqlineItem)
嵌套表示例
Vassocorder(示例表)
Vassoclineitem(嵌套表)
custID C0001
C0002 C0004
Gender Incom region e

高 北美

中 北美

高 中部
嵌套表内容
ordernu mber
S0001
S0021 S0055 S0007
linenu mber
1 2 3 1 2 1 2 1 2
productn quanti
ame
ty
牛奶
2
面包
3
啤酒
3
蛋糕
5
果汁
2
奶酪
10
面包
3
面包
2
果汁
PE=TRUE
PE=FALSE
Male
Female
是 否
帮助高中生进入大学的决定性因素是…
IQ=高பைடு நூலகம்
进入大学: 79% 是 21% 否
Wealth
所有学生
进入大学: 55% 是 45% 否
IQ ?
IQ=低
相关文档
最新文档