SPSS-Modeler培训(3)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
J 度量:统计学,在置信度或概率的基础上
潜在规则形式 Y=y X=x
J 定义为 J = p(x)[( p( y | x)log p( y | x) (1 p( y | x)log (1 p( y | x)) ]
p( y)
(1 p( y))
连续前提专门化:
C=c A<35 和B=b C=c A<35 和 B=b 和 A<26
设定修剪值,默认 500
减少降低内存需求,潜在 增加训练时间
对规则结果影响很小
改变支持度提高效率
支持度大于用户提供值时 减少到设定
2020/1/10
15
关联规则模型比较
设定
Apriori
规则选择方式 五种可选类型
考虑字段方向 是
规则数
没有最大
前提支持数
0 到 100%
规则支持度
使用大数据集时,推荐使用一个代表性的样本来决定合适的 支持度和置信度
Carma 算法除外
2020/1/10
6
Apriori 、GRI 和 Carma 比较
Apriori 只能标记和集合字段
对于同样的数据集,比 GRI 快速和有效 最小支持度,最小规则置信度和最大规则前提数 默认值分别为 10%,80% 和 5
无限制
X = {牛奶,奶酪,面包} Y = {牛奶,奶酪} Z = {牛奶,奶酪,面包,糖} 周期性修剪元素集网格,移除低支持度的小元素集
第二步计算精确频率并生成规则
2020/1/10
14
高级选项
排除具有多重结果规则
为了节约内存,Carma 算法周期性移除或修剪很 少发生的元素集
论
关联规则算法的缺点在于,它试图在一个可能庞大的搜索空 间中寻找模型,因此会比规则归纳算法花费更多的时间
关联规则所产生的规则并不能直接用于预测
2020/1/10
5
关联规则
结论 条件1 & 条件2 & … & 条件n 条件也就是规则的前提,结论就是规则的结果
评估关联规则的三个准则: 支持度,记录中符合前提的比例 规则支持度,记录中同时符合前提和结果的比例 置信度,符合前提的记录中符合结果所占的比例
其它评估度量:
置信度差,置信度比率,信息差和标准化卡方
2020/1/10
8
置信度差
置信度差:置信度与先验置信度之间绝对差
先验置信度:空规则的置信度,也就是结果的频率
规则选择条件:置信度差>评估度量下界
评估度量下界默认10%
先验置信度低时使用
可以发现负规则
购买奶酪先验置信度 40% 购买水果→购买奶酪,20% 置信度
GRI 允许连续字段作为前提,结论只能为离散型
比 Apriori 使用范围广泛 最小支持度,最小规则置信度,最大规则前提数和最大规则数 默认值分别为 0%,50% ,3 和 100
Carma 只能使用字符(标记)
最小规则支持度,最小规则置信度和最大规则规模
默认值分别为 20%,20% 和 10
2020/1/10
9
置信度率
置信度比率:1 减去置信度与先验置信度的比率 (如果比率>1,则取其倒数)
规则选择条件:置信度比率>比率下界
置信度<先验置信度(1-评估度量下界) 先验置信度<置信度(1-评估度量下界)
能够发现稀有规则和负规则
对于低先验置信度的规则和高先验置信度的负 规则是有偏的
SPSS Modeler培训(3)
培训内容
第一章 关联分析技术介绍 第二章 模型评估技术 第三章 SPSS Modeler自动建模技术 第四章 SPSS Modeler脚本自动化简介
2020/1/10
2
关联分析内容
回顾三个关联规则节点( Apriori,GRI 和 Carma)的选项
允许有多重结果
2020/1/10
7
是否重要规则?
怀孕→女性,100% 置信度
顾客购买奶酪比例40%
购买水果→购买奶酪,43%置信度
没有重要影响
购买水果→购买奶酪,15%置信度
零售商感兴趣,替代品
购买水果→购买奶酪,20%置信度
购买水果→不购买奶酪, 80%置信度 负关联
缺点:不直观,可能需要试验不同的度量下界 以找到满意规则
2020/1/10
11
注意
评估度量中的支持度和置信度
支持度和置信度阙值仍然有用 只使用评估度量时设置阙值为0 取消选择对标记只分析真值发现负规则
数据格式:
表格型数据 交易型数据
2020/1/10
12
GRI(广义规则归纳)
如何应用这些选项 详细讨论这些算法如何产生关联规则
2020/1/10
3
算法简介
Apriori 和 GRI(广义规则归纳)运用“产生-检验”的方 法去寻找规则
产生简单的规则,并被数据集证实是有效的好的规则被存储,所有规 则都受到支持和置信度准则的制约
然后被专门化(一个Biblioteka Baidu条件加入规则的过程)这些新规则接着被数据 证实是有效的
对于有支持度的规则有偏
2020/1/10
13
Carma(连续关联规则挖掘算法)
只能使用字符存储类型字段
使用表格型数据时,使用字段只能是标记型
字段的方向是不相关的:
不认可输入、输出和两者方向,忽略无方向 所有使用的字段都看成两者方向
允许规则有多重结果
第一步发现频繁元素集并创建父子元素集网格
2020/1/10
10
信息差和标准化卡方
信息差:与先验信息之间的差
给定前提条件后的信息增益与只给定先验置信度时的 信息增益之间的差值
基于 C5.0 算法中使用的信息增益度量
标准化卡方:前提与结果相关性的统计指数
卡方检验分类变量相关性 标准化减少记录数的影响
优点:考虑到支持度
Carma(连续关联规则挖掘算法)只通过两次数据
首先识别数据中频繁发生的元素集 然后计算元素集的精确频率,保留达到支持和置信度准则的元素集
2020/1/10
4
关联规则和规则归纳
关联规则算法的优势在于,关联可存在于数据的任何属性中
规则归纳算法只能构建单个结论的规则 关联规则算法试图寻找出多条规则,每条规则都可得出一个相应的结