apriori算法介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
25%
×
25%
×
50%
{B,C}
50%
{C,E}
75%
{B,E}
支持度 S[%]
频繁 3-项集 L3 ×
×
50%
{B,C,E}
图1 寻找频繁项集
• 有效关联规则集合就是图1或表1所保留的频繁项集L1、L2和 L3。下面计算有效关联规则的置信度:
(1)频繁二项集生成的关联规则:
T A C
SAC SCA SA,C
{B,C} 同时出现
{E}
出现
未出现
1/2×3/4=37.5% 1/2-3/8=12.5%
50%
0=50%-50%
1/2=S{B,C} 50%
未同时出现 3/4-3/8=37.5% 1/2-3/8=12.5% 1/2=1-S{B,C}
25%=75%-50% 25%=25%-0
50%=1-50%
3/4=SE 75%
(2)频繁三项集生成的关联规则: 以其中一条规则C(B,C)→C(E)为例计算各种规则效果评价指 标,如下: ①C(B,C)→C(E)(S=50%,C=100%)
(规则或直接写成(B,C)→E) 计算过程:1)
S(BCE) 2)该规则的提升度
3)置信率 4)正态卡方:
5)信息差的计算。前项和后项的概率分布表如下:
TID
项集X
001
ACD
002
BCE
003
ABCE
004
BE
表1 顾客购买数据示例
解:三次迭代过程如表 2 所示。
表2
1-项集 C1 计数
{A}
2
{C}
3
第一次迭代
{D}
1
第二次迭代 第三次迭代
{B}
3
{E}
3
2-项集 C2 {A,C}
计数 2
{A,B} 1
{A,E} 1
{B,C} 2
{C,E} 2
1/4=1-SE
1
25%=1-75%
∵信息差E=
前项和后项的关联性不强,即已知前项购买信息{B,C} 对后项{E}同时购买的推测,促进作用不大 ②同理,C(B,E)→C(C)、C(C,E)→C(B)规则评价 指标的计算、有效性判断、意义价值判断。
简单关联规则算法
-Apriori
D
A
T
A
M
Biblioteka Baidu
I
N
I
N
G
表1是某超市4名顾客某天的购买数据,其中A、B、C、D、 E分别是商品代码,TID代表顾客编号,项集就是该顾客购买 的商品种类。请用Apriori算法推导出购买商品之间的关联规 则。假定用户指定的最小支持度阈值为0.5,最小置信度阈值 为0.8。
T
2 50%≥50% 4
①C(A)→C(C)(S=50%,C=100%)
CAC
SAC SA
50% 50%
100%≥80%或CAC
T A C T A
2 =100%≥80%, 2
规则有效。
②反过来,关联规则为C(C)→C(A)(S=50%,C=66.67%) SA、SC的值可查阅表2即可得到。 同理,C(B)→C(C)、C(B)→C(E)、C(C)→C(E)及其相反规则的 计算
{B,E} 3
3-项集 C3 计数 {A,B,C}
{A,C,E}
{B,C,E} 2
支持度 S[%]
频繁 1-项集 L1
2/4×100%=50% {A}(∵50%≥0.5,
∴保留)
75%
{C}
25%
×(∵25%<0.5,∴舍
弃)
75%
{B}
75%
{E}
支持度 S[%] 50%
频繁 2-项集 L2 {A,C}