6.1 购物篮模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

如果忽略所有停用词,我们希望在高频词对中 发现某些能够代表联合概念的一部分词对。
2.文档抄袭(plagiarism) 项:文档 购物篮:句子 一篇文档中如果包含某个句子,则认为该句子 对应的购物篮中包含文档对应的项。 我们寻找那些在多个购物篮中共同出现的项对。 如果发现这样的项对,就是两篇文档有很多相 同的句子。实际中,一到两个句子相同都是抄 袭发生的有力证据。

例6.1

购物篮:每个集合
项:词语

这些集合是通过在谷歌搜索“cat dog”然后从排名 较高的网页摘要中生成。 由于购物篮是集合,所以一个词语在某个购物篮中 出现两次不会被考虑。即项在购物篮中只能出现一 次。 这些词语中的大写被忽略。


单元素集合




空集:空集是任何集合的子集,支持度为8。但通 常情况下不关注空集。 “cat”:6(出现在除(4)和(8)的购物篮中) “dog”:7(在除(5)之外的购物篮中都出现) “and”:5 “a”、“training”:3 “for”、“is”:2 其他:不多于1 假定给出的支持度阈值s为3,频繁项集为{dog}、 {cat}、{and}、{a}、{training}


eg. {dog}→cat的兴趣度计算 {dog}→cat的可信度:5/7 cat出现在所有8个购物篮中的6个 5/7-6/8=0.036
该关联规则并不十分“有趣”

例6.3
{diapers}→beer的兴趣度很高:购买尿布的人中 购买啤酒的比率显著高于所有顾客中购买啤酒 的比率。 {coke}→pepsi的兴趣度为负值:购买可口可乐的 顾客一般不会同时购买百事可乐。

3.生物标志物(biomarker) 项:①诸如基金或血蛋白之类的生物标志物 ②疾病 购物篮:某个病人的数据集(基因组、血生化 分析数据、病史信息) 频繁项集:由某个疾病和一个或多个生物标志 物构成,它们组合在一起给出的是疾病的一个 检测建议。

三、关联规则(association rule)

关联规则: 从数据中抽取到的频繁项集结果往往采用 if-then形式的规则集合来表示,这些规则称为关 联规则。
形式:I→j(I为项集,j为项) 如果I中所有项出现在某个购物篮的话,那 么j“有可能”也出现在这一购物篮。


可信度(confidence)
I∪{j}的支持度/I的支持度 即所有包含I的购物篮中同时包含j的购物篮 的比例。
第六章
6.1
频繁项集
购物篮模型
购物篮模型(market-basket model)

本质: 描述“项”(item)和“购物篮”(basket /transaction)两类元素之间的多对多关系。
通常我们假设一个购物篮中项的总数目较 小,相对于所有项的总数目而言要小的多。而 购物篮的数目通常假设很大,导致在内存中无 法存放。整个数据假定由一个购物篮序列构成 的文件来表示。
双元素集合


一个双元素集合中的两个元素本身都必须是频 繁的,这样该集合才有可能是频繁的。 所有可能的双元素频繁集合只有10个。
三元素集合

Hale Waihona Puke 三个元素组成的项集要成为频繁项集,必须要求其 中任意两个元素组成的集合都是频繁的。 频繁的双元素项集:{dog , a} {dog , and} {dog , cat} {cat , and} eg. 集合{dog , a , and}不可能是频繁项集,因为如 果它是的话,那么必定有{a , and}是频繁项集,但 是这个集合并不频繁。 eg. 集合{dog , cat , and}有可能频繁,因为{dog , cat} {cat, and}为频繁项集,但是集合中的三个词只在购 物篮(1)和(2)中出现,因此实际上并不频繁。 如果不存在三元素频繁项集,肯定不会存在四元素 或更多元素的频繁项集。
二、频繁项集的应用
最早应用: 真实的购物篮分析 项:商店出售的不同商品 购物篮:单个购物车中所装的商品 通过发现频繁项集,零售商可以知道哪些 商品通常会被顾客一起购买。 那些共同购买的频度远高于各自独立购买 所预期的频度的项对或项集。

其他应用
1.关联概念(related concepts) 项:词 购物篮:文档 文档中所有词构成对应购物篮中的所有项


四、高可信度关联规则的发现
可以找到频繁 项集 关联规则应用 于很多购物篮, 则I的支持度要 相当高 集合I∪{j}的 支持度也相当 高
实际当中要调 节支持度阈值 来限制频繁项 集
假定频繁集项不 会太多,则高支 持度高可信度的 关联规则也不会 太多
可找到高支持度 和高可信度的关 联规则

频繁项集与相似项发现的区别
频繁项集问题主要关注包含某个特定项集的购 物篮的绝对数目。


相似项发现主要目标是寻找购物篮之间具有较 高重合度的项集,不管购物篮数目的绝对数量 是否很低。
一、频繁项集(frequent item)的定义

直观上:一个在多个购物篮中出现的项集成为 频繁项集。 形式化: 如果I的支持度不小于s,则称I是频繁项集。 s:支持度阈值(support threshold) I的支持度(support):包含I(即I是购物篮中项集 的子集)的购物篮数目。
例6.2

{cat , dog}→and的可信度:3/5 {dog}→cat的可信度:5/7

兴趣度(interest) 其可信度与包含j的购物篮比率之间的差值。 一条规则的兴趣度很高:某个购物篮中I的存在 在某种程度上会促进j的存在; 兴趣度为绝对值很大的负值:I的存在会抑制j 的存在。

相关文档
最新文档