多层次分布式数据挖掘关联规则的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
娱 乐 等 分 类 。层 次 3则 包 括 :计 算 机 应 用 ,计 算 机 工 程 ,女 友 ,家 庭 生活 ,新 周 刊 ,娱 乐 前 线 等 杂志 报 纸 。概 念层 次 结 构 可 以 由熟 悉报 刊 数 据 组 织 结构 的用 户在报 刊 目录表 中定义 。
现 强 关联 规 则可 能 是 较 为 困 难 的 ,而 在过 高 抽 象
或 者 F — e ,F —rw h算 法 。 P t e P go t r
多层次挖 掘关联 规 则算法 的 阙值取值 分析 :
1 所 有 层 次 均 使 用 统 一 的最 小 支 持 阙值 , )对 即对 ( 所有 ) 同层次频 繁 项集 的挖 掘均使 用相 同 不
计 算 机 应 计算机_ [程 家庭 生活 新 周 刊
挖掘方法 变得 比较简单 。基 于一个祖 先节点 是其子
之 问是否 存在关 联就很 有必 要 。
利 用 k 项 集 进行 跨 层次 过 滤 策略 ,容 许 挖 掘 一
节 点 的超 集 ,可 以采用 一个优 化技术 ,即可 避免搜
mi s p n u =5%
—
图 1 报 刊 概 念 层 次 树
一
个 典 型 的报 刊 目录 的层 次 结 构 ,如 图 l 所
示 。在 这 个层 次 树 中描 写 了邮 政 报 刊 的一 种 分 类 方 法 ,该 层次 树 描 述 了从 低层 次 概 念 到 高 层 次 概 念 的相 互 关 系。在 概 念 层 次 树 中 ,利 用 高 层 次 概
W ANG i CA0 e g qa g Ru 。 . Zh n - in
( . 州广播 电视大学 ,郑州 4 0 0 1郑 5 0 3;2 河 南省 图书馆 ,郑州 4 0 5 ) . 5 0 2 摘 要 :数 据挖 掘技术是近几 年国内迅速发展起 来的- 1交 叉学科 ,涉及到统 计学、数据库 、机器 学 " 3
、 l
利 用统 一 最小 支 持 阙值 ,可 以简 化搜 索 过程 。
由于用 户只需要设 置一 个最 小支持 阙值 ,因此整个
匐 似
何 意义 。但 是如果 “ 算机技 术 ” 常被订 阅 ,那 计 经
么 检 查其 子 节 点 “ 算 机 应用 ”与 “ 算机 工 程 ” 计 计
的最 小 支 持 阙值 ,例 如 图 2所 示 整 个 挖 掘 均 使 用
最小 支持 阙值 5 ( “ % 从 技术 ”到 “ 算机 应用 ” ; 计 ) “ 算 机 工 程 ”不 是 频 繁 的 ,但 是 “ 算 机 技 术 ” 计 计
和 “ 计算 机应 用”却是 频繁 的 。
层次 一
习与人工智能等多个 领域。计算机的应 用普及产生 了大量的数据 ,数 据挖掘就是利用上述 科
学的技术进行大数据量的处理。 关键 词 : 数据挖掘 ;数据仓库 ;关联规则 中图分类号 :T 3 1 P9 文献标识码 :B 文章编 号 :1 0 — 14 21 ) ( 一 25 0 9 0 ( 0 o 1 下) 0 0 — 5 0 3 2
Al 1
步 讨 论 。 一般 而 言 ,利 用 自上 而下 的策 略 从 最
高 层 次 向低 层 次 方 向 进 行 挖掘 时 ,对频 繁 项 集 出 现 次 数 进 行 累 积 以便 发现 每 一 个 层 次 的频 繁 项 集 指 导 无 法 获 得 新 频 繁 项 集为 止 。 也就 是 在 获 得 所 有 层 次 概 念 l的频 繁 项 集 后 ,再 挖 掘 层 次 2的 频 繁 项 集 ,如 此下去 。对于每 一个 概念层 次 ( 挖掘 ) , 可 以 利 用 任 何 发 现 频 繁 项 集 的 算 法 ,如 : r r Api i o
念替 换 低 层 次 概 念可 以是 数 据 的 泛 化 。如 概 念 层
次树 共分 为 四层 ,分别 为 层次 0 ,2 ,1 ,3;层 次 白顶 而 下从 零 开 始 。树 的根 节 点 标 记 为 a1 l 。层 次 1包括 :杂志 ,报纸 ;层 次 2包 括 :技 术 ,生 活 ,
层 次 的概 念上 所 挖 掘 出 的强 关 联 规 则 或许 表达 了
一
2 挖掘 多层次关联规则 的方法
首 先 就 给 予 支 持 度 和 信 任 度 的挖 掘 方 法 作 进
一
些 普通 的 常识 。但 是对 一 个 用 户 来 讲 是 常识 性
知 识 ,可 能 对 于 另外 一 个 用 户 就 是 新 奇 的 知 识 。 因此数 据 挖 掘 希 望 应 该 能够 提 供 在 多 个 不 同层 次 挖 掘 相 应 关联 规 则 知 识 的 能 力 ,并 能 够较 为 容 易 对 不同抽 象空 间的 内容 进行 浏 览与选择 。 以邮政 报刊 发行为 例 :
Doi 1 3 6 /iis 1 0 -0 4. 0 1 ( ). 3 : 9 9 .s n. 0 9 1 2 1 下 0. 3 0. 2 7
1 多层次关联规则描 述
对 于 许 多应 用 来 讲 , 由于数 据 在 多维 空 问 中 存 在 多 样性 ,因 此要 想从 基 本 或 低 层 次概 念上 发
务l
匐 化
Βιβλιοθήκη Baidu
多层次分布式数据挖掘关联 规则的研究
St dy on m ul i1 eldi r bu ed as oci t on r e at 'ni u t .ev st i t s a i ul s of d a n, ng i
王
锐。 。曹振 强
层次 二
m i s =5 n up %
_
图2 利 用统 一 最 小 支 持 阙值 的 多 层 次挖 掘
收 稿 日期 :2 1—1- 3 0 0 0 2 作 者 简 介: 乇锐 (9 9 16 ~) ,女 ,河 南泌 阳人 ,副 教 授 ,硕 士 。 第3卷 3 第 1期 2 2 1—1 ( ) [0 ] 0 0 2 下 2 5