粒计算与WEB信息粒化

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

不 同方 式的用户空 问查 询是用户 空间粒的构成 , 像基于 内容 的、 基于文件 的方法 。 于内容 的查询聚类对于基于文件的聚类是 基 相似 的[ 相似的查询是放在一 起的一组用户的需求。 5 】 。 内容 目录的方 法 很容 易扩展 到用户的 日志的聚类 。 另一 方面 , 文件查询的聚类方 法应用相 关文件 、 检索结果 的重 叠相 交 , 以及和查询数据库系统的 相 交[ 一些 目前 关于 查 询 聚 类 的观 点 涉 及查 询 聚 类 的 文件 。 们 在 6 1 。 他
2 粒 计算 . 2
粒 计算是较新的研究 方法 ,可以应用 于不 同的研究领域 , 不 同的研究者对这个领域 的理解也不完全相同。 粒计算就是针对每 一 个粒的研究 和计 算 ,对不 同粒 的研 究可能形成 不同的计算模型 。 计 算 模 型 大 体 由 以 下 几 个 部 分 组 成 : 基 本粒子 : 构成粒计算模 型的最基本元 素 ,是计算模型的原 语。 一个粒子可 以看作是 由内部 属性描述 的个 体元素的集合 , 以 及 由它 的外部 属性所描述 的整 体。 粒层 : 是对 问题 空间或计 算对象 的一 种抽象化描述 ,按照某

问题 应 答 系统 和 搜索 引擎 系 统 是有 帮 助 的 , A s e ve 像 kJ e s, B e r n eg r ef ma  ̄B r e建议通过使用点击 隐含的相关用户信息数据的 e 聚合查询 。 B WE 应用挖掘是扩展 了WE B日志等的应用模 式。 了在 为 个实际需 求的粒化准则得到 的所有粒子的全体构成一个粒层 。 同一 市场营销 中使用这些信息 , 先是客户的聚合 , 首 他们 的购物交易预 层的粒子 内部往 往具有相 同的某 种性质或功 能。 计在同一个集群 的客户应该有 同样 的购物偏好 。 3 2. . 3检 索词 空 间的 粒化 粒 结构 : 一个粒化准则对 应一个粒层 ,不 同的粒 化准则对应 多 个 粒 层 , 层 之 问的 相 互 联 系 构 成 一个 关 系结 构 ,称 为 粒结 构 。 粒 在检索 系统 中检索词 聚类 的问题 和他的应用被许 多学者所研 在一般 的粒计算理论 中,把 同一粒 层的粒子看成 一个集合。 究。 在检索词的层次 , 一个聚类可 以被赋予被 聚类标记的新的词条 。 这些新的词条 比在聚类每一个独立的词条时更加常用[ 一个词条 7 1 o 3 、W E B信 息检 索 的粒 化 分级别提供有效 的工具 , 以总结特殊域 的知识 。 可 许多域 的的特殊 粒计算思想无处不在 , 粒计算是一种看待客观世界的世界观和 词 条 分 层 次 或 者 概 念 分 层 次 应 用 于 组 织 和 检 索 科 学 文 献 【 词 条 分 1 。 方法论。 信息粒广泛存在于现实世界 中, 是对现实的抽象 , 信息粒化 层次的例子例如是AC M分类系统和数学主题分类系统f 由这个系 g ] 。 旨在建 立基于外部世界有 效的并 以用 户为中心的概念 。 B WE 信息 统 可 以立 即导 出文 件 分 层 次 的 粒 化 。 在每 一个 层 次 , 件 是 被 不 同 文 检索是检 索用户和检索文件 之间检索条 目匹配 的过程 。 当检索词与 特性的不同词条所描述。 在分类系统中文件被相同词条所描述是把 文件的标 记词匹配 , 这个文件就 会出现在检索结果 中。 他们放 到同一聚类里 。 31W E . B信 息 粒 化 把 W E 信 息分 割 成 不 同 的粒 , 索 单 用 户 为 一 个 单用 户 粒 c B 检 , 4、 结 语 多 个 单 用 户 粒 构成 一 个 用 户 粒 集 合 C, 索 的W E 文 件 为一 个 单 文 检 B 本文讨论 了粒化 、 粒计算的基本 原理 , 的思想应用到WE 信 粒 B 讨 B 用户空间 、 检索 件粒f多个 单文件 类构成一个文件粒集合F。 , 它们之 间的隶属 关系 息检索 上 , 论了WE 信息的粒化 以及文件空 间、 词空 间模型 。 B WE 信息检索的研究对象是用户和检索文件 , 有较 具 如下: 复杂 的内部结 构, 因此将粒计算方法应用于这类对象 , 为信息检索 (F =(,) CF Fi l . c ) { F 1 ∈ , , … } , c = 2… 公式 1 开辟 了新 的 研 究 方 法 和 理 论 。 (,) / , J Cf ∈ ,:, … 公式2 C_ =( ) 厂 c C , FJ 1 } j 2
学术论坛
粒计算与 WE B信息粒化
王晓丹 田永 梅
( 尔滨 工业 大学 图 书馆 黑龙 江哈 尔滨 10 0) 哈 50 1
摘 要 : 文介 绍 了粒 计 算 的基 本 粒 子 、 本 粒层 和 粒 结构 , 细讨 论 了基 于粒 计 算的 w E 详 B信 息粒 和w E B信 息模 型 。 关 键词 : 息检 索 粒化 粒 计算 信 息粒化 信 中图分 类 号 : P 9 . T 3 13 文献标识 码 : A 文章编 号 :0 79 1 (0 1 90 0 —2 1 0 —4 62 1 ) — 2 2 0 0
检 索 词 空 间“。 I
3 2 1文件空间的拉化 .. 聚类 、 分类和聚合规则分析是数据挖掘的主要技术 。 文件聚类 广泛应用信息检索技术 , 降低计算成本和提高检索效率 通过特殊 2、 粒 计 算 的标题和聚合在文件 的集合 中找到相似文件 , 项技术是 自动发现 这 21粒 . 这些相似 的文件组。 文件的聚合可 以被应用作为在文本 中的可能的 把整体的复杂的事物分割成小的具有相 同属性 的个体 , 每一个 关联 , 或者提示如何分解检索结 果为较小的部分 。简洁化 , 复 之后再 方 式被 聚合 。 于 内容 的 、 于 查询 的 、 于 索 引 的方 法 都是 这 方 面 基 基 基 聚合成整体事物 。 数学家将粒 化方法理想化成化分 , 这就是粒 的数 的 例 子 。 学 思 想 【。 l 1 3 2 2 用户 空 间 的粒 化 ..
1、 概 述
互联网的发展为信 息检索提供了机遇 和挑 战。 随着网页信息爆 炸性无休止的增 长, 目前没有一个人能说出互联网上网页的准确数 量。 要从浩 如烟海 的网页中获得有 用的准确 的信息变得越来越 困 难 。 索 引 擎 可 以帮 助 我 们 检 索 到 互 联 网上 的资 源 , 是 其 中包 括 搜 但 太 多 毫 不 相 关 或者 相 关 度不 大 的信 息 。 目前大 多 搜 索 引擎 是 基 于 关 键词 的, 而不是基于概 念的[ 为 了缩小和定位查询范 围, 】 1 。 通常 限定 多个关键词 , 然而查寻的结果仍是有大量 的无 关网页。 粒计算是信 息处理的一种新的概念和计 算范式, 是研究模糊的 、 不精确的、 不完 整 的及 海量的信息处理 的重要工具 。 ]
(_= C )『c Fi =2 } 式 c ) k l∈ , , l … 公 4 , 厂 i c L , … j
32WE . B信 息 的模 型 信息检索可以把检索用户分为单个 的用户 , 也可以把单个的用 户聚合成一类 , 聚合一起的用户具有可识别性 、 相似 形、 近似性 , 具 体的个性化 的粒可 以称为较好 的粒化 , 聚合到一起的粒可 以成为较 粗 糙 的粒 化 。 WE 信息检索涉及三 种查 询空 间, B 包括文件空间 、 用户空间 、
相关文档
最新文档