专题文献检索结果的系统聚类分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 系统聚 类简 介 ( ) 义类 问距 离 得一 次 并 类 距 离 阵 , 距 3定 将 离最 小 的两类 再并 为新类 , 同时取 消对 应 的两 类 , 同
时计 算并 类距 离 阵 。
() 4 重复 ( ) 直 至并 为一类 。 3 ,
文 本 分类 是在 预先 知道 类别 数 目的情况 下 将 文
出现 。这 种 排列 方式 掩盖 了文 献原 有 的相 互关 联 的
一
张树 状谱 系 图 直 观地 表 示 , 中可 以看 出 大致 的 从
明科 夫 斯 检索 平 台上 的文献 检 索结果 都 是 以顺 序排 列 的形 式 分类 。常用 的样 本 问 的距 离 有 欧 氏距 离 、 基距 离 、 氏距 离等 。本 文采用 欧 氏距 离 , 算 公式 马 计
本 归类 。而文本 聚 类往 往事 先不 知道 类 别 的数 目和
¥辽 宁 省 教 育厅 科 研 项 目( 目编 号 : 0 0 5 ) 究 成 果 项 W2 12 4 研
之一。
( ) 聚 类 过 程 用 一 张 树 状 谱 系 图 直 观 地 表 5将
示 , 中可 以看 出大致 的分类 。 从 由于 系统聚 类 的类 别 内容 和数 目都 是 未 知 的 ,
疏程 度 的指 标通 常采 用距 离或 相似 系数 。
d= / 一 ^∑( )
其 中 d为样 品 与 之 间 的距 离 。使 用 欧 氏
的影 响 。
行 聚类 分 析 』 。所 谓 聚类 就 是 将 众 多 的样 本 或 变 距离 时首先 应 对 数 据进 行 变 换 , 除 相关 性 和量 纲 消
信 息 组 织
Байду номын сангаас
山东 图书馆 学刊 2 1 0 2年第 1期
专 题 文献 检 索 结 果 的系 统 聚 类 分析 水
王 筠
( 辽宁师范 大学管理 学院 , 宁大连 16 2 ) 辽 10 9
[ 摘 要 ] 利用 系统聚类方法对 专题 文献的检索结果按用户相关程度进行聚类 , 并通过实例分析验证 了该方法的可行性和
描述 。
2 实例分 析
类 号
Gl
表 1 距 离阵
厂 —————一
重要 信息 , 中筛选 出 我们 所 需 要 的文 献 无 疑 要 花 如下 : 从
费 大量 的时 间和精 力 u 。如 何让 用户 快 速 、 J 全面 、 准 确 的找 到相关 且 重要 的文献 是 当前 文 献检 索 面 临 的 难题 。解 决 这个难 题 的方 法之 一就 是 对检 索 结果 进 量, 按其 在性 质 上 的亲疏程 度 进行 分类 , 而描 述其 亲
[ 文献标识码 ] A
每一个 有 过 网 络 专题 文 献 检 索 经历 的 人 都 会 遇到 这样 的尴 尬 , 果我 们 使 用 的检 索 项 和 设 定 的 如
内容 。在 聚类 时 , 同类 文 档尽量 归 为一类 , 同类 的 不 文档 尽量 隔离 开 来 J 系统 聚类 的基 本 思 想 是 , 。 先
有效性 。检索结果通过聚类方法处理后 , 用户可以用最快的速度 了解其 等级分布 , 从而对 不同等级的检索结 果采用不 同的 阅读方式 : 足需要通读精读 、 还是仅阅读摘要甚至忽略不读 , 从而提高用 户的检索效率 。 [ 关键词 ] 专题文献 文献检索 系统聚类 用户相 关程度
[ 中图分类号 ] G 5 . 1 24 9
然 选择 检索 词太 少 , 所得 到 的检索 结果 数量 庞 大 , 我们 要 像 将 n个样 本看成 一类 , 后规定 样本 问的距 离 , 计 大海 捞针 一样 在 信 息 的海 洋 里查 找 所 需 要 的信 息 。 距 离最 小 的一对 并 成一 个 新 类 ; 算 新类 和其 他 类
系统 聚类 的具体 步骤 如下 : ( ) n个 样 品分为 n类 , 作 G , … G , 1将 记 G , 每
聚 类分 析通 常 分 为 系 统 聚 类 与 动 态 分 类 , 文 本
计 采 用系 统 聚类 方法 对 检 索 结 果 进 行 聚 类 , 即将 检 索 个 G 只包 含 一 个 样本 点 , 算 各 类 问两 两 距 离 , 结 果按 其对 用 户 的相 关 程 度 聚 集 到 不 同 的组 别 , 用 得距 离矩 阵 。 户 对不 同组 别 的 文献 可采 用 不 同 的 阅读 方 式 : 通 是 () 2 在 中找 出最小距 离 d ¨将相 应 的两 个样 与 并 为一 类 G = , } 同时取 消 G 与 ,, 读 精读 、 是仅 阅读 摘 要 甚 至 忽 略 不 读 。用 户 也 可 本点 i 还 类。 根 据 聚类情 况 提 出更 精 确 的查 询 , 样 将 大 大 提 高 这 用 户 的检索 效率 。
聚类完 成后 还要 增加 聚类结 果描 述 这一 环节 。描 述
.
73 .
总 第 19期 2
山 东 图 书 馆 学 刊
21 0 2年 2月
方法 可分 为主 观 描述 和指 标 描 述 : 观 描 述 可 通过 距离 , 主 得距 离矩 阵 M。 表 1 。 ( ) 阅读 各类 论文 的题 目和摘 要对各 类 检索 结 果 与用 户 相关 程度 等级 进行 描 述 ; 指 标 描 述 是 采 用 可 以代 而 表类 别 与用 户 相关程 度 的某一项 或 多项 指 标来 进行
如果 我们 设定 的检 索 项 和 检 索 词 过 多 , 么 由于 检 的距 离 , 将距 离最 近 的两类合并 ; 那 再 这样 每次 减 少一 索条 件 的约束 , 检索 结果 往 往 寥 寥 无 几 甚 至 一 无 所 类 , 至所 有样 本成 为一类 为止 ; 直 最后 将 聚类 过 程用 获, 达不 到我 们需 要 的文献 量 。不仅 如 此 , 乎所 有 几
时计 算并 类距 离 阵 。
() 4 重复 ( ) 直 至并 为一类 。 3 ,
文 本 分类 是在 预先 知道 类别 数 目的情况 下 将 文
出现 。这 种 排列 方式 掩盖 了文 献原 有 的相 互关 联 的
一
张树 状谱 系 图 直 观地 表 示 , 中可 以看 出 大致 的 从
明科 夫 斯 检索 平 台上 的文献 检 索结果 都 是 以顺 序排 列 的形 式 分类 。常用 的样 本 问 的距 离 有 欧 氏距 离 、 基距 离 、 氏距 离等 。本 文采用 欧 氏距 离 , 算 公式 马 计
本 归类 。而文本 聚 类往 往事 先不 知道 类 别 的数 目和
¥辽 宁 省 教 育厅 科 研 项 目( 目编 号 : 0 0 5 ) 究 成 果 项 W2 12 4 研
之一。
( ) 聚 类 过 程 用 一 张 树 状 谱 系 图 直 观 地 表 5将
示 , 中可 以看 出大致 的分类 。 从 由于 系统聚 类 的类 别 内容 和数 目都 是 未 知 的 ,
疏程 度 的指 标通 常采 用距 离或 相似 系数 。
d= / 一 ^∑( )
其 中 d为样 品 与 之 间 的距 离 。使 用 欧 氏
的影 响 。
行 聚类 分 析 』 。所 谓 聚类 就 是 将 众 多 的样 本 或 变 距离 时首先 应 对 数 据进 行 变 换 , 除 相关 性 和量 纲 消
信 息 组 织
Байду номын сангаас
山东 图书馆 学刊 2 1 0 2年第 1期
专 题 文献 检 索 结 果 的系 统 聚 类 分析 水
王 筠
( 辽宁师范 大学管理 学院 , 宁大连 16 2 ) 辽 10 9
[ 摘 要 ] 利用 系统聚类方法对 专题 文献的检索结果按用户相关程度进行聚类 , 并通过实例分析验证 了该方法的可行性和
描述 。
2 实例分 析
类 号
Gl
表 1 距 离阵
厂 —————一
重要 信息 , 中筛选 出 我们 所 需 要 的文 献 无 疑 要 花 如下 : 从
费 大量 的时 间和精 力 u 。如 何让 用户 快 速 、 J 全面 、 准 确 的找 到相关 且 重要 的文献 是 当前 文 献检 索 面 临 的 难题 。解 决 这个难 题 的方 法之 一就 是 对检 索 结果 进 量, 按其 在性 质 上 的亲疏程 度 进行 分类 , 而描 述其 亲
[ 文献标识码 ] A
每一个 有 过 网 络 专题 文 献 检 索 经历 的 人 都 会 遇到 这样 的尴 尬 , 果我 们 使 用 的检 索 项 和 设 定 的 如
内容 。在 聚类 时 , 同类 文 档尽量 归 为一类 , 同类 的 不 文档 尽量 隔离 开 来 J 系统 聚类 的基 本 思 想 是 , 。 先
有效性 。检索结果通过聚类方法处理后 , 用户可以用最快的速度 了解其 等级分布 , 从而对 不同等级的检索结 果采用不 同的 阅读方式 : 足需要通读精读 、 还是仅阅读摘要甚至忽略不读 , 从而提高用 户的检索效率 。 [ 关键词 ] 专题文献 文献检索 系统聚类 用户相 关程度
[ 中图分类号 ] G 5 . 1 24 9
然 选择 检索 词太 少 , 所得 到 的检索 结果 数量 庞 大 , 我们 要 像 将 n个样 本看成 一类 , 后规定 样本 问的距 离 , 计 大海 捞针 一样 在 信 息 的海 洋 里查 找 所 需 要 的信 息 。 距 离最 小 的一对 并 成一 个 新 类 ; 算 新类 和其 他 类
系统 聚类 的具体 步骤 如下 : ( ) n个 样 品分为 n类 , 作 G , … G , 1将 记 G , 每
聚 类分 析通 常 分 为 系 统 聚 类 与 动 态 分 类 , 文 本
计 采 用系 统 聚类 方法 对 检 索 结 果 进 行 聚 类 , 即将 检 索 个 G 只包 含 一 个 样本 点 , 算 各 类 问两 两 距 离 , 结 果按 其对 用 户 的相 关 程 度 聚 集 到 不 同 的组 别 , 用 得距 离矩 阵 。 户 对不 同组 别 的 文献 可采 用 不 同 的 阅读 方 式 : 通 是 () 2 在 中找 出最小距 离 d ¨将相 应 的两 个样 与 并 为一 类 G = , } 同时取 消 G 与 ,, 读 精读 、 是仅 阅读 摘 要 甚 至 忽 略 不 读 。用 户 也 可 本点 i 还 类。 根 据 聚类情 况 提 出更 精 确 的查 询 , 样 将 大 大 提 高 这 用 户 的检索 效率 。
聚类完 成后 还要 增加 聚类结 果描 述 这一 环节 。描 述
.
73 .
总 第 19期 2
山 东 图 书 馆 学 刊
21 0 2年 2月
方法 可分 为主 观 描述 和指 标 描 述 : 观 描 述 可 通过 距离 , 主 得距 离矩 阵 M。 表 1 。 ( ) 阅读 各类 论文 的题 目和摘 要对各 类 检索 结 果 与用 户 相关 程度 等级 进行 描 述 ; 指 标 描 述 是 采 用 可 以代 而 表类 别 与用 户 相关程 度 的某一项 或 多项 指 标来 进行
如果 我们 设定 的检 索 项 和 检 索 词 过 多 , 么 由于 检 的距 离 , 将距 离最 近 的两类合并 ; 那 再 这样 每次 减 少一 索条 件 的约束 , 检索 结果 往 往 寥 寥 无 几 甚 至 一 无 所 类 , 至所 有样 本成 为一类 为止 ; 直 最后 将 聚类 过 程用 获, 达不 到我 们需 要 的文献 量 。不仅 如 此 , 乎所 有 几