个性化网络信息检索系统
几种常用的Internet个性化信息检索技术的探讨
动有余的过滤不足己经造成 r 一些负面的影
3智能 代理 包括四 方面的 关键技 术 : 器 响 ,有待 尽快 发 展更 先进 的 人工 智能 技 术予 . 机
主解 ,l 苎决 cce、容术on 访 解。络 息 掘 eM 意 翟 生 索解目 技(hr 内技( e、问以决网 信 挖 cb 溅术 孳决 『 { 艺 荆眦 蓑 M iy 苎 眦 术an) 阶 A 安 ct … ‘ : nt ) w 一 y。
≯ 豢- 信检 息 索个 化Ae挖 推 陡 gt 掘 送 n 机器 技术:机器 指各 人工 领 是 种在 智能
域 中 开发 的 、支 持各 种程 度 智能 的 引擎 。这 些 引擎 包括有 :各种 形式的 推理 引擎 、学 习 引 擎 用 户创建 修 改规 和知识 的 工具 、验证 U 规 则 集 的工具 和 用于 开 发代 理之 间 代 理和 用 户 之 间进行 协 商和 协作 所需 策 略的 工具
海捞针 ,虽然 G o l等优 秀搜索 引擎提供 了 o ge
大 量 的信 息资 源 ,但 仍需 根据 检索 到 的地 址 信 息 ,按 照页 面屏 幕的 提 示 向下追 踪 。特 别
提 供 了有效 的 工具 。 数据 挖 掘的 成功 使研 究 人 员将 数据 挖 掘技 术 用于 因特 网 ,但是 由于
、 、
网 息 源 数 掘。 据 络信 挖掘 于 据挖 数
挖 掘就 是指 从 夫量 数 据( 如数 据 库) 中提 取抽 象 的 、潜 在的 有 用信 息的 过程 ,它是数 据 库
中 知识 发现 KDD 的核 心 ,为大量数据 的利 用
网上信 息极 度 膨胀 导致 查 找信 息 i 如 大 尤
。
它 w w w上 的 数据 不同 于传统 数据 ,故 产生 了 士 来说 ,难 以 迅速 、准 确 地获 得 有价 值的 网 们 提 供 了智 能代 理所 需 的推 理能 力和 学 习能 个新 的研究 方向一 网络 信息挖 掘。 上信 息 资源 因此 用 户迫 切希 望 找到 一种 能 够 力 网络信 息挖 掘 ,Xg  ̄ g w e b 在 信息 海洋 中 自动 获取 实 用 、准确 、精 炼 的 内容 技 术 指 机 器 用 于推 理 和 学 习 的数 的 数据 挖掘 ,是从 大量 数据 中抽取 处先 前未 信息的 工具 。 据 但 它 不 定就 是知 识 ,它主 要包 括 属于 知 的 、完整 的 、可 信的 、新 颖 的 、有效 的信 智能 代理A 。 t g 检索技术 结 构化 知识 的 规 则 语法 ,大量 非结 构 化的 息 的高 级处 理过 程 。 它是在 已知数 据样 本的 智 能代 理 又称 智能 体 ,它是 在 用 户没 有 通 用 知识和 结 构 化的 数据 内容 作为 代理 系 基 础上 ,通 过 归纳 学 习 、机 器学 习、统 计分 明确 具 体要 求的 情况 下 ,根 据 用 户需 要 ,代 统 能 够 内 核访 问 的 系 统 数 据 也 存 在 于 核 心 析等 方 法得 到数 据 对象 间的 内在 特性 据此 替 用 户进行 各种 复 杂的 工作 ,如信 息查 询 、 中 它提供 代 理 系统 工作 所需 要 的各 种 知识 采 用信 息过 滤技 术 在 网络 中提取 用 户感 兴趣 筛选 及 管理 ,并 能推 测 用 户的 意 图 , 自主制 和 数 据 同时 机 器 也 可 以 直 接 对 其进 行 更 的信 息或 者 更高 层 次的 知识 和规 律 来做 关键 定 、调 整和 执行 工作 计 划 。它使 用 自动 获 得 新 的决 策 。网 络信 息 挖掘 其实 就是 对 文档 的内 的领 域模型 ( we 知 识 、信息处 理 、与用 户 : 如 b 访问技 术 : 访问 是指 代理 与周 围环境 进 容 、要利 用 资源 的 使用 以及 资源 之 间的 关系 兴趣相 关的 信 , e5 、领域 组织 结构 )  ̄N 、用 户 行 交互 代 理 与周 围环 境 的交 互 可以 分为 代 进 行分析 。 模型 ( 如用 户背景 、兴 趣 、行为 、风格 ) 知识 理 应用 之 间的 交互 与 代理 和用 户 的交 互 代 网络信 息挖掘 分为w e b日志挖掘 、w e b 进行信 息搜 集 、索 引、过滤 ( 包括兴 趣过 滤和 理 应用 之 间的 交互 又可 分 为对 本地 环境 与 远 内容挖 掘 w e 结 构挖掘 。具体而 言 ,w e b b 不 良信 息过 滤) ,并 自动 地将 用 户感兴趣 的 、 程环境 的访 问 日志挖 掘是 通 过 分 析 w e 服 务 器 的 日志 文 b 对用 户 有用 的信 息提 交 给用 户 。智 能 代理具 。 安 全机 制是 为 了实 现 于外界 的 安全 访 问 件 对用 户访 问w e 是 服务 器方 留下的 访问 b 有 了不断 学 习 、适应 信 息和 用 户兴趣 动 态变 而 设置 外 界是 代 理的 交互 对 象 ,应 包括 所 记 录 进行 挖 掘 ,从 中可 以得 出用 户 的访 问模 化的能 力,从而提供 个性化 的服 务。 需 要的 原始 信 息源 用 户、代 理所 属 的应 用 式 和 访 问兴趣 ,丈站 点 管理 员提 供 各种利 于 1 、智能代 理A e t g n 意义 系统 其他代理 系统等 。 W e 站点 改进或 可以 带 来经济 效益 的信 息。 b 从用 户 的角 度来 看 ,采 用智 能代 理 技术 = 智能A e t g n主要功能 在 个性 让 服 务模 型 中 可以 利用 日志 挖掘 来 的应 用 服务 系统 在不 间 断地 为他 们 工作 ,用 用于信 IJ 息 服 务的 0 g n 主要 日l, J 智 能A e t j 完 ・nl , , 户的 访 问习惯 ,进 行 个性 化分 析 J ・ J J n 6 — ‘ H H I x . …L L t 视 I I l ’^ 1 l L u J 川 监 几 ,用 ,H W — I/ J J { L J L l J 户只在必要 时才需要 参与 。 成 以 下功 能 : 导航 ,即 告 诉 用 户所 需 要 的 资 处 理 。W e 内容挖 掘包括w e 文 本挖掘 和多 b b 从应 用 的角 度来 看 ,智 能代 理就 是 能 自 源在哪 里 ; 解惑 ,即根据( W b 包括tx 、h ml e t t 等) 动执 行用 户委 托 的任 务 的计 算实 体 ,它 有着 于特 定主题 的问题 ;过滤 ,即按 照用 户指定 的 挖 掘 的 目的 是 对 页 面 信 息进 行聚 类 、 分 类 极其广泛的 应用 。 条件 从流 向 用户 的大 量信 息 中 筛选符 合 条 和 关联 分析 ,以及利 用w e 文 档进 行趋势 预 b 从 技 术的 角度 来 看 ,智 能代 理是 以 各种 件的信 息 并 以不 同级 别 ( 文 、详细摘 要 、 测 、分析 等 ; 全 多媒体信 息挖掘 是对 多媒体文档 技 术 为基 础 ,集 合 了许 多实 用的 应用 特性 , 简单 摘 要 标题 ) 现 给 用 户 ; 理 , 即为 用 ( 呈 整 包括 图像 、声音 、图片等媒 体类型) 的挖 掘。 从而能 自 动执 行用 户委托的任 务 。 户把 已经下 载的资 源进行 分门 别类的 组织 ;发 w e 结 构挖掘是 对 we 页 面超链 接关 系、文 b b 2 、智 能 代理 有两 个 主要技 术 特征 : 智能 现 即从 大 量的 公 共原 始数 据 中筛 选和 提炼 档 内部结 构 、文 档u 1 r种的 目录路径 结构 的挖 f ( tlgne和代理 能力( gn y・  ̄I e iec) n l A ec ) 有价 值 的信 息 向 有关 用 户发布 。这些 都是 掘 。 智能性 指应 用 系统 使 用 推理 、学 习 和其 使信 息服 务 走 向个性 化 主动 服务 不 可缺 少的 四 信息推送 技术 他 技 术来分 析 解释 它 已接 触过 的 或刚 提 交给 功能 目前 在此 方面 己经有 了一 些 能够 使用 I 、推 送方式 它的 各种信 息 和知 识 的能 力 。代 理能 力指 一 的 系统 但 智能 化的 程 度还远 远 不 够 ,且主 频 道式 推送 :频道 式 网络 播送 技 术是 目
基于元搜索引擎的专业式智能网络信息检索系统
基于元搜索引擎的专业式智能网络信息检索系统
盛宪锋;山岚
【期刊名称】《计算机工程与设计》
【年(卷),期】2004(025)001
【摘要】随着网络信息资源的迅速增加和实时更新,如何及时准确地获取自己所需的有用信息是现代网络信息检索技术需要解决的主要问题.介绍了一种基于元搜索引擎的新型专业式智能网络信息检索系统.该系统建立专业词库和用户知识库,结合人工智能的Agent技术,能够很好地对用户的兴趣进行自适应学习,以实现个性化的信息检索,既保证了查全率,又提高了检索结果的查准率.
【总页数】5页(P69-73)
【作者】盛宪锋;山岚
【作者单位】北京化工大学,信息工程与技术学院,北京,100029;北京化工大学,信息工程与技术学院,北京,100029
【正文语种】中文
【中图分类】TP302.1
【相关文献】
1.基于元搜索引擎的个性化信息检索系统 [J], 田晓珍;张敏
2.个性化网络信息智能检索系统设计 [J], 鲍喆君
3.基于元搜索引擎的异构数据检索系统研究 [J], 李雅琼
4.智能元搜索引擎技术在网络信息增值服务中的应用 [J], 刘丽;须文波
5.基于元搜索引擎的数字图书馆网络信息资源检索系统设计 [J], 王玉琼
因版权原因,仅展示原文概要,查看原文内容请购买。
网络信息检索系统的设计与技术分析
四 、网络 信息 检 索 的主体 技 术 细 描述 用 户 的个 人情 况 ,其 中第一 面两 种 方 式 :一是 用 户将 自 己感 兴 和相 关技术
个 字段 可 以设 置成 关 键 字 。然 后建 趣 的信 息类 或在 线 文档 分 类后 提 供
( 信 息检 索服 务 的主体 技术 立 用 户 检 索 策 略 表 ( 括 策 略 编 给系 统 ,系 统 从这 些 文档 或信 息类 一) 包
网 络信 息 检索 通 常采 用搜 索 引 号 、策 略 控制 、检索 词控 制 、检索 中发 现用 户 的 兴趣 ; 二是 用户 提 供
擎技 术 ,该 技 术是 为 了解 决 “ 息 时间控 制 、检 索 范 围控 制等 字段 ) 信
自己 的研 究方 向和 其 它 阅读 爱好 等
迷 航 ” 问题而 提 出 的 。它通 过相 应 和 用 户 检 索 评 价 表 ( 括 检 索 编 信 息 ,系 统从 这 些信 息 中发 现 用户 包 的 算法 在 互联 网上搜 索相 关信 息 , 号 、检索 时 间 、检 索词 、检 索 结 果 的兴趣 。但 是 ,由于 用户 的兴趣 并 不 是一 成 不变 的 ,而 用户 一 般 不可
服布 尔 逻辑 模 型信 息 查询 结 果 的无 抽 取 、转换 、清洗 和 加 载 ,集成 后 J 分词、P o i g E ad n 分词和 IT L S C C A 分词 序性 。
的数 据 质量 得 到 了提 高 ,对 异构 数 等多款中文分词模块后,P o ig adn 分
据 源 的处理 也 得 到 了加 强 。在对 数 词 由于其 开源性和 良好 的分词 效果被
的情况 下 ,根 据 用户 需要 ,代 替用 自动 、独 立 地代 理用 户 查找 用 户感 [ 黄少林, 张玉红, 2 ] 王华, 蒋一峰. 基于L cn uet 户 进行 各 种复 杂 的工 作 ,如 信 息检 兴趣 的信息 。 索 、 筛选 及整 理 ,并能 推测 用户 的
个性化网络信息检索模型及其应用研究
【 关键 词】 :搜 索引擎; 个性化服 务 ; 个性化检 索; 个性化检 索模型 ; 代理技 术
1 .引言
Y ho 的 目录更 具 有 科 学 性 。 ao ! 网站 收 录 丰 富 , 索 结果 精 确 度 较 检
在 众 多 检索 工 具 中 .搜 索 引 擎是 一 种 被 众 多 网 站所 推 崇 的 也是 深受 广 大 网 民喜 爱 的 网络 检 索 工 具 某 种 角度 而 言 . 索 从 搜 引擎的出现确实使广大 网民在 繁杂 的网络信息 中能够方便 、 快 捷的查找到 自己所需要 的信息 , 并且 目前也被广泛应用。 但是 由 于 目前 多 数搜 索 引 擎 都 通 过 对 WWW 页 面 进行 索 引 和关 键 词 匹 配来满 足用户的检索请求 , 于克服 以下两个缺点 : 难 其一 , 何 任 个 搜 索 引 擎 的索 引也 无 法 覆 盖 整 个 网络 资 源 . 即其 检 全 牢 是 不 完 全 的 ; 二 。 于 采 用 简单 的关 键词 匹 配 方 法 , 索 引 擎 对 其 由 搜 条 检 索 请求 可能 返 回数 以千 计 的 结 果 .而 且 有 一 大 部 分 是 与 检 索 主题 无关 的链 接 . 需要 用 户 在这 个 基 础 上 再一 次进 行 筛 选 , 增 加 了 用 户 的上 网时 间 与 处 理 效 率 。 因而 . 建立 新 一 代 的 网络 信 息个 性 化 检索 系统 是 人 们 所 期 待 的
提 供 域 名检 索 、 闻 搜 索 等 检 索服 务 。 度 另一 个 相 当 有 特 色 的 新 百
功能是能够 根据用户的检索结果 , 自动 地生成一份 关键词表 . 用 网络信息个性化检索系统实现个性化检索服务 .关键是进 户 可 以 借此 选 择 自己所 需 或 不 需 要 的关 键 词 . 以此 来 提 高 检 索
Web信息检索系统中的个性化技术
随着现 代 互 联 网 的 快 速 发 展 , 络 信 息 呈 现 高 速 增 长 的 态 网 势, www 正在 成为 人们 可以获取 和利 用 的一 个 巨大 的 信 息资 源 体 。目前 。 各种 We 信 息检索 系统的 广泛使 用就 是一 个 明显 的例 b
证 。广义 的 We b信 息检 索 系统 ( bS ac ytm) 搜 索引 擎 we erhS se 和
化技术和 被动 式个 性 化 技 术。 主动 式 个 性化 技 术 主 要是 指无 需
在 电 子商务 领 域 中 , 们 已 经 进 行 了 大 量 的 个 性 化推 荐 研 人 究 。与此 相反 , 现代 搜索 引擎 目前已 经 成 为人们 日常 生 活中 一个 不 可缺少 的工 具 , 然而个 性化 技术却 并没有 在 We 信息 检 索领域 b 中广 受 关注 , 具有 和现 代电子 商务领 域 中个 , 畦化推 荐 系 统相 似 功 能 的 We 搜索 系统却 很少受 到人们 的注 意 j b 。也就 是 说 , 代 搜 现 索 引 擎尚不 能广 泛地 提供个J 搜索 结果 , 不 同用 户 一个 相 同 性化 对
约减 、 聚类分 析 、 贝页斯 网络等 , 然在 一定 程度 上 能够 解 决缩 放 虽 性 问题 , 而这些 技 术往往 是通过 在 离线 阶段 抽取 出原 始 数据 中 然 的 模 式信 息 , 并在 在 线 阶段 使用 这 些模 式来 得 到推 荐 集 合 , 以 所
整体 效果 并不理 想 。可以这 样说 , 些方法 虽然 可 以 减少 在线 的 这 处 理 开销 , 是常 常 产 生推 荐结 果 不 准确 的 情况 并且 , 但 在线 计 算 的 复杂度 也会 随着模 式的 增多而 增加 。
国内重要的综合性信息检索系统-精选
➢ 外文数据资源
全文电子书数据库 博硕士学位论文数据库 期刊数据库 特种资源数据库
(只限于集团购买这些数据库的学校校园网用户使用[1])
[1] 教学参考信息子项目.[2009-03-28]. /calisnew/calis_index.asp?fid=3&class=8
、古籍善本、经典文学艺术作品、译著、青少年 读物等 ➢ 图书目录浏览细分到章节,可以按整书、按章节 进行检索、定位、显示,可以按本、按章节下载
第一节 中国知网 (National Knowledge Infrastructure,CNKI)
中国年鉴全文数据库
➢ 内容始于1949年 ➢ 内容覆盖基本国情、地理历史、政治军事外交、
第四章 国内重要的综合性信息检索系统
学习目的与要求
熟悉国内重要的综合性信息检索系统
➢ 中国知网 ➢ 维普信息资源系统 ➢ 万方数据知识服务平台 ➢ CALIS ➢ CSDL ➢ NSTL ➢ CEInet、China InfoBank
掌握各系统的资源构成、服务功能、检索方法
选择合适的信息检索系统,检索特定主题信息
法律、经济、科学技术、教育、文化体育事业、 医疗卫生、社会生活、人物、统计资料、文件标 准与法律法规等各个领域
第一节 中国知网 (National Knowledge Infrastructure,CNKI)
CNKI的检索
➢ CNKI提供导航检索、逻辑式检索和智能辅助检索三种检 索类型
➢ 可检字段:主题、篇名、关键词、摘要、作者、第一作 者、单位、刊名、参考文献、基金、中图分类号
检索前必须选择数据库,可 单选或全选;检索时可通过 设置查询条件、方式来缩小 检索范围
信息检索的特点
信息检索的特点信息检索是指从大规模的信息资源中,根据用户的需求,通过计算机系统实现对相关信息的快速检索和提取的过程。
信息检索具有以下特点:1. 高效性:信息检索系统能够快速地从海量的信息资源中找到与用户需求相关的信息。
通过优化索引结构、采用高效的搜索算法以及利用并行计算等技术手段,可以提高信息检索的速度和效率。
2. 多样性:信息检索系统可以检索各种类型的信息,包括文本、图片、音频、视频等多媒体信息。
这些信息可以来自于不同的数据源,如互联网、数据库、数字图书馆等,满足用户多样化的需求。
3. 实时性:随着信息更新速度的加快,用户对于实时信息的需求也越来越高。
信息检索系统可以通过实时抓取和索引技术,及时更新新的信息,并及时呈现给用户。
4. 个性化:不同用户对于同一信息的需求可能存在差异,信息检索系统可以根据用户的个性化需求进行定制化的检索。
通过分析用户的历史查询记录、兴趣偏好等信息,系统可以为用户提供个性化的搜索结果。
5. 面向主题:信息检索系统通常是面向主题的,即用户需要提供一个明确的查询主题或关键词,以便系统对相关信息进行检索。
用户的查询主题可以是一个单词、一个短语,甚至是一个问题,系统会根据查询主题进行相关性匹配,返回与查询主题相关的信息。
6. 信息过载:信息检索的一个重要特点是信息过载。
随着信息的爆炸式增长,用户往往面临着大量的信息,但很难找到满足自己需求的信息。
信息检索系统需要通过聚类、过滤、排序等技术手段,将相关性较高的信息呈现给用户,提高信息的利用价值。
7. 不确定性:用户的查询需求可能存在不确定性,即用户无法准确地描述自己的需求或无法确定自己的需求。
信息检索系统需要通过智能化的搜索算法和推荐技术,尽可能准确地理解用户的需求,并给出相关的搜索结果。
信息检索的特点与标题中心扩展下描述的主要是关于信息检索的高效性和个性化。
在信息爆炸的背景下,用户需要从海量的信息中快速找到满足自己需求的信息。
信息检索的发展趋势
信息检索的发展趋势信息检索作为一种重要的信息处理技术,随着互联网的普及和信息化程度的提高,发展迅速。
信息检索的发展趋势主要有以下几个方面:一、个性化和智能化随着用户信息需求的个性化和多样化,信息检索系统需要更加注重用户个性化需求的满足。
个性化推荐技术可以根据用户的喜好、行为模式等特征,为用户提供个性化的信息推荐服务。
同时,智能化的信息检索系统可以通过机器学习、自然语言处理等技术,对用户的查询进行分析,提供更加准确、智能的搜索结果。
二、知识图谱的应用知识图谱是一种将数据和语义联系在一起的结构化数据表示方法,可以用于构建更加智能、全面的信息检索系统。
知识图谱可以通过整合多种数据源,将数据之间的关系进行建模,使得信息检索系统可以更好地理解用户查询的意图,提供更加准确、相关的搜索结果。
同时,知识图谱还可以用于构建问答系统、智能助手等应用,进一步提升信息检索的智能化水平。
三、跨语言信息检索随着全球化的发展,人们对于跨语言信息的需求越来越多。
跨语言信息检索是指将用户的查询翻译成其他语言,再在其他语言的文档中进行检索。
传统的跨语言信息检索往往面临语言差异、翻译失真等问题,但随着机器翻译技术的进步,跨语言信息检索的效果已经得到了明显的改善。
未来的发展趋势将是进一步提升跨语言信息检索的准确性和效率,为用户提供更好的跨语言搜索体验。
四、多模态信息检索随着多媒体数据的快速增长,传统的文本检索已经无法满足用户对于多模态信息的需求。
多模态信息检索是指在多媒体数据中进行信息检索,包括图像检索、视频检索等。
多模态信息检索涉及到跨媒体的语义理解和匹配,需要融合计算机视觉、自然语言处理等多种技术。
未来的发展趋势将是进一步提升多模态信息检索的准确性和效率,实现多模态信息的无缝检索。
总之,信息检索作为一种关键的信息处理技术,随着互联网的不断发展和技术的不断创新,将会呈现个性化、智能化、知识图谱应用、跨语言检索和多模态检索等趋势。
未来的信息检索系统将会更加满足用户的个性化需求,提供更加准确、智能的搜索结果,促进人们更高效地获取和利用信息。
交互式智能信息检索系统的设计与实现
交互式智能信息检索系统的设计与实现随着互联网的飞速发展,信息爆炸的时代已经到来。
信息检索成为人们获取信息必不可少的手段。
但是,传统的信息检索方式已经难以满足人们的需求。
基于此,交互式智能信息检索系统应运而生。
本文将着重讨论该系统的设计与实现。
一、交互式智能信息检索系统概述传统的信息检索系统通常是基于关键字检索来实现的。
这种方式虽然便捷,但是也存在一些问题,比如检索结果的准确性和信息过载等问题。
而交互式智能信息检索系统则能够通过用户的交互来获取更加准确的信息,并且可以根据用户的反馈来调整检索策略,从而提供更好的搜索结果。
交互式智能信息检索系统主要由以下几个部分组成:1. 用户界面交互式智能信息检索系统的用户界面应该设计的简单易用。
用户可以通过输入关键词、选择检索条件等方式来进行搜索。
此外,用户界面还应该包括一些辅助功能,比如自动补全、推荐搜索等。
2. 检索方法交互式智能信息检索系统的检索方法通常包括语义检索和推荐式检索。
语义检索可以根据用户输入的关键词来分析其含义,并且找到与之相关的信息。
而推荐式检索则通过分析用户的搜索历史和行为以及其他相关因素来推荐相关内容。
3. 数据库交互式智能信息检索系统的数据库包括了各种类型的数据,比如文本、图像、视频、音频等等。
这些数据应该被合理的存储和管理,以便能够快速的响应用户的搜索请求。
二、交互式智能信息检索系统的设计与实现交互式智能信息检索系统的设计和实现要考虑到系统的实用性、可扩展性和可维护性等方面。
下面将分别从这几个方面介绍具体的设计和实现。
1. 实用性交互式智能信息检索系统的实用性主要从以下几个方面来考虑:(1)界面设计交互式智能信息检索系统的界面应该尽量简洁易用。
用户可以通过输入关键词或选择检索条件等方式来进行搜索。
此外,系统还应该提供一些辅助功能,比如自动补全、推荐搜索等。
(2)搜索质量交互式智能信息检索系统的搜索结果应该准确、快速。
系统应该通过优化检索算法、提高数据处理能力等方式来保证搜索效率。
个性化网络搜索引擎的设计与实现
第2 4卷 第 3 期
哈尔滨 师范大学 自然科学学报
NAT AL S I NC S J RNAL OF HARB N NORMA UR C E E OU I L UNI RST VE I Y
个 性化 网络 搜 索 引擎 的设 计 与 实现
概念、 概念 之 间 的联 系及 领 域 内 的基 本 公 理 知识
有一个统一的认识 , 一步 提高 了系统的联想能 进
维普资讯
哈尔滨 师范大学 自 然科学学报
2 0 芷 08
力和精确性 , 为用户提供更有价值 的信息. 具体表现为通过建立元搜索弓 擎 , { 提高查全
齐新军
( 哈尔滨学 院)
Байду номын сангаас
【 摘要】 We b中海量信息源的组织是异构 的、 多元 的和分布的, 这给信 息检 索 系统提 出了巨大的挑战. 本文结合本体论和个性化搜索引擎技术 , 以现有搜 索引擎为
基础 , 用 O t oy工具 , 出 了基 于 内容 的个性 化 We 利 nl og 提 b检 索 系统 的设计 思 想.
量文档信息集合 中找到与给定查询请求相关的文 档 子集 , 就成 为一项 重 要而迫 切 的研 究课 题 . 也 目 国内外对搜索引擎 的研究主要集 中在四 前 类: 全文搜索引擎 、 目录搜索引擎、 元搜索引擎 、 信
息检 索 aet最 新 研 究 主 要 集 中在 信 息 检 索 a gn. —
的返 回结果 , 经过 去 重 、 并 、 次 排 序 处理 后 输 合 初
出到下一个模块. 主要包括 “ 搜索引擎调度算法” 和“ 综合排序算法” . 个性化排序模块 : 根据用户 otoy 中记 nl 表 og 录的用户个人兴趣 的 ot oy n l 权值与信息检索模 og
基于PLSA的个性化Web信息检索系统
“ 问We 文 档 的总 次数 为m. 问的 文档 落在 兴 趣类 i 访 b 访 中的次
数 为 , 将 从 大 到 小 排 列 , 趣 类 标 号 为 排 序 后 的 兴 趣 类 兴 即
K
引擎 进行 搜 索 ; 搜索 引 擎返 回结 果 页后 , 过概 率 潜 在语 义 空 通 间进 行相 关度 重排 以一 定方 式呈 现 给用 户 。 面将 对此 关键 技 下
和 潜 在 兴 趣 , 用 户 查 询 请 求 进 行 扩 展 以 提 高 查 全 率 。 通 过 对 查 询 结 果 的 二 次 重 排 提 高T P X查 准 率 , 而 实现 了 对 O — 从
用 户个性 化 的信 息检 索。
关 键 词 : 率 潜 在 语 义 分 析 ; 性 化 ; 息 检 索 ; e 信 息 检 索 系 统 概 个 信 W b
摘 要 : 析 了 用 户 兴 趣 特 点 及 变 化 规 律 , 用 户 兴 趣 分 为 突 出兴 趣 和 次 要 兴 趣 两 类 。 采 用 We 浏 览 内 容 挖 掘 和 行 分 将 b
为分析相 结合 的 方法 进行 用 户建 模 , 收 藏文 档 采 用P S P o aisi L tn e ni n ls ) 对 L A( rb bl t ae t ma t A a i 生成 用 户 突 出兴趣 ic S c ys
分 析 进 行 加 权 : 用 户 提 出 查 询 请 求 时 , 查 询 请 求 进 行 预 处 当 对 理 后 . 查 询 词 和 用 户 兴 趣 主 题 词 进 行 语 义 相 关 度 计 算 , 将 将 并 前 L 相 关 度 高 的 主 题 词 作 为 扩 展 词 进 行 扩 展 后 提 交 给 搜 索 个
计算 , 以一定 方式 呈 现给 用户 。 于P S 并 基 L A的个 性化 信息 检索
信息检索系统的名词解释
信息检索系统的名词解释信息检索系统是一种用于在大规模信息资源中寻找特定信息的计算机系统。
它基于自然语言处理、信息存储和检索技术,能够帮助人们获取他们需要的相关信息。
一、信息检索系统的基本原理信息检索系统的基本原理是通过建立索引、匹配和排序三个关键步骤来实现信息的查找。
首先,系统会对所涉及的信息资源进行索引建立,这包括对文本、图像、音频和视频等多种形式的数据进行分析和编码,以便于后续的检索。
然后,在用户提出查询请求后,系统会根据查询条件与索引进行匹配,筛选出与查询相关的信息。
最后,系统将根据事先设定的排序算法,按照相关性对筛选出的结果进行排名,以便用户能够快速准确地找到所需的信息。
二、信息检索系统的组成要素1. 用户界面:信息检索系统需要提供用户友好的界面,以便用户能够方便地输入查询语句并浏览检索结果。
用户界面应该简洁明了,同时又能够提供多样化的查询方式,如文本输入、语音识别和图形化界面等。
2. 数据源:信息检索系统所关联的数据源是系统能否提供准确、全面且有用信息的关键。
数据源可以包括互联网上的网页、数据库、文档或是专门收集的数据集等多种形式。
对于大规模的数据源,系统还需要具备强大的处理能力和高效的存储管理机制。
3. 检索引擎:检索引擎是信息检索系统的核心技术之一。
它负责对数据进行分析和编码,并根据用户的查询条件进行匹配。
检索引擎需要具备强大的信息处理和搜索算法,能够将大规模的数据高效地检索出相关的信息。
4. 评价系统:评价系统是用来评估检索结果的质量和相关性的关键组成部分。
通过采集用户反馈,比如点击率、满意度等指标,可以不断优化和改进检索算法和模型,提高系统的准确性和用户体验。
三、信息检索系统的应用信息检索系统广泛应用于各个领域,为人们提供便捷高效地查找和获取信息的工具。
以下是一些常见的应用场景:1. 互联网搜索引擎:搜索引擎是信息检索系统的典型应用,如百度、谷歌等。
它们通过建立海量网页的索引和提供强大的语义分析算法,能够帮助用户快速准确地找到他们需要的信息。
基于智能Agent的用户个性化信息检索系统模型
21 智 能 A et . g n
系统体系结构如图 1 。
A et gn起源 于 2 世纪 7 年代 的人工智 能( I领域 , O O A) 是指 具有感知能力 、问题 。Wolr g o i e和 Jn ig dd enns在 19 9 8年 给 A et gn 定义 为 : A et gn 是一定环境 下的计算机 系统 , 它能够对 所在 的环境进行
反映用户浏览 网站 的历史记 录 、用户查询关 键词 的历史记 录
等。 32 搜 A et .3 . gn
在网络环境 下 , 智能 Aet g 可以看成是代表用户驻 网络的 n
常设机构 , 可以在 网络 中机动地访 问各种 资源和服务 , 可以 还
就完成特定任 务同其他智能 A et gn进行协商 和合作 。
维普资讯
T E c H N o L o G
基于智能A et gn 的用户个性化信息检索系统模型
靳玉红
西南科技 大学信息学院 四川绵阳 6 10 200
摘要 : 本文提 出 了一种基 于智能 Agn 的用户个性化 信息检 索系统模 型 ,通过 多个 A et et g n 的协调 工作 为用户提供
自主性体现在智 能 A et gn 能够在变化 的信息 环境 中 , 在用 户不参 与的情况 下 , 独立地解决 实际问题 。
21 机动性( bly .. 4 Mo i ) i t
据库, 完成搜 索结果 统计 、 户浏览 情况统 计 、 询关键 词统 用 查 计 和搜索引擎使用情况 统计等 。同时 , 形成用户 历史记 录表 ,
、
^
、
、
、 — — ,L
i m r t
信息检索中的推荐系统与个性化服务
信息检索中的推荐系统与个性化服务在当今信息爆炸的时代,越来越多的人面临着信息过载的问题。
信息检索作为解决这一难题的关键技术,已经成为了日常生活中不可或缺的一部分。
然而,如何让人们更加高效地获得所需信息,已经成为一个亟待解决的问题。
在这个背景下,推荐系统和个性化服务应运而生。
推荐系统是基于用户的历史信息和行为,通过算法分析,为用户提供个性化的推荐内容。
它的目标是根据用户的兴趣和偏好,帮助用户发现他们可能感兴趣但又没有主动搜索或发现的信息。
推荐系统以其高度个性化的特点,极大地提高了信息检索的效率和用户体验。
个性化服务是推荐系统的一种形式,它通过收集用户的个人信息和偏好,为用户提供个性化的服务和建议。
个性化服务的最终目标是为用户创造一个舒适、便捷和个性化的环境,满足用户的特定需求。
在信息检索中,个性化服务充分考虑用户的个人差异,为用户提供更加准确和专属的搜索结果。
推荐系统和个性化服务在信息检索中具有重要的作用。
首先,它们可以帮助用户快速准确地找到感兴趣的信息,节省用户的时间和精力。
其次,推荐系统和个性化服务可以根据用户的历史行为和偏好,不断优化推荐结果,提高用户的满意度和忠诚度。
最后,它们可以扩大用户的信息范围,引导用户发现新的兴趣领域和新的信息源,丰富用户的知识和体验。
为了实现有效的推荐系统和个性化服务,需要借助大数据和人工智能等先进技术。
通过对大量用户行为数据的分析和挖掘,可以建立用户兴趣模型和用户画像,进而为用户提供个性化的推荐结果和服务。
同时,通过机器学习和深度学习等技术,可以不断优化推荐算法,提高推荐系统的准确性和效果。
然而,推荐系统和个性化服务也面临一些挑战和问题。
首先是隐私问题,收集和分析用户的个人信息存在隐私泄露的风险。
其次是算法黑盒化问题,推荐系统的算法常常是不透明的,用户对于推荐结果的理解和信任度有限。
此外,过度依赖推荐系统和个性化服务也容易造成信息的封闭性和局限性,使用户对多样化信息的探索能力下降。
面向用户的个性化信息检索
检 索 系 统 , 用 程 序 代 替 人 去 完 成 信 息 收 集 、 整 坤 、 分 类 、过 滤 、聚 类 等 繁 杂 任 务 , 从 而 实 现 信 息 检 索 系 统 的
个性化 。 [
进 行 分 类 ,最 后 将 结 果 传 递 给 用 户 ;用 户 收 到 信 息 后 , 町 对 结 果 的 满 意 度 和相 关 度 进 行 评 价 。并 将 这 些 评 价 反馈 给 以上 3个 模 块 。该 体 系 的 培 本 职 责 足 …方 向 不 断 通 过 学 习 ・ 修 正 用 户 兴 趣 模 块 , 另 一 方 面 不 断 完 善 信 息 加 1和信 息 相 _ =
泛 存 在 ,这 种 不 加 区 分 的 用 户 接 f 经 不 能 满 足 州 户 个 性 1已
用 户 管 理 层
用 户
信 息 管 理 层
化 的 信 息 检 索 要 求 我 们 设 汁 一 个 输 人 模 块 来 帮 助 用 户 更 准确地表达信息需求 。 此 模 块 由 4个 部 分 组 成 :模 板 、 典 、关 键 词 、同 义
求 选 用 最 能 表 达 用 f需 求 的 关 键 同 ,因 此 有 利 于 提 高 查 全 r L t 率 。个 性 化 信 息 检 索 模 块 是 该 体 系结 构 的 核 心 ,其 功 能 是 根 据 用 户 不 同 的 信 息 需 求 。搜 索 不 同 的 信 息 源 。 并 通 过 Otoy能 对 文 档 进 行 概 念 分 析 分 类 的 特 性 对 检 索 结 果 nl og
实有 利 于提 高壹 准 率和 查 全 率 。
[ 图分 类 号 ] C 5 中 34 【 献标 识 码 】 A 文
[ 章 编 号 ] 10 —8 1 (06)6 0 1 0 文 05 24 20 0 —04 — 3 针 对 信 息 特 征 , 人 们 提 ‘将 人 工 智 能 技 术 引 入 信 息 } j
网络信息检索的移动化的特点和影响
网络信息检索的移动化的特点和影响网络信息检索的移动化指的是将网络信息检索的过程和功能通过移动设备(如智能手机和平板电脑)进行实现和提供。
随着移动设备的普及和移动互联网的发展,越来越多的人选择使用移动设备进行信息检索和获取。
以下是网络信息检索移动化的一些特点和影响:1.随时随地访问:通过移动设备可以随时随地访问互联网,进行信息检索。
不需要依赖于桌面电脑或其他固定设备,用户可以随时满足信息需求,无论是在家中、办公室还是在旅途中。
2.信息个性化推送:移动设备通常具有个性化推送功能,根据用户的兴趣和偏好,提供定制化的信息推送服务。
通过分析用户的历史搜索记录、位置信息和社交网络等,为用户提供更精准和相关的搜索结果。
3.移动搜索应用的发展:为了适应移动化的需求,许多搜索引擎和服务提供商推出了针对移动设备的搜索应用程序,如移动搜索引擎、应用商店等。
这些应用通常提供更简洁、易用和适应移动设备屏幕的搜索界面。
4.地理位置和本地搜索:移动设备通常具有定位功能,使得用户可以进行基于地理位置的搜索。
例如,搜索附近餐厅、商店、景点等信息。
本地搜索提供了更具实用性和实时性的搜索结果。
5.增强现实技术的应用:移动设备的摄像头和增强现实技术的结合,使得用户可以通过拍摄现实场景获取相关的网络信息。
例如,扫描商品条码获取商品详细信息,扫描建筑物获取相关历史文化背景等。
6.移动搜索推广和广告:随着移动搜索的普及,移动搜索推广和广告也得到了发展。
广告商可以通过移动搜索平台投放广告,以更精准地接触到目标用户,并提供更高的转化率。
网络信息检索的移动化带来了更便捷、个性化和实时的搜索体验。
同时,它也对搜索引擎和服务提供商提出了更高的要求,使得他们需要不断创新和改进,以适应移动设备用户的需求。
计算机信息检索系统的构成
计算机信息检索系统的构成计算机信息检索系统是一种用于从大规模数据集合中快速、准确地检索和获取相关信息的系统。
它是由多个组成部分构成的,这些组成部分相互协作,以实现高效的信息检索和处理。
以下是计算机信息检索系统的主要构成部分:1. 用户界面:用户界面是用户与信息检索系统进行交互的窗口。
这可以是一个命令行界面、图形用户界面或者Web界面。
用户通过界面输入检索请求,浏览检索结果,并与系统进行交互。
2. 检索引擎:检索引擎是信息检索系统的核心组件。
它负责根据用户的检索请求在数据集合中快速查找并返回相关的信息。
检索引擎通常采用索引结构来优化检索速度,例如倒排索引和哈希索引。
3. 数据库管理系统:数据库管理系统(DBMS)用于存储和管理信息检索系统的数据集合。
它提供了数据的索引、存储和更新功能,并保证数据的一致性和完整性。
常见的DBMS包括关系型数据库、文档数据库和图数据库等。
4. 数据预处理模块:数据预处理模块用于对原始数据进行清洗、过滤、分词和标记等操作,以便于后续的索引和检索。
数据预处理模块还可以提取关键词、生成摘要和识别语义关系等功能,以提高检索的准确性。
5. 数据存储和索引:数据存储和索引是信息检索系统的基础。
它们负责将数据集合以适合检索的方式进行存储和组织,并构建索引以提高检索效率。
数据存储和索引可以基于文件系统、数据库或者分布式文件系统等技术实现。
6. 检索算法:检索算法决定了系统如何根据用户的检索请求计算并排序相关的文档或信息。
常见的检索算法包括向量空间模型、概率模型和基于机器学习的排序模型等。
检索算法可以根据不同的需求进行定制和优化。
7. 评估和反馈模块:评估和反馈模块用于评估检索结果的质量,并根据用户的反馈进行调整和改进。
通过用户的评价和点击行为等反馈信息,系统可以不断优化检索算法和模型,提供更准确和个性化的检索结果。
8. 网络通信和安全:网络通信和安全是计算机信息检索系统的重要考虑因素。
检索系统简介介绍
信息获取
检索系统是现代社会信息获取的 重要工具之一,它能够快速、准 确地查找出所需信息,提高工作
效率和生活品质。
数据处理和分析
检索系统在数据处理和分析领域 中也发挥着重要作用,它能够从 大量的数据中提取出有价值的信
息,为决策和预测提供支持。
知识管理和传承
检索系统有助于知识的积累、管 理和传承,它能够将大量的知识 进行分类、组织和索引,方便用 户查询和使用,促进知识的传播
提供网页、图片、视频、新闻 、地图等搜索服务。
搜狗搜索算法注重提供准确、 相关的搜索结果,并强调对用 户隐私的保护。
支持多种搜索语法,如关键词 搜索、高级搜索、布尔搜索等 。
04
检索系统的优化建议
提高信息质量
精确匹配算法
采用精确匹配算法,确保用户输入的关键词与检索结果中的信息 完全匹配,提高检索准确率。
特点
检索系统具有高效性、准确性和便捷性等特点。它能够根据 用户的查询需求,快速地搜索和筛选出相关信息,并对其进 行排序和展示,使用户能够更加方便地获取所需信息。
检索系统的应用范围
01
互联网搜索
搜索引擎是互联网上最常用的检索系统之一,它能够根据用户的关键词
输入,快速地搜索出相关的网页、图片、视频等信息。
和应用。
02
检索系统的工作原理
检索系统的工作原理
• 检索系统是一种用于信息检索的工具,它可以帮助用户快速、 准确地找到所需的信息。随着互联网的快速发展,检索系统在 各个领域都得到了广泛的应用。下面将分别介绍检索系统的工 作原理以及在信息检索过程中的各个环节。
03常见的检索系统搜索全球最大的中文搜索引擎,日均搜索 请求量达数十亿次。
06索引擎,通过不断优化算法和提升用户体验,行分类和匹配,等功能,提高用户体验和搜索效 率。
个性化推荐系统中的信息检索技术应用
个性化推荐系统中的信息检索技术应用引言个性化推荐系统是在互联网发展的背景下应运而生的一项重要技术,它通过分析用户的兴趣、行为和偏好,提供个性化的推荐服务。
而信息检索技术在个性化推荐系统中扮演着重要的角色,它能够从庞大的信息库中准确地检索出用户感兴趣的内容。
本文将探讨个性化推荐系统中信息检索技术的应用。
第一章个性化推荐系统概述个性化推荐系统是为了解决信息过载问题而产生的一种智能推荐技术。
它通过分析用户的历史行为、兴趣和偏好,利用算法模型和机器学习方法,向用户推荐可能感兴趣的内容。
个性化推荐系统的目标是提高用户的满意度和体验,增加网站的用户粘性和转化率。
第二章信息检索技术在个性化推荐系统中的应用2.1 用户兴趣建模个性化推荐系统首先需要对用户的兴趣进行建模,以便准确地推荐相关内容。
信息检索技术可以通过分析用户的搜索历史、点击行为和购买记录等数据,将用户的兴趣进行抽象和建模。
例如,可以使用TF-IDF算法对用户的搜索关键词进行权重计算,从而找出用户关注的主题和领域。
2.2 内容特征提取个性化推荐系统需要对推荐内容进行特征提取,以便与用户的兴趣进行匹配。
信息检索技术可以从文本、图片、音频和视频等多媒体内容中提取关键特征。
例如,可以使用NLP技术对文本进行分词和词频统计,以及对图片和音频进行特征提取和相似度计算。
2.3 相似度计算个性化推荐系统需要计算用户的兴趣与推荐内容之间的相似度,以便进行推荐排序和筛选。
信息检索技术可以利用文本相似度算法、基于内容的推荐算法和协同过滤算法等,计算用户与内容之间的相似度。
例如,可以使用余弦相似度算法计算用户的兴趣和文章的相似度,从而进行精准的推荐。
第三章个性化推荐系统中的信息检索技术挑战3.1 数据规模和效率个性化推荐系统中的数据规模通常非常巨大,包含了大量的用户和内容信息。
信息检索技术需要能够高效地处理大规模数据,并且在短时间内完成准确的推荐。
因此,如何提高信息检索的效率和处理大规模数据的能力是个性化推荐系统中的一个重要挑战。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
●鲍 君(北京师范大学信息管理系 北京 100088)个性化网络信息智能检索系统设计 摘 要:本文结合现有的智能技术,提出了一个个性化网络信息智能检索模型。
该模型能够对用户行为进行学习,从而建立一个反应用户兴趣的用户模型。
而针对网络分布式的特点建立的检索代理模型,则能够通过对大量用户数据的分析积累丰富的知识。
通过用户模型与检索代理模型的交互过程,向用户提供满意的检索结果。
关键词:信息检索;智能代理/检索模型;个性化信息服务Abstract:This paper puts forward a m odel of individual netw ork in formation intelligent retrieval according to the characteristics of distributed netw ork res ources and the users’interest.The system can learn what users need by studying their behaviors during the process of retrieval and then build a m odel for them,which can reflect their interest in certain field.Meanwhile,the retrieval agent,which runs on the server side,can learn abundant knowledge through interacting with a group of people.Therefore,the system can provide users with satis fying results by interaction between the user m odel and the retrieval agent m odel.K eyw ords:in formation retrieval;intelligent agent/retrieval m odel;individual in formation service 因特网的发展,使人们真正感受到信息化时代的气息。
然而,人们却越来越感受到因特网这个“数字时代的图书馆”并不像真正的图书馆那样支持有组织的信息管理和检索。
恰恰相反,其无限性和无序的组织方式,使之更像一个杂乱的信息仓库,各种形式的资源分布在不同的位置上,使其从根本上丧失了结构性,转瞬即逝的普通信息与具有持久价值的重要资料混杂在一起,这一切都对网络资源的利用造成了很大的困难。
搜索引擎的出现,曾一度给人们带来惊喜,并且目前也被广泛应用。
但由于多数搜索引擎处理信息的方法都比较原始,即通过对WWW页面进行索引和关键词匹配来满足用户的检索请求。
这种方法有其自身难以克服的缺点:①任何一个搜索引擎的索引也无法覆盖整个网络资源,因而,其返回结果是不完全的;②由于采用简单的关键词匹配模式,搜索引擎对一条检索请求可能返回数以千计的结果,而且其中常涉及一些无关的网址,用户必须在此基础上对结果进行二次筛选,这不仅增加了用户的负担,同时也降低了处理效率。
因而,人们期待着更为有效的网络检索工具的出现。
新的网络检索工具应尽可能满足不同用户的个性化需求,在检索的准确性和有效性方面达到要求。
1 个性化智能信息检索系统框架系统的总体设计思想是根据用户在特定领域中的兴趣偏好,在客户端定制一个用户模型,通过对用户行为的监测,来不断地修改和维护这一模型,从而提高用户模型与其实际兴趣偏好的吻合度。
用户模型的工作实际上就是对用户兴趣的推导和表征过程。
用户模型的作用主要包括:①获取与用户相关的信息;②对用户的能力和爱好确定表示方法;③预测用户潜在兴趣的转变并做出相应的调整。
用户模型是实现个性化服务的一个重要方面,模型的准确性是系统检索结果相关性高的基础。
用户模型的建立涉及到多个模块的协同工作,主要的功能模块包括:①用户界面;②查询模块;③用户行为监测模块;④知识库;⑤信息库管理模块;⑥智能代理模块。
系统框架如图1所示。
图1 系统总体框架111 用户界面用户界面是用户与系统交互的窗口,优化的界面不仅为用户的操作提供了极大的方便,也为系统更好地接收用户反馈信息提供了基础。
传统的用户界面一般只具有接收用户检索请求和反馈结果的功能。
而作为信息用户与智能信息检索系统的接口,它还应具备获取用户反馈信息和对用户行为进行动态监测的功能。
具体表现为:1)用户个人档案。
当用户首次登录时,系统允许用户通过注册建立起自己的个人档案,内容涉及用户身份、知识背景、兴趣领域等方面的内容。
用户档案的建立可以使系统便于对用户兴趣进行后续分析,且为具有相近兴趣的用户进行分组提供了基本的信息来源。
2)虚拟用户界面。
用户界面是由一系列单独的界面组合而成的整体,包括检索接收界面,交互式学习界面等。
界面之间彼此联系构成了与用户交流的有效平台。
系统可以根据用户的操作特点对界面布局进行动态改造,形成符合用户操作习惯的虚拟界面,突出用户的个性化特征,提高使用效率。
3)检索反馈控制。
用户对系统的返回结果拥有一定的控制权,体现在:用户可根据自身的操作习惯定制结果显示模式(排序方式、详尽程度等),处理方式(浏览、下载、打印等)。
此外,系统还建立了检索结果的评价机制,鼓励用户对检索结果给出量化的评价值,该值会被存储在网页数据库中,以方便系统进行学习,调整网页的相关度,使用户的下一次访问能够得到更为准确的结果。
112 查询模块查询模块处于整个系统的核心位置,在系统运作中起着十分重要的作用。
传统检索系统的主要功能集中在用户查询词与已标引的网页资源的简单匹配上。
这种仅局限在词形层次上的匹配方式,针对网络信息环境,其漏检率很高。
并且,由于缺乏对用户反馈信息的处理,系统的整体检索效率并没有很大的提升空间。
本系统充分考虑到上述问题,对查询模块做出了相应的改进,使其具有智能性,能够对用户的查询请求进行自主性判断,选择合适的处理方案,将最相似的检索结果提交给用户。
当用户从检索界面提交了一个查询请求后,查询模块首先访问知识库中的用户信息表,获取该用户的兴趣点,这里,用户的每一个兴趣点用一组关键词来表征,将其与查询词进行比较,验证它是否属于用户已存在的兴趣:①若属于用户兴趣,则直接利用描述该兴趣的关键词通过信息库管理模块与本地个性化信息库中的资源进行匹配。
系统中个性化信息库同样按照兴趣类存储。
②若查询词不属于任何一个用户已有的兴趣,那么它有可能涉及一个新的知识领域,系统将其提交给智能检索代理进行新的查询操作,并将查询结果按上述规则保存在本地信息库中,从而丰富信息库的内容。
通过访问兴趣表可对用户的查询进行扩充,扩大用户的知识面,丰富检索结果。
由于系统中描述用户兴趣点的关键词是从具有相近任务的智能代理(Agent)那里学习得到的,因而准确率很高,对用户有很好的提示作用。
这是本模块智能性的一个重要体现,它不再局限于用户某一次的检索输入,而是把检索请求进行概念上的扩充,并与用户的检索历史联系起来,这对检索效果的改善将起到至关重要的作用。
并且,检索模块能够根据用户的实时反馈对检索结果进行动态调整,即通过对检索结果重新排序使与用户相关的结果被排在更为显著的位置。
这一点是通过计算网页间的相关度值实现的。
113 用户行为监测模块用户行为监测模块是系统学习的主要手段,它是一种所谓的“被动式”学习,即在没有用户直接参与的情况下,通过对用户行为的观察来理解用户的意图,从而改进系统的服务模式。
这种学习过程对用户是透明的。
本系统中用户行为监测主要有以下几方面功能:1)记录用户对结果显示中每个页面链接的点击次数,用一个权值来代表它的点击频度,用户每点击一次,该权值就作相应的增加,以此来学习各超链接对用户的重要程度。
2)计算用户对页面的浏览时间,时间越长则认为该页面的相关度越高。
3)记录用户对文档特定部分的操作,如对某一部分的复制,往往这些部分含有用户所需的重要内容,模块通过对这些部分进行分析,可以准确抓住用户的兴趣点。
用户行为监测模块通过以上对用户行为的分析,将结果反馈到知识库的相关表中,使用户的下一次查询能够得到更优化的结果。
由于行为监测模块依据用户的实际行为做出兴趣推导,因而,具有客观性,是一种有效的学习方法。
对特定用户历史操作行为的分析过程,也是系统增强对用户的理解的过程,因而奠定了实现个性化服务的基础,同时,也是系统智能化的一个重要表征。
114 知识库智能系统的核心在于对用户的学习,从这个意义上讲,知识库的主要作用即在于记载对用户学习的成果。
体现在对用户兴趣的推导、总结、更新和维护。
为了在划分用户兴趣类别时有据可依,知识库还应起到规范知识体系的作用。
为此,系统中将知识按照一种分级索引模型进行组织,这种分级结构能够促进知识库的有效搜索和对知识库的动态管理。
该模型自然而动态地表达了知识的层次结构。
便于对其进行语义上的扩充,如当用户查询与某个知识点有关的兴趣时,很容易找到其更高层次上的相关知识,从而从概念上对查询作出扩充。
我们在建立知识体系时只将最常用的知识领域列在其中,在用户的使用过程—224—・第27卷2004年第4期・中,系统会根据用户不断提出的新的需求来扩充自身,使其不断完善。
随着用户对系统使用频率的增多,知识库也会因不断注入此用户的思想而变得具有个性特征。
知识库对用户兴趣的学习主要体现在以下方面:①用户可以根据自己的知识背景对知识体系中不适合自己的知识点进行人为修改,但对于已在实践中得到了广泛验证的体系结构,不允许用户修改,以防止用户的误操作,知识库管理程序会给用户设定相应的权限。
这是系统的“主动式”学习,它具有直观性的特点,并且有助于加快系统的学习速度。
②根据用户行为监测模块提交的用户行为分析结果,归纳出用户在一段时间内检索过的兴趣点,增加其在知识库中的权值,以巩固用户这方面的兴趣。
将新增兴趣按知识体系添加到相应位置,并赋予一个较大的权值,而对用户一段时间内没有访问过的兴趣,减少它的权值。
这样,一段时间以后,知识库中的兴趣点将会随用户潜在兴趣的迁移而相应地发生变化,进而实现对用户兴趣的动态追踪。
通过以上两种方式的学习,知识库能够很好地把握用户的兴趣点,并具有根据用户兴趣调整而做出反应的自适应能力,较好地实现了系统与用户的交互。
115 信息库管理模块信息库管理模块的职责是管理本地的个性化信息库(Pers onalized In formation Database,PI D),PI D中的信息按照兴趣类存储。
每个兴趣类都与知识库中的知识点相对应,依照知识库的变化,信息库管理模块会对个性化信息库进行定期检查,把不符合用户兴趣的类及其相应的资源删去,加进用户新产生的兴趣类,并利用智能Agent在网络上寻找相关信息,存储在本地信息库中。