搜索引擎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信J 『 l 息 产 业
科
搜 索 引 擎
张剑 瑛
Βιβλιοθήκη Baidu
( 南京航 空航 天大学信息科 学与技 术学院, 江苏 南京 2 0 1) 10 6
摘 要: 阐述了深入开发 大规模数据库资源所采用的几项新技术及如何采用搜索引擎查找 it t n me 网上丰富的信 息资源及搜索 引擎发展 动向。 e 关键词: 息资源; 信 数据仓库; 联机分析处理; 数据挖掘; t nt搜 索引擎 ie e nr 随着 各类信息系统 与数据库 的建立 , 如何 开发信 息资源使之 有效地在管理 和决策 中发挥 作用 , 急需解决的问题 。利用数据仓库技术 、 是 联机分析处 理 (l ) o p 技术 、 a 数据挖 掘( m) d 和知 识发现(d) k d这些工具从大规模数据集合 中挖掘 深 层信息 。因特 网的迅 猛发展 ,e 信息 的增 wb 加, 快速有效地查询信息亦是信息资源开发利 用 的一个重要部分 。搜索引擎技术解决了用户 查找 i e e 信息 的困难 , nmt t 目前搜 索引擎技术正 成为 计算机科学 界和信息产业界 争相研究 、 开 发 的对象 。本文 旨在对 以上的几项新技 术进行 简单 的介绍 , 以起到抛砖引玉的作用。 1大规模数据库资源深入 开发的新技术 1 , 1数据仓库技术 数据 仓库是 支持 管理决 策过程 、面 向主 题、 集成 的 、 稳定 的数据集合 , 它将 大量用 于事 务处理的传统数据库进行 清理 、 抽取和转换 , 并 按决策主题的需要进行重新 组织 。数据仓库 的 逻辑结构可分为近期基本 数据层 、历史数据层 和综合 数据 层 ( 中综 合数 据是为 决策 服务 其 的) 数据仓库 中数据 的物理存储形式有多维数 。 据库组 织形 式和 基于关 系数 据库组 织形 式两 种。 前者的数据组织以空间超立方体形式存在 , 后者 由关 系型事实表 和维表组成 。这种高度集 中的数 据为各 种不 同决策需求提供 了有用 的分
索引擎的使用及技术动向 224用户接 口: .. 用户接 口的作 用是输入用 搜索引擎是指因特网上专 门提供查 询服 务 户查询 、 显示查询结果 、 提供用户相关性反馈机 的一类网站 , 网站通过 网络搜索软件 ( 这些 又称 制。用户输入接 口可 以分为简单接 口和复杂接 为网络搜 索机器人 ) 或网站登 录等方式 , 收集 因 口两种。简单接 口只提供用户输入查询串的文 特网上大量网站的页面 , 经过加工处理后建库 , 本框 , 复杂接 口 以让用户对查询进行限制。 可 从而能够对用 户提出的各种查 询作 出响应 , 提 23未来发展趋势 - 供用 户所需 的信息 。 en 于 2 0 年 7 2 据 ni e 00 月 7 随着 w w信息 的指数增加 , w 目前 的搜 索引 E发布的统 计资料 ,搜索引擎的使用 已经 占到 擎存在搜 索速度慢 、 1 死链接太多、 重复信息或不 网络应用的 5 . %, 为中国当前第 二大互联 相关信息较多 ,越来越难以满足人们 各种信 息 51 成 9 网应用 , 仅次 于收发 e m i 搜 索引擎的重要性 需求 , — a, l 搜索 引擎将 向智 能化、 精确化 、 交叉语 言 已成为 网站建设的重要功能。 检 索、 多媒体检索 、 化等适应不 同用户需求 专业 21搜索 引擎 的使用 . 的方向发展 。 目前几个 比较 大的中文搜索引擎是 : 雅虎 2 . 智能化 的搜索引擎 : .1 3 智能检索系统是 中国 ( 网址 :t : n ao . m 简体 ) 搜 狐( h p / . ho o ( t/ y c e ) ; 网 搜 索引擎 的发展方向。它利用智能代理技术对 址 :u :w w.h . m)新 浪 ( h p/ w s uc : / o o 网址 :t :w w 用 户的查询计划 、 图、 ht / w . p/ 意 兴趣方 向进行推 理 , 用 s acm. ) i . e ;网易 ( n o n 网址 :t / w 13cr) 自动获得 的知识进行信 息搜集过滤 , 自 ht / w. . n p:w 6 o 动地将 等, 这些网站一般都提供“ 分类检索 ” 关键 词 用户感兴趣的 、 和“ 对用户有用 的信息提交给用户 。 查询” 的普通搜索功能 , “ 分类检索 ” 是从搜索 首 智能代理具有 不断学 习、适应信息和用户兴趣 页按照树型 的主题 分类逐 层点击来查找所需 信 动态变化的能力 , 从而提供个性化 的服务 。 息的方法 ;关键词查询 ”是用所需信息 的主题 “ 232实现交叉语 言的检索 : 索引擎对多 .. 搜 ( 关键词 ) 行查询 的方法 。 进 种语言的数据库进行交叉语言信息检索 ,返 回 在 i e e 如此浩 瀚的信息 海洋里 寻找信 能够回答 用户 问题 的所有语言的文档。若配上 nr t tn 息, 首先 , 该使用 一个 以上搜索引擎 。除非你 机器翻译 ,就可使返 回结果 以用户熟悉的语言 应 第 一次就 发现完美 的搜索结果 ,否则就应该搜 显示。 虽然该技术 目 前还处 于初步研究 阶段 , 其 索第 二次 和第三次 。如果你不搜索一个 以上搜 难点在于语言之 间在表达方式和语义对应上的 索 引擎 , 你将错过很多 网络资源 。其二 , 平时通 不确定性 , 但其确是发展方 向。 过大 量实践 , 仔细体会每个搜索引擎的特色 和 23 多媒体搜索 引擎 : _3 _ 随着宽带技术 的发 功能 。其三 , 统计表 明, 很多用户只输入一个词 展 , 的互联 网是多媒体数据的时代。 未来 开发出 进行查询 , 查询结果往往有很多不需要的匹配 。 可查询 图象 、 声音 、 图片和电影的搜索引擎是 一 建议 同时使用多个词 以缩小搜索范围。 四, 其 如 个 新 的方 向 。 果你最初 的查找并不成功 ,可以用同义词进行 2 .专业化搜索 引擎 : .4 3 综合性 的搜索 引擎 查找 。 收录各 方面 、 各学科 、 各行业 的信息 , 而专题性 22搜索引擎的主要技术 . 的搜索引擎则是为了专门收录某一行业 、某一 个搜索引擎 由搜索器、 索引器、 检索器和 主题和某一地 区的信息而建立 , 保证 了对该领 用户接 口四个部分组成。 域信息 的收录齐全与更新 及时 , 常实用 , 非 如商 221 .. 搜索器 : 搜索器 的功能是在互联 网中 务查询 、 企业查询 、 人名 查询 、 电子 邮件地址查 漫游 , 发现和搜集信息。 它常常是一个计算机程 询和专业信息查询等。 序 日夜不停地运行 。 它要尽可能多 、 尽可能快地 参 考 文 献 搜集各种类型的新信息和定期更新 已经搜 集过 [】 1李建 中. 据库技 术向何 处去 . t:w wci 数 h p /w . — t/ c e te m, 9 9 1 . 的旧信息 , 以避免死连接 和无效连接 。 索器的 d n .o 1 9 / 2 搜 2张 康 数 h p /w . - t/ c 实现常常采用分布式、 并行计算技术 , 以提高信 【] 澜 , 增 培 . 据 仓 库 白皮 书 . t:w wci d n .o , 0 / . e tc r 2 013 n 息发现和更新的速度。 222索引器 : .. 索引器 的功 能是 理解搜 索器 【] 3赛迪 网咨询部 . 内搜 索引擎市场调 查报告. 国 t / p:www.ed n.o mak t e ot2 0 1 /5 c ie t m/ r e/ p r 0 0/02 / c r / 所搜索的信 息 , 从中抽取 出索 引项 , 用于表 示文 ht / 档以及生成文档库的索引表。索 引器可 以使用 【 晓 明, 4 降 刘建 国. 索 引擎技 术及趋 势.t/ 搜 h p/ t: ciet r 20 /. se 集中式索引算法或分布式索 引算法 。索 引算法 www.e d n .o . 0 0 3 对索引器的性能 ( 如大规模峰值查询时 的响应 [ 刘晓华. 索相擎挑 战智能化 . 电脑世界, 5 ] 搜 微 速度 ) 很大的影 响。 有 2o( oou. 2 _ 检索器 : .3 2 检索器的功能是 根据用户 的 [ 范新 宇. 索相 擎渐入 佳境 微 电脑世界 , 6 】 搜 查询 在索引库中快速检 出文档 ,进行文档 与查 2 0 () 001. 询的相关度 评价, 对将要输 出的结果进行排序 , 并实现某种用户相关性反馈机制 。检索器 常用
一
一
9 3—
析基 础 。
k d和 d d m。
2 网上信息资源开发利用 的新技 术一
的信息检索模型有集合理论模型 、 代数模型 、 概 搜 率模型和混合模 型四种 。
1 . 2联机分析处理(lp 技术 oa ) 随着 数据仓库 的发展 ,l o p也 得到迅 速发 a 展 。 lp是在联机事务处 ̄(l ) oa op 基础上发展起 t 来 的一种共享多维信息的快速分析技术 ,这与 数据 库中多维数据 组织正好形成 相互 结合 、 相 互补充 的关 系。其典型的应用有对银行信用卡 风险 的分析与预测 、公司市场营销策略的制定 等。 o p 术 中 比较 典型 的应用是 对 多维 数 l 技 a 据进行交互式查询和数据分析 , 交互式操 作有 多种 ,主要 包括对 多维数据的切 片和切块 、 钻 取、 旋转等 , 它便于使用者从不同角度提取有关 数据 。o p l 技术还能够利用分析过程对数据 进 a 行深入分析和加工 。 1 . 3数据挖掘( m) d 和知识发现(d ) k d d m和 k d也是为解决数 据库 数据量 的爆 d 炸性增长与开发利用困难的矛盾应运而生 的信 息技术 。k d d 是从数 据库大 量的数 据 中通过分 析提取出隐含的、 新颖的、 有效 的并能被人理解 的规则或模式的高级处理过程 。这 里的规则或 模式即是我们平常所说的知识 。它给 出数据 的 某些特性或数据之间的关 系 ,是对数据处理后 获取的更深层 次的可供决策支持 的信息 。实 际 上从逻辑关 系上讲 ,m和 kd是包含关 系 , d d d m 是 kd d 中的一个 步骤 , 它主要是利用某些特定 的知识发现算 法 , 在一定 的运算效率的限制 内, 从数据 中发现 出有关 的知识 ,但 d m是 k d中 d 最重要的一步。 因此 , 往往可 以不加 区别地使用
科
搜 索 引 擎
张剑 瑛
Βιβλιοθήκη Baidu
( 南京航 空航 天大学信息科 学与技 术学院, 江苏 南京 2 0 1) 10 6
摘 要: 阐述了深入开发 大规模数据库资源所采用的几项新技术及如何采用搜索引擎查找 it t n me 网上丰富的信 息资源及搜索 引擎发展 动向。 e 关键词: 息资源; 信 数据仓库; 联机分析处理; 数据挖掘; t nt搜 索引擎 ie e nr 随着 各类信息系统 与数据库 的建立 , 如何 开发信 息资源使之 有效地在管理 和决策 中发挥 作用 , 急需解决的问题 。利用数据仓库技术 、 是 联机分析处 理 (l ) o p 技术 、 a 数据挖 掘( m) d 和知 识发现(d) k d这些工具从大规模数据集合 中挖掘 深 层信息 。因特 网的迅 猛发展 ,e 信息 的增 wb 加, 快速有效地查询信息亦是信息资源开发利 用 的一个重要部分 。搜索引擎技术解决了用户 查找 i e e 信息 的困难 , nmt t 目前搜 索引擎技术正 成为 计算机科学 界和信息产业界 争相研究 、 开 发 的对象 。本文 旨在对 以上的几项新技 术进行 简单 的介绍 , 以起到抛砖引玉的作用。 1大规模数据库资源深入 开发的新技术 1 , 1数据仓库技术 数据 仓库是 支持 管理决 策过程 、面 向主 题、 集成 的 、 稳定 的数据集合 , 它将 大量用 于事 务处理的传统数据库进行 清理 、 抽取和转换 , 并 按决策主题的需要进行重新 组织 。数据仓库 的 逻辑结构可分为近期基本 数据层 、历史数据层 和综合 数据 层 ( 中综 合数 据是为 决策 服务 其 的) 数据仓库 中数据 的物理存储形式有多维数 。 据库组 织形 式和 基于关 系数 据库组 织形 式两 种。 前者的数据组织以空间超立方体形式存在 , 后者 由关 系型事实表 和维表组成 。这种高度集 中的数 据为各 种不 同决策需求提供 了有用 的分
索引擎的使用及技术动向 224用户接 口: .. 用户接 口的作 用是输入用 搜索引擎是指因特网上专 门提供查 询服 务 户查询 、 显示查询结果 、 提供用户相关性反馈机 的一类网站 , 网站通过 网络搜索软件 ( 这些 又称 制。用户输入接 口可 以分为简单接 口和复杂接 为网络搜 索机器人 ) 或网站登 录等方式 , 收集 因 口两种。简单接 口只提供用户输入查询串的文 特网上大量网站的页面 , 经过加工处理后建库 , 本框 , 复杂接 口 以让用户对查询进行限制。 可 从而能够对用 户提出的各种查 询作 出响应 , 提 23未来发展趋势 - 供用 户所需 的信息 。 en 于 2 0 年 7 2 据 ni e 00 月 7 随着 w w信息 的指数增加 , w 目前 的搜 索引 E发布的统 计资料 ,搜索引擎的使用 已经 占到 擎存在搜 索速度慢 、 1 死链接太多、 重复信息或不 网络应用的 5 . %, 为中国当前第 二大互联 相关信息较多 ,越来越难以满足人们 各种信 息 51 成 9 网应用 , 仅次 于收发 e m i 搜 索引擎的重要性 需求 , — a, l 搜索 引擎将 向智 能化、 精确化 、 交叉语 言 已成为 网站建设的重要功能。 检 索、 多媒体检索 、 化等适应不 同用户需求 专业 21搜索 引擎 的使用 . 的方向发展 。 目前几个 比较 大的中文搜索引擎是 : 雅虎 2 . 智能化 的搜索引擎 : .1 3 智能检索系统是 中国 ( 网址 :t : n ao . m 简体 ) 搜 狐( h p / . ho o ( t/ y c e ) ; 网 搜 索引擎 的发展方向。它利用智能代理技术对 址 :u :w w.h . m)新 浪 ( h p/ w s uc : / o o 网址 :t :w w 用 户的查询计划 、 图、 ht / w . p/ 意 兴趣方 向进行推 理 , 用 s acm. ) i . e ;网易 ( n o n 网址 :t / w 13cr) 自动获得 的知识进行信 息搜集过滤 , 自 ht / w. . n p:w 6 o 动地将 等, 这些网站一般都提供“ 分类检索 ” 关键 词 用户感兴趣的 、 和“ 对用户有用 的信息提交给用户 。 查询” 的普通搜索功能 , “ 分类检索 ” 是从搜索 首 智能代理具有 不断学 习、适应信息和用户兴趣 页按照树型 的主题 分类逐 层点击来查找所需 信 动态变化的能力 , 从而提供个性化 的服务 。 息的方法 ;关键词查询 ”是用所需信息 的主题 “ 232实现交叉语 言的检索 : 索引擎对多 .. 搜 ( 关键词 ) 行查询 的方法 。 进 种语言的数据库进行交叉语言信息检索 ,返 回 在 i e e 如此浩 瀚的信息 海洋里 寻找信 能够回答 用户 问题 的所有语言的文档。若配上 nr t tn 息, 首先 , 该使用 一个 以上搜索引擎 。除非你 机器翻译 ,就可使返 回结果 以用户熟悉的语言 应 第 一次就 发现完美 的搜索结果 ,否则就应该搜 显示。 虽然该技术 目 前还处 于初步研究 阶段 , 其 索第 二次 和第三次 。如果你不搜索一个 以上搜 难点在于语言之 间在表达方式和语义对应上的 索 引擎 , 你将错过很多 网络资源 。其二 , 平时通 不确定性 , 但其确是发展方 向。 过大 量实践 , 仔细体会每个搜索引擎的特色 和 23 多媒体搜索 引擎 : _3 _ 随着宽带技术 的发 功能 。其三 , 统计表 明, 很多用户只输入一个词 展 , 的互联 网是多媒体数据的时代。 未来 开发出 进行查询 , 查询结果往往有很多不需要的匹配 。 可查询 图象 、 声音 、 图片和电影的搜索引擎是 一 建议 同时使用多个词 以缩小搜索范围。 四, 其 如 个 新 的方 向 。 果你最初 的查找并不成功 ,可以用同义词进行 2 .专业化搜索 引擎 : .4 3 综合性 的搜索 引擎 查找 。 收录各 方面 、 各学科 、 各行业 的信息 , 而专题性 22搜索引擎的主要技术 . 的搜索引擎则是为了专门收录某一行业 、某一 个搜索引擎 由搜索器、 索引器、 检索器和 主题和某一地 区的信息而建立 , 保证 了对该领 用户接 口四个部分组成。 域信息 的收录齐全与更新 及时 , 常实用 , 非 如商 221 .. 搜索器 : 搜索器 的功能是在互联 网中 务查询 、 企业查询 、 人名 查询 、 电子 邮件地址查 漫游 , 发现和搜集信息。 它常常是一个计算机程 询和专业信息查询等。 序 日夜不停地运行 。 它要尽可能多 、 尽可能快地 参 考 文 献 搜集各种类型的新信息和定期更新 已经搜 集过 [】 1李建 中. 据库技 术向何 处去 . t:w wci 数 h p /w . — t/ c e te m, 9 9 1 . 的旧信息 , 以避免死连接 和无效连接 。 索器的 d n .o 1 9 / 2 搜 2张 康 数 h p /w . - t/ c 实现常常采用分布式、 并行计算技术 , 以提高信 【] 澜 , 增 培 . 据 仓 库 白皮 书 . t:w wci d n .o , 0 / . e tc r 2 013 n 息发现和更新的速度。 222索引器 : .. 索引器 的功 能是 理解搜 索器 【] 3赛迪 网咨询部 . 内搜 索引擎市场调 查报告. 国 t / p:www.ed n.o mak t e ot2 0 1 /5 c ie t m/ r e/ p r 0 0/02 / c r / 所搜索的信 息 , 从中抽取 出索 引项 , 用于表 示文 ht / 档以及生成文档库的索引表。索 引器可 以使用 【 晓 明, 4 降 刘建 国. 索 引擎技 术及趋 势.t/ 搜 h p/ t: ciet r 20 /. se 集中式索引算法或分布式索 引算法 。索 引算法 www.e d n .o . 0 0 3 对索引器的性能 ( 如大规模峰值查询时 的响应 [ 刘晓华. 索相擎挑 战智能化 . 电脑世界, 5 ] 搜 微 速度 ) 很大的影 响。 有 2o( oou. 2 _ 检索器 : .3 2 检索器的功能是 根据用户 的 [ 范新 宇. 索相 擎渐入 佳境 微 电脑世界 , 6 】 搜 查询 在索引库中快速检 出文档 ,进行文档 与查 2 0 () 001. 询的相关度 评价, 对将要输 出的结果进行排序 , 并实现某种用户相关性反馈机制 。检索器 常用
一
一
9 3—
析基 础 。
k d和 d d m。
2 网上信息资源开发利用 的新技 术一
的信息检索模型有集合理论模型 、 代数模型 、 概 搜 率模型和混合模 型四种 。
1 . 2联机分析处理(lp 技术 oa ) 随着 数据仓库 的发展 ,l o p也 得到迅 速发 a 展 。 lp是在联机事务处 ̄(l ) oa op 基础上发展起 t 来 的一种共享多维信息的快速分析技术 ,这与 数据 库中多维数据 组织正好形成 相互 结合 、 相 互补充 的关 系。其典型的应用有对银行信用卡 风险 的分析与预测 、公司市场营销策略的制定 等。 o p 术 中 比较 典型 的应用是 对 多维 数 l 技 a 据进行交互式查询和数据分析 , 交互式操 作有 多种 ,主要 包括对 多维数据的切 片和切块 、 钻 取、 旋转等 , 它便于使用者从不同角度提取有关 数据 。o p l 技术还能够利用分析过程对数据 进 a 行深入分析和加工 。 1 . 3数据挖掘( m) d 和知识发现(d ) k d d m和 k d也是为解决数 据库 数据量 的爆 d 炸性增长与开发利用困难的矛盾应运而生 的信 息技术 。k d d 是从数 据库大 量的数 据 中通过分 析提取出隐含的、 新颖的、 有效 的并能被人理解 的规则或模式的高级处理过程 。这 里的规则或 模式即是我们平常所说的知识 。它给 出数据 的 某些特性或数据之间的关 系 ,是对数据处理后 获取的更深层 次的可供决策支持 的信息 。实 际 上从逻辑关 系上讲 ,m和 kd是包含关 系 , d d d m 是 kd d 中的一个 步骤 , 它主要是利用某些特定 的知识发现算 法 , 在一定 的运算效率的限制 内, 从数据 中发现 出有关 的知识 ,但 d m是 k d中 d 最重要的一步。 因此 , 往往可 以不加 区别地使用