搜索引擎发展方向
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
"78
李
铃பைடு நூலகம்
搜索引擎发展方向
本刊 >>+:,9?4@4A+:,9%BC,-DE%-38
信息技术
“中国搜索” 在 !""# 年 $ 月推出智能搜索引擎技术 #%" 版本, 具有智 能导航、 概念搜索、 个性化搜索等功能, 使搜索引擎在充分领会用户意图 的基础上, 进入到一个真正智能化时代。 “智能导航” 是一种人工智能的 新算法, 在分析和理解用户可能的查询意图, 给予多个主题的 “搜索提 示” , 在用户查询和搜索引擎返回结果的人机交互过程中, 引导用户更快 速准确定位自己所关注的内容, 帮助用户快速找到相关搜索结果, 并可 在用户搜索冲浪时, 给予用户未曾意识到的主题提示。
W
搜索引擎技术的 “三化”
专业化是搜索引擎的一个发展方向。这类引擎的特点就是专而精,
WX8 搜索引擎专业化 不会出现不相干的结果。 过去是一个大型搜索引擎面对互联网上的全部 信息,现在逐渐把网页、新闻以及行业信息根据专业的需求而分开、 细 分, 专业化的智能搜索的趋势已经越来越清晰。慧聪根据使用者对网上 信息的专业化需求, 发挥专业化的行业商务信息服务特长, 推出了行业 搜索引擎。它是搜索技术与人工分类相结合, 直接以行业商务信息数据 库为基础, 并向专题性方向发展, 开发搜索质量更精确、 相关性更复杂的 搜索引擎, 追求本专业、 本学科最全, 服务于专业人员、 学生等研究人员 的专题性搜索引擎。 WXW 搜索引擎个性化 目前的现状是, 在搜索引擎面前, 各类用户别无选择。 对个人用户而 言, 搜索引擎服务提供商显示什么样的信息内容, 排列什么样的搜索结 果, 利用什么样的访问设备, 个人无权选择。一些用户, 不能有效获得业 务需求的特定个性化信息, 不能在繁杂的信息中找出优质、 定向、 可追踪 的产品。而对于网站却无法控制搜索引擎以提供适合网站特点的信息 源, 只能选择千人一面、 千篇一律的搜索结果。造成这种现象, 是因为提 供搜索服务的主动权垄断在搜索引擎巨头的手里。 要实现个性化搜索应 用需要先进的理念和过硬的技术保障。 搜索引擎技术的发展就是让用户 精、 准、 全、 快地检索到结果。 个性化搜索将成为搜索技术的新战场, 中国 Y;;<=> 等都在加紧开发个性化的搜索引擎技术。 如 Y;;<=> 在 搜索、 雅虎、 搜索时对个人偏好予以重视, 用全新的搜索理念, 让搜索无所不在, 更加 时代的个人门户—— — “网络猪” 是中国搜索强力推出的桌 有个性化。 “>” ,19 点歌台、 贴身小秘书、 即 面软件, 它集搜索无处不在、 我的新闻中心、 时通讯等功能于一身, 真正实现了 “以客户为中心” 的网络服务方式, 用 也不用传统的搜索方式, 只要 户不必记住复杂的网址, 不用频繁打开 ’V, 通过 “网络猪” 就能完全实现个性化的网络之行。 WX9 搜索引擎智能化 搜索 “智能化” 的理念, 在自动分类、 自动聚类的基础上有智能导 航、 概念搜索功能。搜索引擎能充分领会用户的搜索意图, 才能进入到 一个真正智能化时代。从目前的状况来看, 现有的搜索引擎技术, 很难 实质性地改善搜索引擎的结果, 满足用户更深层次的需求。因此, 必须 将人类的知识和智慧加入到检索过程中, 才能使搜索引擎的质量产生 一个质的飞跃。智能化是搜索引擎发展的一个主要方向, 而未来的搜 索应该是脱离浏览器的。由于网络上更多的资源和有用的资料以数据 库的形式存在, 而搜索引擎譬如蜘蛛, 在爬行于这些动态网站的过程 中很容易陷入死循环, 很多搜索引擎都对深度进行了限制, 因此搜索 搜索引擎现在 引擎能获得的数据量还达不到整个网络数据量的 96 T。 仍然需要依赖于浏览器作为提供检索服务的载体, 这大大限制了搜索 引擎智能化的范围。
科技情报开发与经济 (W667) 文章编号: 8667ZS699 W#Z6"789:"
!"#!$%"& ’()*+,-$’*( .%/%0*1,%($ 2 %3*(*,4
5667 年
第 87 卷
第 "# 期
收稿日期: W667Z67Z6Q
搜索引擎发展方向
李 铃
(云南农业大学图书馆, 云南昆明, S76W68) 摘 要: 介绍了互联网上搜索引擎的发展情况, 从搜索引擎技术专业化、 个性化、 智能 化 ; 方面分析了搜索引擎发展方向, 并设想更完美的搜索联引擎技术的未来。 关键词: 搜索引擎; 网络信息检索; 互联网 中图分类号: 文献标识码: <"=:>8; 搜索引擎是一个对互联网上的信息资源进行搜集整理, 以供查询的 系统。目前搜索引擎一般分为全文搜索引擎、 目录索引、 元搜索引擎 9 类 。 全 文 搜 索 引 擎 具 代 表 性 的 有 :;;<=>, -=?@/AB?@, ’CD?;EA, $>;E@, FAB>(G? 等, 国内著名的有百度 (H@AIG) 。它们都是通过从互联网上提取 的各个网站的信息 (以网页文字为主) 而建立的数据库中, 检索与用户查 询条件匹配的相关记录, 然后按一定的排列顺序将结果返回给用户。目 录索引, 虽然有搜索功能, 但在严格意义上算不上是真正的搜索引擎, 仅 仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词 查询, 仅靠分类目录也可找到需要的信息。目录索引中最具 (J>K L;MIB) 代表性的莫过于大名鼎鼎的雅虎 (4@N;;) 。元搜索引擎是指在接受用户 查询请求时, 同时在其他多个引擎上进行搜索, 并将结果返回给用户。 著 中文元搜索引擎中具代 名的元搜索引擎有 $%&’()*+,-’.)/01,2/3/4/5’ 等。 表性的有搜星搜索引擎。在搜索结果排列方面, 有的直接按来源引擎排 有的则按自定的规则将结果重新排列组合, 如 列搜索结果, 如 .;<OA=>, /APABAE;。 等网络信息检索技术,能在最短时间内寻找行业内的专业知识与信 息。
& 搜索引擎技术的未来
搜索服务提供者在研发搜索技术方面已经花费了大量的时间和精 !""’ 年, 力, 但是网民对于现有的搜索技术是否满意呢? 美国一家市场调 查信息咨询公司的调查指出, &( )的互联网用户一周用超过 ! * 在网上 $’ )的用户在使用搜索引擎的时候遇到过麻烦,平均搜索 ’! +,搜索, 以后发现搜索受挫。搜索受挫中 #( ) 都是因为链接错误,绝大部分 的互联网用户感到应当出现更有效的、 准确的信息搜索技术。另 (.( )) 一项调查显示, 人们平均每天有 # 个问题需要从外界获取答案; 其中 &’ ) 的人使用搜索引擎寻找答案;平均每周花费 .%$/ * 找寻答案; /&%& )时 !0 ) 的时间花在亲戚朋友身上, !#%& ) 的 间花在从旁人那里获得答案, 是时间花在销售商那里。 网上查找答案的, 半数以上都不成功。 他们每周 以获取正确的信息。 将花费 ’#%/ 美元以上, 从这些调查数据中不难看出,传统的搜索引擎技术存在一些局限 性。 主要表现为信息丢失、 返回过多无用信息及信息无关等方面。 造成上 述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅 仅采用机械的关键词匹配来实现, 缺乏知识处理能力和理解能力, 也就 是说搜索引擎无法处理在用户看来是非常普通的常识性知识, 更不能处 理随用户不同而变化的个性化知识, 随地域不同而变化的区域性知识以 及随领域不同而变化的专业性知识等。 这使得网民仍然在期盼更完美的 搜索技术的出现。网民需要搜索服务提供者研制更完美的搜索技术, 以 满足更快、 更准、 更方便的查询需要。为此, 搜索技术发展要解决以下几 方面问题。 搜索技术发展必须解决自然语言理解技术问题。随着社会的日 (’) 益信息化!人们越来越强烈地希望用自然语言同计算机交流。 自然语言理 解是计算机科学中的一个引人入胜的、 富有挑战性的课题。从计算机科 学特别是从人工智能的观点看, 自然语言理解的任务是建立一种计算机 模型, 这种计算机模型能够给出像人那样理解、 分析并回答自然语言。 如 果计算机实现了人机会话 (包括机器翻译、 自动文摘等语言信息处理功 !则认为计算机具备了自然语言理解的能力。这里的机器翻译是利用 能) 计算机把一种自然语言转变成另一种自然语言的过程。 以自然语言理解技术为基础的新一代搜索引擎, 我们称之为智能搜 索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识 (或 概念) 层面, 对知识有一定的理解与处理能力, 能够实现分词技术、 同义 词技术、 概念搜索、 短语识别以及机器翻译技术等。 因而这种搜索引擎具 有信息服务的智能化、 人性化特征, 允许网民采用自然语言进行信息的 检索, 为其提供更方便、 更确切的搜索服务。 搜索技术发展必须解决可视化输出技术。搜索引擎返回给用户 (!) 的检索结果通常是一个庞大的线性列表, 虽然经过了相关度排序, 但大
。要在这样的结果集合里 量的不相关文档仍然混杂在其中 (约为 $/ )) 进行浏览和判断, 用户的负担是非常沉重的。 对此, 研究人员提出的检索 结果联机聚类, 文献自动聚类检索系统能够兼有主题检索系统和分类检 索系统的优点, 同时具备共性检索和特性检索的功能。 因此, 这种检索方 式将有可能在未来的信息检索中大有用武之地。 还有多维文档视图可视 化输出技术,可望在对这一局面的改变中对搜索技术有突破性的发展。 目前, 信息过滤技术已有基于内容过滤、 合作过滤等不同研究类型, 其研 究成果较多地运用于电子邮件系统, 运行于搜索引擎上的过滤系统还比 较少见。但是, 鉴于搜索引擎的检索结果在数量上远远超出了用户的吸 收和使用能力, 将过滤技术作用于搜索引擎检索结果, 无疑会为用户提 供更加适用而且适量的信息,并能提供满足用户个性化需求的信息服 务。 搜索技术发展必须解决 1!1 对等网络。1!1 所包含的技术就是 (&) 使联网电脑能够进行数据交换, 但数据是存储在每台电脑里, 而不是存 储在既昂贵又容易受到攻击的服务器里。 网络成员可以在网络数据库里 自由搜索、 更新、 回答和传送数据。 所有人都共享了他们认为最有价值的 东西, 这将使互联网上信息的价值得到极大的提升。用 1!1 技术开发出 强大的搜索工具。它使用户能够深度搜索文档, 而且这种搜索无需通过 234 服务器, 可以不受信息文档格式和主要设备的限制, 达到传统目录 式搜索引擎 (只能搜索到 !" )5&" )的网络资源) 无可比拟的深度。以应 一台 1; 上的 6-78399: 软件, 用 1!1 技术的一个先锋 6-78399: 软件为例: 可将用户的搜索请求同时发给网络上另外 ’" 台 1;, 如果搜索请求未得 到满足,这 ’" 台 1; 中的每一台都会把该搜索请求转发给另外 ’" 台 1;。 这样, 搜索范围将在几秒钟内以几何级数增长, 几分钟就可搜遍几百 万台 1; 上的信息资源。 可以说, 1!1 为互联网的信息搜索提供了全新的 解决之道。 搜索引擎发展直 总之, 搜索引擎发展方向!是一个值得探讨的问题, 接关系到用户对网络资源的利用。 参考文献 [<] %情报杂志, !""# (.) : 0/=0(% [’] 张兴华%搜索引擎未来技术试探 % 上海高校图书情报工 [!] 杜国芳, 焦丽辉% 搜索引擎实用技巧举例 [<] 作研究, (’) : !""# /&=//% [&] 赵丹群, 喀碧竹 % 试论搜索引擎的技术改进 [<] % 情报理论与实践, !""& ’./=’.("’.’% (!) : % 科技情报开发与经济, [#] 刘遵雄% 搜索引擎的智能化发展趋势 [<] (() : !""# !’’=!’!% [/] 赵红%搜索引擎的智能化与网络信息资源的检索研究 [<] %现代图书 !""& /’=/#% (/) : 情报技术, (实习编辑: 王永胜)
8
互联网上搜索引擎的发展情况
互联网上的第一代搜索引擎, 出现于 8QQR 年前后, 搜索结果的好
坏往往用反馈结果的数量来衡量, 也就是说, 第一代搜索引擎 “求全” 。 然而, 研究表明, 这种搜索引擎性能并不是想象中那么优秀, 在全球 88 个主要的搜索引擎中,搜索引擎仅能搜索到国际互联网上全部页面的 8S T , 甚至更低。造成这种情况主要是因为这些搜索引擎为求全而没 有及时更新其资料。 第二代搜索引擎出现在互联网上, 这些引 8QQU 年, 擎的主要特点是提高了查准率, 可以用 “求精” 来描述。第二代搜索是 依靠机器抓取, 建立在超链分析基础上的网页搜索。第三代搜索引擎 是互动式搜索。所谓互动式搜索是在用户查询和搜索引擎返回结果的 人机交互过程中, 引擎根据用户的查询内容, 智能展开多组相关的主 题检索。一般是分类导航, 针对部分查询结果项, 扩展到类似或相关网 站。先进的分词引擎使查询精确。第三代中文搜索引擎为 “求专” 。第 四代搜索引擎的特征是主题搜索引擎。随着信息多元化的增长, 千篇 一律地给所有用户同一个入口显然已经不能满足特定用户更深入的 查询需求。我们需要一个分类细致精确、 数据全面深入、 更新及时的面 向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智 能化策略, 因此它比前三代的搜索引擎将更加有效和准确。第四代搜 功 索引擎还采用了以前从未应用在网络搜索引擎上的错码校正 (V33) 能, 以便有效防止潜在的误差, 确保数据的完整性, 并严格遵守服务等 。 级协议 (!0-) 到现在已经 从 8QQR 年出现的普遍意义上的互联网搜索引擎开始, 有 U 年多了, 实际上, 这整个历史可以看成是新一代搜索引擎淘汰上 一代搜索引擎的历史。从第一代搜索引擎到第二代搜索引擎是一个质 变, 由人工转向计算机。而第三代搜索引擎是一个量变, 它是检索技术 的提升。第三代到第四代的发展方向应该是人机结合, 围绕着互联网 搜索技术中心将诞生以检索技术为职业的从业者。这些从业者将具备 两方面的专业素质, 其一是精通某一行业领域, 其二是精通搜索引擎