Internet信息检索工具
国内外搜索引擎的特征及其比较
国内搜索引擎的特征及其比较摘要随着信息的剧增,Internet的进一步普及,在浩如烟海的信息高速公路上,根据自己的需求快速准确地需找所需要的信息越来越依赖于借助多种多样的Internet信息检索工具,而搜索引擎是我们平时使用最多的一种。
下面就国内的四个著名搜索引擎来探究它们的特征和区别。
关键字引擎检索查询一百度(http://WWW.baidu.corn)百度由百度网络技术有限公司于1999年底在美国硅谷创建,是目前全球最大的中文搜索引擎。
数据库中收录约3亿个中文网页,平均2周更新一次,对部分网页每天更新。
搜索方式以关键词检索为主,同时可结合分类目录限定检索范围,分基本检索和高级检索两种,支持布尔算符和字段限制符。
特设百度快照功能,供用户迅速查看每条检索结果的内容。
检索时不区分英文字母的大小写,检索结果依相关度排列。
二中文Goog1.(hap://WWW.google.corn)Gcog1.由两位斯坦福大学的博士I丑rry Page和SergeyBrin在1998年创立,是目前世界上最大的搜索引擎。
数据库中收录约1O亿多个中文网页,采用高级的网页级别技术,用户界而出色,有新闻组、图像、新闻等搜索,以搜索相关性高闻名。
检索方式为关键词检索,分为基本检索和高级检索,基本检索以布尔检索为主,高级检索中包括:(1)排除某些站点;(2)限定检索结果于某一特定网站;(3)限定语言类型;(4)相关网页检索,检索结果依检索式相关性排列。
三新浪(http://WWW.sina.com)新浪搜索引擎是面向华人的网上资源查询系统。
提供网站、网页、新闻、软件、游戏等查询服务。
共有16大类目录,1万多个细目和数十万个网站。
搜索方式包括关键词查询和分类目录检索两种。
除基本检索以外,还具备“重新查询”“在结果中再查”和“在结果中去除”三种高级检索,支持布尔逻辑检索,用逻辑算符“And”、“Not”扩大或缩小检索范围,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,按检索式相关度排列,以日期排序。
第七章 Internet 信息检索工具—搜索引擎
(4)用户接口
供用户输入查询,显示匹配结果。 用户接口的设计和实现使用人机交互的 理论和方法,以充分适应人类的思维习 惯。
4、搜索引擎的主要任务
(1) 信息搜集 各个搜索引擎都派出绰号为蜘蛛(Spider)或机 器人(Robots)的“网页搜索软件”,在各网 页中爬行,访问网络中公开区域的每一个站点 并记录其网址,将它们带回搜索引擎,从而创 建出一个详尽的网络目录。由于网络文档的不 断变化,机器人也不断地把以前已经分类组织 的目录更新。
第七章 Internet 信息检索工 具—搜索引擎
7.1搜索引擎基本理论
1、什么是搜索引擎?
简单地说,所谓搜索引擎,就是采用信息自 动跟踪标引等技术、建立在因特网上专门提 供网络信息资源导航服务检索工具。 它能够通过Internet 接受用户的查询指令 ,并向用户提供符合其查询要求的信息资源 网址。
5、搜索引擎的种类
检索型搜索引擎:它使用自动索引软件来发现、收集并标引网 页,建立数据库,并以Web形式让用户找到所需信息资源。比 较著名的有:息系统地分门归类,经过人工 整理后形成庞大而有序的分类目录体系,用户可以在目录体系 的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是 以卓越的分类目录型导航服务而称誉全球,典型的分类目录搜 索引擎如Yahoo ( /) 混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、 搜狐、网易、中华等门户网站。 多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎 集成在一起,通过统一的检索界面进行网络信息多元搜索 的 检索工具。按照工作方式的不同可分为并行处理式和串行处理 式两大类。著名的有: Meta crawler、Dogpile、Mamma和万 维搜索(Http:///)等。
引号 引号( “ ” )的作用是,括在其中的多个词 被当作一个短语来检索。绝大部分主要搜索引 擎都支持短语检索,找到含有与短语词序和意 义完全相同的页面。例如,检索式 “ electronic magazine ” ,表示把 electronic magazine 当作一个短语来搜索。 如果不加引号,搜索引擎就会把两词之间的空 格按“与”处理,查出包含 electronic 和 magazine 的页面,结果应与用户要求的主题 内容相去甚远。
Internet上三大检索工具检索化学化工信息的方法
文献为会议文献、 期刊文献或有文摘的文献; G,%?34%7 %9:47 (包括一般性会议, 座谈会, 研讨会, 发表会等)所出版 #<(检索结果的排序方法)可以选相关度排序和 !& 出 的共计一百九十多万篇会议论文, 每年约增加 //L, LLL 版日期排序。 个记录。检索入口地址为: D44@ W XXY9%@:9 ’,,)&+P% . ’9CX 检索结果的处理: 最后一行有四个功能按钮, 分别 是: (提交检索) 、 (清除检索) 、 2,$:’D7 H3,$: 2$*,7 2,$:’D (保存检索式, 一备将来使用) 、 (提取保 G,’$337 2,$+’D 存的检索式, 重新检索) 。 (高级检索) -. /. /7 ()*$+’,) 点 击 基 本 界 面 中 的“ $)*$+’,) ” , 进入高级检索界 面。 高级检索和基本检索唯一的区别是检索窗口提供了 我们可以运用自己输入的检索组合式灵 I 个检索字段, 。 活、 准确的检索 (检索式的使用方法见表 - )
7> 7>
式中, —— 离 子 、 钠 离 子 的 质 量(> ) ; *&; 、 *D:;—钾 —— 钠的摩尔质量( >! —— 2<=); =&、 =D:—钾、 *?—样品的质 量 (>) ; ——!$$*, , ——"8*,。 1 总— 1 测—
结语 ;**
以膨润土为原料进行各种深加工产品的研究开发 正成为当今材料科学领域的研究热点,尤其是高性能、 多用途的聚合物蒙脱石纳米复合材料制品的制备、 应用 更成为国内外众多学者的努力方向。 而膨润土原料的组 成、 性能直接影响深加工产品的质量, 只有使实验测试 手段合理、 规范、 严谨, 才能使实验测出的结果准确、 可 靠, 也从而为膨润土进一步的深加工实验提供合适的原 料, 保证在膨润土深加工工艺合理的情况下, 生产出高 性能的膨润土深加工产品。!
网络信息检索工具——搜索引擎.ppt
14
利用Google进行专题信息检索
1 简单专题信息检索及目录检索 接受一项简单专题,最直截了当就是在搜索框内输入一个 关 键 词 , 然 后 点 击 下 面 的 “ Google 搜 索 ” 按 钮 ( 或 者 直 接 回 车),结果就出来了。 如果对查询的领域熟悉,只想寻找某些专题网站,首先考虑 用目录检索。目录分类明确,则网站专题信息集中,剔除了大 量不相关的信息。不过对查找中文信息,Google的中文目录太 少只有非常普通简单的类目,可能很难满足需求(中文目录 “/Top/World/Chinese_Simplified/” )。
搜索器、分析器、索引器、检索器和用户接口。
同检索数据库一样,利用搜索工具检索,也需要用户能 够将自己的检索需求编制成合适的检索策略,并且需要 一定的检索技巧。
搜索引擎采用的检索词和信息标识词匹配运算的主要方 法有:布尔逻辑检索、截词检索、限制检索、加权检索、 词位置检索和全文检索等。
2019-8-17
感谢你的观看
2
搜索引擎分类
检索型搜索引擎:它使用自动索引软件来发现、收集并标 引网页,建立数据库,并以Web形式让用户找到所需信息 资源。比较著名的有:引擎将信息系统地分门归类,经过 人工整理后形成庞大而有序的分类目录体系,用户可以在 目录体系的导引下通过逐级浏览,发现、检索到有关的信 息。雅虎就是以卓越的分类目录型导航服务而称誉全球。
-横向相关查询: 当用户找到某个感兴趣的网页,搜索引擎提供查询内容近似的其 他网页的功能(不限于同一网站)。一般是在信息条目后面给出 “Similar Pages”或“More results like this”链接。 -除上述功能外,现在搜索引擎都纷纷开始提供分类搜索,如新 闻搜索、图象搜索、新闻组搜索、Flash搜索等等。
Internet网络信息检索技巧
搜索引擎分类
检索型搜索引擎:它使用自动索引软件来发现、收集并标 引网页,建立数据库,并以Web形式让用户找到所需信息 资源。比较著名的有: A信息系统地分门归类,经过 人工整理后形成庞大而有序的分类目录体系,用户可以在 目录体系的导引下通过逐级浏览,发现、检索到有关的信 息。雅虎就是以卓越的分类目录型导航服务而称誉全球。 混合型搜索引擎:它兼有检索型和目录型两种方式。如: 新浪、搜狐、网易、中华等门户网站。 多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索 引擎集成在一起,通过统一的检索界面进行网络信息多元 搜索 的检索工具。
3.5其他用法类似的限定检索
参阅英文Google大全。
()
Yahoo是因特网上历史最悠久、用户数最多的综合型、混 合型搜索引擎,是分类式搜索引擎的典范。它拥有10余种 语言版本,且各版本的内容互不相同。 如果用户的检索词在Yahoo !中查询不到结果,它会自动 将查询转交给Google搜索引擎做进一步的检索。 Yahoo!支持词语检索和“+‖ 和“–‖限制检索等,它还提 供日期限定、URL和题名限制检索等。“+‖限定关键字串 一定要出现在结果中; “–‖限定关键字串一定不要出现在 结果中。
利用Google进行专题信息检索
1 简单专题信息检索及目录检索 接受一项简单专题,最直截了当就是在搜索框内输入一个 关键词,然后点击下面的“ Google 搜索”按钮(或者直接回 车),结果就出来了。 如果对查询的领域熟悉,只想寻找某些专题网站,首先考虑 用目录检索。目录分类明确,则网站专题信息集中,剔除了大 量不相关的信息。不过对查找中文信息,Google的中文目录太 少只有非常普通简单的类目,可能很难满足需求(中文目录 “/Top/World/Chinese_Simplified/”) 。
搜 索 引 擎
中国数字图书馆
,依托中国国家
图书馆丰富的馆藏 。
书生之家数字图书馆
由北京书生科技公司创办,是一个全球性的中文书、 报、刊网上数字系统,于2000年5月正式开通。
CAJ浏览器
CAJ全文浏览器是中国期刊网的专用全文格式阅读 器,它可以阅读中国期刊网的CAJ、NH、KDH和 PDF格式文件。
超星阅读器
超星阅读器(SSReader)是超星公司拥有自主知识 产权的图书阅览器,专门针对数字图书的阅览、下 载、打印、版权保护和下载计费而研究开发。
国内重要数字图书馆
超星数字图书馆
搜索引擎常用语法规则
NOT、AND、OR和括号
优先顺序依次为:括号、NOT、AND、OR。
空格 作用类似于AND ,但有些搜索引擎也有OR AND OR
的用法
“”
精确查找
图象搜索
目前,图象搜索主要是基于文件名的搜索, 目前,图象搜索主要是基于文件名的搜索,不是 基于图象内容的。 基于图象内容的。
2.
用户根据自己的检索要求, 用户根据自己的检索要求,按照检索工具的语法在检 索界面中输入要求, 索界面中输入要求,检索软件对用户的提问进行识别 和判断后,代理用户到数据库中进行检索, 和判断后,代理用户到数据库中进行检索,并对检索 结果进行评估、比较等处理, 结果进行评估、比较等处理,按相关度排序后提交给 用户。 用户。
常见错误
常见错误3:多义词
要小心使用多义词,比如搜索“Java”,你 要找的信息究竟是太平洋上的一个岛、一种 著名的咖啡、还是一种计算机语言? 搜索引擎是不能理解辨别多义词的。最好的 解决办法是,在搜索之前先问自己这个问题, 然后用短语、用多个关键词或者用其他的词 语来代替多义词作为搜索关键词。比如用 “爪哇 印尼”、“爪哇 咖啡”、“Java 语 言”分别搜索可以满足不同的需求。
网络信息资源检索4
第四章 Internet信息检索 1 2 3 4 网络信息检索的一般方法 网络信息检索工具 相关网络信息检索技术 搜索引擎及其原理
1 网络信息检索的一般方法
1.1 浏览
1.2 通过网络资源指南来查找信息 1.3 利用搜索引擎进行信息检索
1.1 浏览
(1)偶然发现。
这是在因特网上发现、检索信息的原始方法。
等功能。
2 网络信息检索工具
网络信息检索工具是指在因特网上提 供信息检索服务的计算机系统,其检索的 对象是存在于因特网信息空间中各种类型 的网络信息资源。
近来具一般是由自动索引程序、 数据库和检索代理软件组成的。
自动索引程序
即在日常的网络阅读、漫游过程中,意外发现一些
有用信息。这种方式的目的性不是很强,其不可预 见性、偶然性使检索过程具有某种探索宝藏的意味, 也许会充满乐趣,但也可能一无所获。
(2)顺“链”而行。
指用户在阅读超文本文档时,利用文档中的链接从一网
页转向另一相关网页。有些类似于传统文献检索中的“追溯 检索”,即根据文献后所附的参考文献目录去追溯相关文献, 一轮一轮地不断扩大检索范围。这种方式可以在很短的时间 内获得大量相关信息,但也有可能在“顺链而行”中偏离了
3、提供检索服务 用户输入关键词进行检索,搜索引擎从 索引数据库中找到匹配该关键词的网页;为 了用户便于判断,除了网页标题和URL外, 还会提供一段来自网页的摘要以及其他信息。
1.3因特网信息检索习题
一、选择题1、用户在Internet网上最常用的一类信息查询工具叫做( )A.离线浏览器B.搜索引擎C.ISPD.网络加速器2、要想熟练地在因特网上查找资料,应该学会使用( )。
A.FTP服务B.搜索引擎C.网页制作D.电子邮件3、属于搜索引擎网址的有( )。
A. http://www.jsjyt.edu.cnB.http://www.cctV.comC.:http://www.csdn.netD.http://www.google.com4、一同学要搜索歌曲“Yesterday Once More”,他访问Google搜索引擎,键入关键词( ),搜索范围更为有效。
A.“Yesterdav”B.“0nce”C.Yesterday Once MoreD.“More”5、下列说法正确的是( )。
A.搜索引擎按其工作方式可划分为蜘蛛程序和机器人B.搜索引擎按其工作方式可划分为全文搜索引擎和目录索引类搜索引擎C.全文搜索方式又被称为分类搜索D.目录索引类搜索引擎的使用方法称为“关键词查询”6、下列各软件中不属于搜索类软件的有()。
A.北大天网B.YahooC.SinaD.Windows7、某同学在的搜索栏输入“北京奥运会”,然后单击“搜索”,请问他的这种信息资源检索是属于()A.全文搜索B.分类搜索C.专业垂直搜索D.目录检索8、某同学在“的搜索栏输入高二物理试题“,然后单击”搜索“,请问他的这种信息资源检索是属于()A.专业垂直搜索B.多媒体信息搜索C.全文搜索D、分类搜索9、全文搜索引擎显示的搜索结果是()A.被查找的在互联网各网站上的具体内容B.搜索引擎索引数据库中的数据C.本机资源管理器中的信息D.我们所要查找的全部内容10、下列搜索引擎中属于目录搜索引擎的是()A.天网搜索B.搜狐C.GoogleD.百度搜索二、填空题1、因特网上常用的两种信息检索方式是()、()。
2、()是第一个自动索引因特网上匿名FTP网站的程序。
20120320周结方略-信息技术
基本能力周结方略2012.031、知之为知之,不知GOOGLE知。
一学生谈GOOGLE在生活学习中的作用时如是说。
过去人们习惯于去图书馆查阅资料,而现在人们越来越多地依赖于网络。
INTERNET信息检索工具很多,如果不用GOOGLE搜索引擎,下列可以替代的是()A.QQ、EMAILB.WORD、WPSC.百度、Y AHOOD.PHOTOSHOP、FLASH2、2005年10月15日16时28分,胡锦涛总书记通过“天地语音系统”和宇航员进行了通话。
“天地语音系统”的地面设备有通信设备、数据传输设备、光纤网、分组交换设备和卫星地面通信站等,飞船上则配备了无线通信、视频传输及数据记录等设备,航天员之间、航天员与指挥中心随时都可进行信息交流。
根据上述材料,下列说法不正确的是()A.信息技术的迅猛发展为多媒体信息的远距离实时传输提供了可靠保证B.较之文字信息来说,声音和画面信息的存储不需要太大空间C.上述“天地语音系统”既包括硬件设备也包括软件系统D.现代信息技术改变了传统的信息交流方式,打破了时空限制3、2007年4月23日,中共中央政治局召开会议,研究加强青少年体育工作的网络文化建设工作。
会议强调,要全面贯彻落实科学发展观,以先进技术传播先进文化,促进和谐文化建设,营造文明健康的网络环境,遏止腐朽落后思想文化传播,形成共建共赢的精神家园。
下列关于网络问题认识不正确的是()A.网络上存在许多不良信息,会影响青少年身心健康B.制造、传播计算机病毒,情节严重将受到法律制裁C.网络是一个纯粹虚拟的世界,人与人不会直接接触,无所谓道德问题D.网络黑客可能会盗走用户重要信息4、.“才高八斗,学富五车”是形容一个人的知识非常多,家中的书多的以至于搬家时要用车来拉,因为当时的书是笨重的竹简。
从而使得知识的积累和传播极为不便,从信息技术革命的发展历程来看,这应该是属于第()次信息技术革命以前的事情A、第一次B、第二次C、第三次D、第四次5、人类经历的五次信息技术革命依次为:语言的使用,文字的使用,(),电报、电话、广播、电视的使用和计算机的普及应用及其同新技术的结合A、火的使用B、指南针单的使用C、印刷技术的应用D、蒸汽机的发明和使用6、下面哪些是属于信息技术应用的例子()①三维动画游戏②网上购物③电子邮件④个性化手机⑤语音输入A、①③④B、②③④⑤C、①②③⑤D、①②③④⑤7、冯·诺依曼理论体系下的计算机硬件组成是()A:CPU 、控制器、存储器、输入设备、输出设备B:运算器、控制器、内存、输入设备、输出设备C:CPU 、存储器、输入设备、输出设备、网络设备D:运算器、控制器、存储器、输入设备、输出设备8、世界上第一台电子计算机ENIAC 诞生的年份是()A:1936 年B:1946 年C:1956 年D:1966 年9、现在我们常常听人家说到(或在报纸电视上也看到)IT行业各种各样的消息。
搜索引擎的基本概念
第6章 Internet信息检索工具——搜索引擎6.1 搜索引擎的基本概念Internet是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的。
如何快速准确地在网上找到需要的信息已变得越来越重要。
搜索引擎(Search Engine)是一种网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息。
1. 搜索引擎的定义搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。
它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。
一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。
当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。
搜索引擎既是用于检索的软件又是提供查询、检索的网站。
所以,搜索引擎也可称为Internet上具有检索功能的网页。
搜索引擎也是目前Internet对信息资源进行组织的主要方式。
搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。
由于不需要人们的介入,速度得以大大的提高。
其覆盖面和及时性也得以大大的提高。
Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。
它的运行方式为:从一个或一组RUL开始,访问该RUL所指HTML文件中所有的RUL锚链,然后再以这些新的RUL为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL为止。
在记录新的RUL 时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了。
第二节__因特网上的信息检索
搜索引擎的分类
类型 定义 使用关键词到预先 建好的或租用其它 索引数据库查询信 息的一类搜索引擎. 举例
全 文 搜 索
信息量大、更新较及时、不需人工干预。 优点: 信息量大、更新较及时、不需人工干预。 返回信息过多,有很多无关信息。 缺点:返回信息过多,有很多无关信息。
注意的问题
搜索引擎并不真正搜索互联网, 搜索引擎并不真正搜索互联网,它搜索的 实际上是预先整理好的网页索引数据库。 实际上是预先整理好的网页索引数据库。 搜索引擎,也不能真正理解网页上的内容, 搜索引擎,也不能真正理解网页上的内容, 它只能机械的匹配网页上的文字。 它只能机械的匹配网页上的文字。
动动手
搜索引擎工作原理
1、信息的采集与存储 、
信息的采集包括人工采集和自动采集两种方式。 人工采集由专门的信息人员跟踪和选择有用的WWW站点或 页面,并按规范方式分类标引并组建成索引数据库。 自动采集是通过自动索引软件(Spider、Robot或Worm)来 完成的,Spider、Robot或Worm在网络上不断搜索相关网页 来建立、维护、更新索引数据库,自动采集能够搜索、采集 来建立、维护、 和标引网络上众多站点和页面,并根据检索规则和数据类型 对数据进行加工处理,因此它收录、加工信息的范围广、速 度快,能及时地向用户提供Internet中的新增信息,告诉用户 包含这个检索提问的所有网址,并提供通向该网址的连接点, 检索比较方便。
1994年起搜索引擎发展举例 年起搜索引擎发展举例
产生时间
1994.4 1995.12 1997.10 1998.9
搜索工具
Yahoo Altavista 北大天网 Google
开发组或公司
斯坦福大学 DEC公司 公司 北大计算机研究室
网络信息检索的工具
网络信息检索的工具[摘要] 搜索引擎是人们使用Internet信息资源的重要工具。
本文对目前的中文搜索引擎进行了简要的分析,指出了其存在的缺陷和发展的方向。
[关键词] 信息检索中文搜索引擎存在的问题发展方向随着Internet信息资源的迅速增长,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了迫切需要解决的问题,从1995年开始出现的信息检索工具——搜索引擎很好地解决了这一问题。
然而各种搜索引擎,特别是尚处于发展初期的中文搜索引擎还存在着很多的缺陷有待改进,本文旨在分析目前中文搜索引擎存在的主要问题,并为解决此类问题提出一些建议和方法。
一、搜索引擎的概念和及类型搜索引擎又称检索引擎,是指运行在Internet上,以信息资源为对象,以信息检索的方式为用户提供所需数据的服务系统,主要包括信息存取、信息管理和信息检索三大部分。
目前,中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎(又称全文搜索引擎)和元搜索引擎。
1.目录式搜索引擎。
目录式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某个web站点后,对该站点进行描述,并根据站点的内容和性质将其归为一个预先分好的类别。
由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度较高,导航质量也不错。
但因其人工的介入,维护量大,信息量少,信息更新不及时都使得人们利用它的程度有限。
国内著名的新浪、搜狐、中文雅虎都属于这种类型。
2.机器人搜索引擎。
这是一种目前运用较广泛的搜索引擎。
国内以百度,google、天网为代表。
它是使用自动采集软件Robot,搜集和发现信息,并下载到本地文档库,再对文档内容进行自动分析并建立索引。
对于用户提出的检索要求,通过检索模块检索索引,找出匹配文档返回给用户。
机器人搜索引擎具有庞大的全文索引数据库。
其优点是信息量大,范围广,较适用于检索难以查找的信息或一些较模糊的主题。
缺点是缺乏清晰的层次结构,检索结果重复较多,需要用户自己进行筛选。
网络信息检索工具与方法
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.3009:21:4409:21Oc t-2030- Oct-20
加强交通建设管理,确保工程建设质 量。09:21:4409:21:4409:21Fri day, October 30, 2020
安全在于心细,事故出在麻痹。20.10.3020.10.3009:21:4409:21:44October 30, 2020
如音乐、视频、其它文件压缩包)
NEXT
实常用的英文搜索引擎,如msn、google搜索等。 任选一个搜索引擎,查找以下信息资源并下载: (1)一个专业的音乐网站 (2)音频资源汤灿版“呼唤” (3)一张经典XP系统桌面 (4)北京电子地图 (5)影视文件《宝贝计划》的详细介绍 (6)电子图书《飘》 (7)游戏视频文件《剑侠情缘》的宣传片 (8)访问至少两个专业flash网站 (9)网页制作背景素材 (注意:关键词、辅助关键词的提炼、布尔检索式等检索技巧的利用)
踏实肯干,努力奋斗。2020年10月30日上午9时21分 20.10.3020.10.30
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月30日星期 五上午9时21分 44秒09:21:4420.10.30
严格把控质量关,让生产更加有保障 。2020年10月 上午9时 21分20.10.3009:21Oc tober 30, 2020
二、搜索引擎的构成及工作原理
信息资源搜集
各记录链接
用
访问
户
搜索
检
引擎
索 策 略
用户 接口
摘要信 息反馈
搜索引擎本地的 摘要信息数据库
各万维 网站点
资源
详细信息反馈
网络信息检索之搜索引擎
目录
1 引言
本文目录 结构
2 基于关键词的检索方式
3 检索工具—搜索引擎
4信息资 引言
1引言 引言
搜索引擎工作原理
基于关键词的 检索方式
2 目录
基于关键词的检索工具
基于关键词的 检索方式
基于关键词检索的特点 基于关键词检索的特点
提高关键词检索的效果
2.1基于关键词的检索工具 基于关键词的检索工具
基于关键词的检索工具中最具有代表性的就是搜索引擎 最续章节会讲到……
2.2基于关键词检索的特点 基于关键词检索的特点
•
• •
•
8.自然语言检索(natural language search) • 即直接采用自然语言中的字、词、句进行提问 一般口语一样。 式检索,同一般口语 一般口语 • 智能检索 • Could you please give me some information on English literature? • 我最近比较烦,应该怎么办? • 这种智能检索也是搜索引擎发展的趋势。
• 字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 • 检索方式主要有:限定字段检索和限定范围检索
(1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。 ①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊名 (JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese ②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如: Furniture/TI即家具一词出现在题目中。
常用检索工具
常用检索工具1.检索工具的分类(1)按照信息搜集方法分类按照信息搜集方法的不同,搜索引擎系统可以分为三大类:1)目录式搜索引擎(Directory Search Engine)以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。
该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。
这类搜索引擎的代表是:Yahoo!、LookSmart、Ask Jeeves、Snap、Open Directory。
2)机器人搜索引擎(Crawler-Based Search Engine)由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
服务方式是面向网页的全文检索服务。
该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中筛选。
这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google。
3)元搜索引擎(Meta Search Engine)这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。
这类搜索引擎的代表是WebCrawler、InfoMarket。
目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上有逐渐融合的趋势。
例如,Yahoo!在保持人工分类的同时,使用Inktomi的机器人搜索引擎,用户查询时,如果选?quot;网站搜索"便搜索人工分类库,选择"网页搜索"便搜索机器人搜索引擎的索引库。
全文检索典型的互联网搜索引擎包括AltaVistaInktomiInfoseek
第四阶段,进入21世纪后,随着连续性语音识别技术的 不断发展,计算机信息检索系统跨入一个新的阶段。在 前三个阶段的基础上,信息检索技术正向两个新的方向 发展:一是传统信息检索向全文文本、多媒体等新型信 息检索发展,在深度上应能对提问的内容进行分析和理 解,提高查准率,探索自动抽词、自动索引、自动检索、 自动文摘、自动分类、自动翻译等解决方案,提高管理 和组织信息的能力;二是信息资源的网络化和分布化, 主要面对Internet中浩瀚无垠的资源,提高查全率。
还有由McCune和Tong研制的Rubric系统,是用来检索与 恐怖行为概念有关的文献。 美国通用电器公司人工智能研究室的Ran 1987年建立的 SCICOR系统、美国卡内基梅隆大学机器翻译中心1991 年完成的FER RET系统。
3. 超文本信息检索系统
以超文本网络为基础的文献检索系统。正文信息是以节 点而不是以字符串作为信息的基本单元,节点间通过链 进行连接。在检索文献时,节点间的多种链接关系可以 动态地选择性激发,从而可根据思维联想或新信息的需 要,通过链从一个节点跳到另一个节点,由此形成随着 人们思维和需要的流动而构成的数据链,体现出一种完 全不同于过去顺序检索方式的联想式检索。
(2)超文本系统结构与模型
(3)应用系统
目前已建立了多个基于超文本的信息检索系统,如 AltaVista、WebCrawler、Yahoo!、 Lycos、Open Text、 Infoseek等著名的网络检索系统。这些系统检索速度快, 数据资料新,具备多种查询方式,极大地方便了用户使 用Internet,提高了全文检索的查全率。
1. 计算机检索系统的发展过程
五 Internet 网络信息资源检索-搜索引擎
Google Scholar不仅从Google收集的上百亿个 网页面中筛选出有学术价值的内容,而且最主要的方 式是通过与传统资源出版商的合作来获取足够的有学 术价值的文献资源。目前已经与多家学术、科技和技 术出版商,如Elsevier、Wiley、ACM、Nature、 IEEE、OCLC等进行了广泛合作,帮助用户获取特定 的学术文献。进人中文版Google Scholar的, 主要是 论文、著述、文摘、技术报告等学术科研文献,它们的 最终源头是各学术出版物、专业学会、预印本库、大 学及专业学术性网站
主要功能
• AllTheWeb属于全文搜索引擎。目前提供常规 搜索、高级搜索和专题搜索功能。 • 常规搜索支持普通关键词搜索,以及+、-、括 号()等逻辑命令符号,分别对应AND、NOT、OR 等布尔逻辑命令,并且可使用引号""进行精确 匹配搜索 • 如:"pac man" 结果将会包含短语 "pac man" (这种方法一般适用于英文检索,汉语都是词 组检索); • (pac man)或pac or man 表示逻辑或。 • Pac man 或 pac and man 或+pac +man表示逻 辑与,系统默认两词之间为逻辑与。 • Pac –man 或 pac andnot man 表示逻辑非。
• 搜索结果可以看到图书的目次信息,可在图书里 检索相关内容,可免费看2页相关内容的全文, 可链接到网上书店购买喜欢的图书。 • Google尊重知识产权,对于有版权的图书不能免 费浏览全文。
图书搜索/
Google学术搜索
• Google 学术搜索()是目前规模最大的学 术搜索引擎,几乎所有学术期刊及有名的电子书都进入了它的索 引,当然Google 不提供下载,除非它本身就是免费的。 • 通过GOOGLE Scholar检索期刊论文、学位论文、图书、预印本、 文摘、技术报告等学术文献,文献源自学术出版物、专业学会、 预印本库、大学及网上学术论文。 • 考虑全文、作者、出版物及被引情况。采取自动分析与抽取引文 的方法,因此也包括那些本身不在网上的图书或其他出版物中的 论文。 • 检索结果按相关度排序,文章的作者、出版者知名度和文献引用 量等也都是GoogleScholar对其进行排序的重要依据,该篇文章或 该本书的作者越出名,其学术专业的价值地位就越高,在排序的 时候就越靠前。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目标与任务
• 了解搜索引擎概念与分类。 • 熟悉搜索引擎语法规则,能快速准确查 找所需内容。 • 了解常用中文搜索引擎特性。
1 搜索引擎概念与分类
目标与任务
了解搜索引擎概念与分类。
•搜索引擎概念 •搜索引擎分类
目标与任务
2 搜索引擎语法规则
简单地说,搜索引擎是Internet上的一个网站,它的主要任务是 在Internet上主动搜索Web服务器信息并将其自动索引,其索引内 容存储于可供查询的大型数据库中。从而能够对用户提出的各种查 询作出响应,为用户的检索起到信息导航的作用,并提供通向相干 的网站的链接。 为了满足大众信息检索的需要,各种搜索网站便应运而生了。 随着互联网规模的急剧膨胀,搜索引擎提供的导航服务已成为 Internet上非常重要的网络服务,搜索引擎站点被誉为“网络门 户”,成为人们获取Internet信息资源的主要工具和手段,也几乎成 了网络信息检索工具的代名词。
Yahoo! —— 搜索引擎之王,最早的目录索引之一,也是目前最重要的 搜索服务网站,在全部互联网搜索应用中所占份额高达 35% 左右。除主站 (Mother Yahoo)外,还设有美国都会城市分站(Yahoo Cities,如芝加 哥分站)、国别分站(如雅虎中国)和国际地区分站(如Yahoo Asia)。 其数据库中的注册网站无论是在形式上还是内容上质量都非常高。
熟悉搜索引擎语法规则,能快速准 确查找所需内容。
•关键字用法 •使用逻辑操作符
•通配符和“+、-”连接号
•使用逗号、括号或引号进行词组查找 •空格的使用
•特殊搜索
3 中文搜索引擎介绍
目标与任务
了解常用中文搜索引擎特性。 •雅虎中文 •新浪网 •搜 •百 •网 狐 度 易
搜引擎概念
返回
新 浪()
新浪是全球范围内最大的华语门户网站之一。根据北京赛迪网信 息技术有限公司和盖洛普咨询有限公司联合发布的中国互联网用户 行为和态度研究(CIUA 2000)报告,新浪是国内网民最常访问的网 站。 新浪自己有独立的目录索引。共设15大类目录,10,000多个子目 录,收录网站达网页、新闻、软件、游戏 等查询项目,并且支持中文域名。 新浪的搜索规则是:默认综合搜索,涉及网站、网页、新闻等内 容。网站搜索仅限于自身目录中的注册网站。网页搜索时,调用百 度搜索引擎进行查询。具备相关搜索功能,如检索有“清华大学” 的信息,会自动列出“北京大学”等其他院校的链接供查询。网站 排名根据目录及网站信息与搜索条件的关联程度确定闻、黄页、中文网址、软件等多项搜索选择。搜狐 搜索范围以中文网站为主,支持中文域名。
搜狐的搜索规则:网站搜索(默认搜索设置)时,范围仅限于自 身目录中的注册网站。但在目录中没有相应记录的情况搜索同时查找匹配的网站和网页,返回的结果中网站 链接显示在页面上半部,而来自搜索引擎的网页结果则列于页 面下半部。
Yahoo属于目录索引类搜索引擎,可以通过两种方式在上面查找信息, 一是通常的关键词搜索,一是按分类目录逐层查找。以关键词搜索时,网 站排列基于分类目录及网站信息与关键字串的相关程度。包含关键词的目 录及该目录下的匹配网站排在最前面。以目录检索时,网站排列则按字母 顺序。Yahoo现与Google合作,默认采用Google搜索引擎提供网页搜索。 使用中文Yahoo! 检索的方法是:如果你很清楚你要找的网站主题,你 可以在检索栏内键入你想要找的关键字串,并按 Search 键开始查找;或 者按照Yahoo!的分类目录一级一级向下查找。 另外,利用双引号可以查询完全符合关键字串的网站;在关键字前加 t: ,搜寻引擎仅会查询网站名称;在关键字前加u:,搜寻引擎仅会查询 网址 (URLs);利用 + 可以限定关键字串一定要出现在结果中;利用 - 可以限定关键字串一定不要出现在结果中。
(3)在关键词中加入引号:在雅虎网站的搜索栏输入 “who am i”,单击“搜索”按钮,结果如图所示。
返回
空格的使用
在输入汉字作关键词的时候,空格将被认作特殊操作符,其 作用与AND一样。
如:如果你输入关键词:“飞 机” 去查询,由于中间有空格,会被认为是 需要查出所有同时包含“飞”、“机”两个字的文档,这个范围就要比“飞机” 作关键词的查询结果大多了,更重要的是它偏离了本来的含义。所以关键词输入 应为“飞机”。
返回
搜狐()
搜狐――我国最著名的门户网站,也是我国最早提供搜索服务的 站点。“出门靠地图,上网找搜狐”是国内很多网民熟悉的一句口 头禅。搜狐站点的全部内容采用人工分类,适合人们的思维习惯。 互联网概念在国内的普及,搜狐功不可没。在 2001 年年初由 CNAZ (中文网站评估认证网)举办的搜索引擎网络专项功能排名调查中, 搜狐名列第一。
返回
网络信息资源检索技巧
合理应用检索技巧可实现缩小检索范围 或扩大检索范围的目的,从而提高检索速 度、查准率和查全率。
关键字用法
选择搜索关键词的原则是,首先确定你要达到的目标, 在脑子里要形成一个比较清晰的概念,即我想要找的到底是 什么?是资料性的文档?还是某种产品或服务?然后再分析 这些信息都有些什么共性,以及区别于其他信息的特性,最 后从这些方向性的概念中提炼出此类信息最具代表性的关键 词。如果这一步做好了,往往就能迅速地定位你要找的信息, 而且多数时候你根本不需要用到其他更复杂的搜索技巧。另 外搜索条件越具体,搜索引擎返回的结果就越精确,有时多 输入一两个关键词效果就完全不同,这是搜索的基本技巧之 一。比如你想找一首乐曲“孤独的牧羊人”,关键词应该是 什么呢?是直接输入曲名吗?下面我们以不同的关键词为例, 来看一下结果。
特殊搜索
除一般搜索功能外,各搜索引擎都提供一些特殊搜 索命令及功能,以满足用户的一些特殊需求。比如:指 定文档搜索、专业网站搜索、标题搜索、图形搜索等等。 了解这些命令和功能,就可以大大的提高你的检索效率。 这些特殊搜索命令及功能下面将结合不同搜索引擎 简单介绍。
Yaho单击“搜索”按钮。
(单击“搜 索”按钮。
显然后者的结果更符合我们的需要。
返回
使用逻辑操作符
逻辑操作符通常是指布尔命令“AND”、“OR”、“NOT” 等逻辑符号命令。搜索引擎基本上都支持附加逻辑命令 查询,用好这些命令符号可以大幅提高搜索精度,使我 们日常搜索应用达到事半功倍的效果。
• 减除无关资料 有时候,排除网页,但减号之 前必须留一空格。 例如,要搜寻关于“武侠小说”,但不含“古龙” 的资料,可使用如下查询:[武侠小说 –古龙]。 • 并行搜索 使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网 页。例如:要查询“图片”或“写真”相关资料,无须分两次查询,并把最相关的网页排在前列。 • 相关检索 如果无法确定输索词语”作参考,点击 其中一个相关搜索词,页的快照,为用户 贮照不仅下载速度极快,而且您搜索用 的词语均已用不同颜色在网页中标明。原网页随时可能更新,跟百 度快照内容不同,请注意查看新版。和网页作者无关,不对网 页的内容负责。
返回
网络资源的特点(与传统数据库相比)
• • • • 内容丰富,应有尽有。 更新变化太快,不确定性高。 有待于规范化、标准化。(能规范化吗?) 检索没有定式,没有标准答案。
搜索引擎分类
搜索引擎如何分类呢?对于普通用户来说,Yaho格分类上说他们属于不同的种类,下面我们来了解 一下。 搜索引擎按照其工作方式主要可分为三种,分别是全文 搜索引擎(Full Text Search Engine)、目录索引类搜索引 擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 hoo!、国内的搜狐、新浪、网易 搜索 等。 • 元搜索引擎 中文元搜索引擎中具代表性的有搜星搜索
举例 ( 1 )在关键词中加入逗号,在雅虎网站的搜索栏输入“计算机,多媒体, windows2000”,单击“搜索”按钮,结果如图所示。含有三个关键词的最 靠前。
( 2 )在关键词中加入括号:在雅虎网站的搜索栏输入“(网址 or 网站) and(搜索or查询)”,单击“搜索”按简单方便。仅需输入查询内容并敲一下回车键 (Enter),即可得到相关询内容可以 是一个词语、多个词语、一句话。例如:可以输入[李白]、[mp3 下载]如:分别搜索 [舒淇] 和 [舒琪] ,会 得到不同的结果。 输入多个词语搜索 输入多个词语搜索(不同字词之间用一个 空格隔开),可以获得更精确的搜索结果。 例如:想了解北京暂 住证相关信息,在搜索框中输入:[北京 暂住证],获得的搜索效果 会比输#于199术(北京)有限公司, 随后于同年10月成立了深圳分公0%左右的市场份额。 其功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他 方面可与当前的搜索引擎业界领军人物Google相媲美,在中文搜索支持方 面有些地方甚至超过了Google,是目前国内技术水平最高的搜索引擎。为 包括搜狐、雅虎中国、、21CN、广州视窗等搜索引擎,以及中央 电视台。如无限定,默认以 关键词精确匹配方式搜索。此外还提供关键词分类搜索,即将常用关键词 进行组合分类,方P3搜索、Flash搜 索等。
采用逻辑操作符需要考虑优先级,查询的顺序将取决于优先级的高低。 另外目前搜索引擎的趋势是默认匹配全部关键词搜索,即仅返回包含所有 关键词的记录,即OR相当于AND,当然有时也有例外。
返回
使用逗号、括号或引号进行词组查找
在搜索引擎中还可以利用逗号、括号、引号进行词组查找。 逗号的作用类似于OR ,也是寻找那些至少包含一个指定关键词的文 档。不同的是“越多越好”是它的原则。因此查询时找到的关键词越多, 文 档 排 列 的位 置 越 靠 前 。 例 如 查 询关 键 字 是 : “ 计 算 机 ,多 媒 体 , Windows 2000”则查询时同时包含“计算机”、“多媒体”和“Windows 2000”的文档将出现在前面。 括号的作用和数学中的括号相似,可以用来使括在其中的操作符先 起作用。例如:“(网址or网站)and(搜索or查询)”则实际查询时, 关键词就是“网址搜索”,“网址查询”,或者是“网站搜索”,“网 站查询”。 引号的作用类似精确匹配,查询不仅要求网页中必须同时包含三个关 键字,关键字的顺序也要求完全相同,并且它们必须还是连在一起的, 所以带引号的查询范围更小一点。精确匹配搜索也是缩小搜索结果范围 的有力工具,此外它还可用来达到某些其他方式无法完成的搜索任务。 (注意:虽然现在一些搜索引擎已支持中文标点符号,但顾及到其他引 擎,最好养成使用英文字符的习惯)