网络信息检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上一页
下一页 返回
第一节搜索引擎概述
需要一种方法对文档进行预处理,在文档间建立一种便于检 索的数据结构,以此来提高信息检索的速度,这种数据结构 就是索引。而索引器的工作就是建立一个包含关键信息的索 引库以备查询。索引器的策略在很大程度上影响了搜索引擎 的效率与准确性。
检索软件负责提供用户使用搜索引擎的接口。检索软件一般 是一个Web应用程序,其主要工作包括获取用户制定的搜索 规则;查询索引库;计算网页搜索请求的关联度;提供排序后的 搜索结果返回。
上一页
下一页
第一节搜索引擎概述
搜索引擎的语法规则与检索式的构建
语法规则 搜索引擎的语法规则主要包括基本数学规则、限制搜索语法、
辅助搜索语法以及布尔逻辑算符。 基本数学规则 连接符号 连接符号主要有(+)和减号(-)。在检索词前面使用“+”时候,表
示所有检索结果的页面都必须包含该词。检索式为“+A+B", 表示所查的该页面中应出现“A”和“B”方面的信息。而检索 式“A+B”则表示检索结果页面中一定含有+B;,但是不一定包 含有“A”的信息。检索词前面使用“-”,表示任何检索结果的 页面都不能包含该词语。
一个复杂计算式,很不方便。
上一页
下一页 返回
ห้องสมุดไป่ตู้
第二节常用中文搜索引擎
股票、列车时刻表和飞机航班查询 在百度搜索框中输入股票代码、列车车次或者飞机航班号,
用户就能直接获得相关信息。 天气查询 百度支持全国多达400多个城市和近百个国外著名城市的天
气查询。 百度搜霸 百度搜霸是一款免费的浏览器工具条,下载后安装在IE浏览
在百度高级检索中,如图6-3所示,用户可以限制某一检索必 须包含或者排除某些特定的关键词或短语,也可以定制搜索 结果页面所含的条目数量,还可以限定所搜索网页的时间、 地区、语言、格式及关键词在结果中出现位置等。
上一页
下一页 返回
第二节常用中文搜索引擎
其他特色功能
目前百度网页搜索的特色功能包括百度快照、相关搜索、拼音提 示、错别字提示、英汉互译词典、计算器和度量衡转换、股票、 列车时刻表和飞机航班查询、天气查询、高级搜索、地区搜索和 个性设置等
百度提供相关检索
如果用户无法确定输入什么词语能找到满意资料,可以试用 相关检索,先输入一个简单词语,搜索引擎会在页面结果第 一页下方提供“相关搜索”做参考,这时,只击要单击其中 一个搜索词,就能得到那个相关搜索词的搜索结果。
上一页
下一页 返回
第二节常用中文搜索引擎
依据检索需要,用户可以通过高级检索中提供的各种条件限 制来精确检索范围,从而提高检索的查准率
上一页
下一页 返回
第二节常用中文搜索引擎
拼音与错别字提示 如果只知道某个词的发音,却不知道怎么写,或者嫌某个词
拼写输入太麻烦,可通过百度拼音提小来解决问题。 英汉互译词典 随便输入一个英语单词,或者输入一个汉字词语,留意一下
搜索框上方多出来的词典提小。如搜索“apple “ 计算器和度量衡转换 Window系统自带的计算器功能过于简陋,尤其是无法处理
常有某种有价值的含义,用户可通过对搜索结果的url做某种 限定来获得良好的效果。
上一页
下一页 返回
第二节常用中文搜索引擎
百度支持任意的关键词检索,无论中文、英文、数字,还是 各种形式文字的混合
在输入多个检索词时,应用空格隔开。要想精确搜索,有两 个符号可以用到,双引号(“”)和书名号(《 》)。若输入的查 询词很长,百度在经过分析后,给出的搜索结果中的查询词, 可能是拆分的。用户可以给查询词加上双引号而尝试让百度 不拆分查询词。书名号是百度独有的一个特殊查询语法。
建立索引数据库,由索引系统程序对收集到网页进行分析, 提取相关网页信息(包括网页所在URL,编码类型、页面内容 包含的关键词、生成时间、大小、相关链接关系等),根据一 定的相关度算法进行大量复杂计算,得到每个网页针对页面 内容及链接中每个关键词的相关度,然后用这些相关信息建 立网页索引数据库。
上一页
上一页
下一页 返回
第一节搜索引擎概述
限制搜索语法 限制搜索语法是从不同角度限定网络搜索的功能性词语和符
号,对搜索结果起到定向作用和控制作用。主要包括标题搜 索(Title Search)、网站搜索(Site Search)、网址搜索(URL Search),链接搜索(Link Search)、文件搜索(Fileype Search) 检索式的构建 检索式是指搜索引擎能够理解和运算的查询串,由关键词、 逻辑运算符、搜索语法等构成。关键词是检索式的主体,逻 辑运算符和搜索指令根据具体的查询内容,力求使关键词与 内容描述词一致。准确选择关键词,需要对查询内容有一定 了解,有一个根据搜索结果从模糊到准确的逐步调整关键词 的练习过程。在使用逻辑运算
用户接口的作用是为用户提供可视化的查询输入和结果输出 界面,其主要目的是方便用户使用搜索引擎获取有效信息, 可以分为简单接口和复杂接口两种。
上一页
下一页 返回
第一节搜索引擎概述
搜索原理
其搜索原理主要分为四个步骤:
从网络上抓取网页,搜索引擎主动派出“蜘蛛”程序访问 Internet,对一定IP地址范围内的互联网站或者网站拥有者 主动向搜索引擎提交的网址进行检索,并将搜集到的信息和 网页收集到服务器上。
第二节常用中文搜索引擎
检索方法和技巧 百度支持布尔逻辑检索,支持通配符的使用 支持逻辑“与”,检索时不需要使用“AND”或者“+”,只
需要在输入的多个检索词之间以空格加以隔开,系统会自动 在各检索词之间添加“+”;支持逻辑“非”,运算符为“一”, 注意前一个关键词和减号之间必须有空格,否则减号会被当 少戊连字符处理,而失去减号语法功能。减号和后一个关键 词之间,有无空格均可。
上一页
下一页 返回
第二节常用中文搜索引擎
检索方法与技巧 空格、OR和减号(-) 用户输入的关键词之间如果不加其他修饰符号而只留空格的
话,Google会默认关键词之间为“and”的关系,就会对所 有的关键词同时进行搜索并只返回那些符合全部查询条件的 网页。 双引号(“”)和通配符(*) 在Google中,可以通过添加英文双引号来搜索短语。双引号 中的词语在查询到的文档中将作为一个整体出现。
百度快照
每个被收录的网页,在百度上都存有一个纯文本的备份,称为 “百度快照”。
相关搜索
搜索结果不佳,有时候是因为选择的检索词不是很妥当。百度使
用相关检索词智能推荐技术,即在用户第一次检索后,会在搜索
结果页的下方提示相关的检索词,帮助用户查找更相关的结果,
统计表明其可以促进检索量提升10%~20%
上一页
下一页 返回
第二节常用中文搜索引擎
百度支持搜索位置的限定 检索时,有如下命令: intitle——关键词在网页标题中,把查询内容范围限定在网
页标题中,有时能获得良好的效果。 Fileype——对搜索对象做格式限制,使用方法是在
“Fileype”后跟文件格式。 Inurl——限定在URL链接中搜索,网页url中的某些信息,常
上一页
下一页 返回
第二节常用中文搜索引擎
高级检索 Google提供的高级检索功能可以为检索附加多种限制条件,
从而使检索结果更精确,同时也在一定程度上避免用户由于 对检索式构造不够熟悉而造成的错检、漏检等现象。 Google高级搜索提供了输入项、网页语言、网页区域、文件 格式、日期、关键词位置、网域、权限等自定义搜索结果, 如图6-6所示。
上一页 返回
第二节常用中文搜索引擎
百度
概述 百度(http://www.baidu.com)是由百度公司于1999年底在美
国硅谷成立的,是目前全球最优秀的中文信息检索与传递技 术供应商。 使用百度搜索引擎,其基本检索页面由功能模块和检索输入 框及检索按钮三部分组成,如图6-1所示
下一页 返回
上一页
下一页 返回
第二节常用中文搜索引擎
其他功能 Google除了上述特点外,还具备相当多的功能,包括网页快
照、类似网页、错别字改正、中英文字典、google学术搜索, 天气查询、股票查询、邮编区号、手机号码等。下面介绍其 中几个。 google学术搜索 Google提供可广泛搜索学术文献的简便方法。 google生活搜索 切换到生活搜索,输入关键字后,点击搜索,用户希望的结 果就会出现。
下一页 返回
第一节搜索引擎概述
空格、逗号、括号和引号的作用 空格的作用与逻辑“与”的作用相同。逗号的作用类似于逻
辑“或”,也是查找那些至少包含一个指定关键词的页面, 区别在于检索结果输出时,包含指定关键词越多的页面,其 排列顺序位置越靠前。括号的作用是使括号内的运算符优先 执行,用来改变复杂检索式中固有逻辑运算符优先级的次序。 引号的作用是将引在其中的多个词被当作一个短语来检索。
上一页
下一页 返回
第一节搜索引擎概述
按工作机理划分
第一类是机器人搜索引擎,由一个称为蜘蛛(Spider)的机器人 程序按设计者和网站定制的策略自动在匀_联网中抓取相应的 信息,并通过分析抓取的网页文件获取网页中存在的新的URL 链接,以此达到层层深入抓取的日的,抓取结束后采用单机存 储或分布式存储的方式进行磁盘存储,然后由索引器为搜集到 的信息建立索引,根据用户的查询输入检索索引库,并将查询 结果返回给用户。该类搜索引擎的优点是信息量大,更新及时, 无需人工干预;缺点是返回多而杂,必须进行人工筛选。
第二类是元搜索引擎,这类搜索引擎没有自己的数据,而是将 用户的查询请求同时向多个搜索引擎递交,将返回的结果进行 重复排除、重新排序等处理后,作为自己的结果返回给用户。
上一页
下一页 返回
第一节搜索引擎概述
搜索引擎的工作原理
搜索引擎构成 搜索引擎广义上是一种基于互联网的信息查询系统。一个网
络搜索引擎一般由搜索器、索引器、检索器和用户接口四部 分组成。 搜索器就是帮助用户查找到特定信息的一种工具。而搜索引 擎中的搜索器却承担了另一个网络数据抓取功能。只有准确 地获取、表示、存储、组织信息,同时提供便利的访问方式, 才能方便用户进行准确的查询。
下一页 返回
第一节搜索引擎概述
按内容组织方式划分 第一类是全文检索(Full Text Search)的搜索引擎,用户能够对各
网站的每个主页中的每个词进行搜索。全文搜索引擎的优点是查 询全面而充分。当全文搜索引擎遇到一个网站时,会将该网站上 所有开放的网页全部获取下来,并收入到引擎的数据库中。 第一类是建立在分类学基础上的目录分类式搜索引擎。它通过人 工方式将所收入的站点进行分类而建立数据库,以提供查询。目 录分类式搜索引擎当遇到一个网站时,先将该网站划分到某个分 类下,再记录一些摘要信息对该网站进行概述性的介绍。
下一页 返回
第一节搜索引擎概述
在索引数据库中搜索,当用户输入关键词搜索后,分解搜索 请求,由搜索系统从网页索引数据库中找到符合该关键词的 所有相关网页。
对搜索结果进行处理排序,所有相关网页针对关键词的相关 信息在索引库中都有记录,通常根据网页中关键词的匹配程 度,出现的位置、频次、链接质量等计算出各网页的相关度 及排名等级,然后根据关联度高低,按顺序将这些网页链接 返回给用户。
器的工具栏内用户无需登陆百度搜索引擎,即可以利用该工 具条进行即时检索。
上一页
下一页 返回
第二节常用中文搜索引擎
谷歌
概述 谷歌是Google中文名。Google(www.Google.com)是一个
搜索引擎,由斯坦福大学的两个博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc.于1999年创立。 基本检索 Google的页面十分简单,如图6-4所示,在检索输入框下面 排列着几大功能模块,分别是视频、图片、生活、地图、音 乐、翻译、265导航。
第六章网络信息检索
第一节搜索引擎概述 第二节常用中文搜索引擎
第一节搜索引擎概述
搜索引擎的定义与类型
搜索引擎的定义 搜索引擎,英文为Search Engine是指根据一定的策略、运用特
定的计算机程序搜集互联网上的信息,在对信息进行组织和处理 后,为用户提供检索服务的系统。 搜索引擎的类型 搜索引擎种类繁多,它可以按照内容组织方式和工作机理等进行 区分。