网络信息检索PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,高等数学的学习方法,就可以这样查询: 学习方法 intitle:高等数学 注意, intitle:和后面的关键词之间,不要有空
格。
学习方法 intitle:高等数学(其中一个检索结果网页)
❖ 检索出的网页中包含”学习方法”,且网页标 题中包含“高等数学”
搜索范围限定在URL中
❖ Inurl:把搜索范围限定在url链接中 ❖ 例如,找关于photoshop的使用技巧,可以这
干预。 ❖ 缺点是返回信息过多,有很多无关信息,用户必须从结
果中筛选。 ❖ 检索功能强大。查全率高,查准率低。 ❖ 适于查找目的明确的用户。
❖ 这类搜索引擎的代表是:Google Baidu 、天网、百度、 AltaVista、Hotbot、Excite、Infoseek、FAST、Lycos等。
元搜索引擎
机器人搜索引擎(全文搜索引擎)
❖ 由一个称为蜘蛛(Spider)的机器人程序以某种策略自 动地在Internet中搜集和发现信息,由索引器为搜集到 的信息建立索引,由检索器根据用户的查询输入检索索 引库,并将查询结果返回给用户。自动标引,数据量大。
❖ 服务方式是面向网页的全文检索服务。 ❖ 该类搜索引擎的优点是信息量大、更新及时、毋需人工
样查询:photoshop inurl:jiqiao
❖ 上面这个查询串中的“photoshop”,是可以 出现在网页的任何位置,而“jiqiao”则必须出 现在网页url中。
❖ 注意,inurl:语法和后面所跟的关键词,不要有 空格。
photoshop inurl:jiqiao 其中一个检索结果网页
3.2.1搜索引擎概述
搜索引擎(Search Engine) ❖ 以一定的策略在互联网中搜集、发现信息,对
信息进行理解、提取、组织和处理,并为用户 提供检索服务,从而起到信息导航的目的。
搜索引擎的特点
收录、加工信息的范围广、速度快; 检索功能强,一般可称为网络资源的关键 词索引; 检索时直接输入关键词或词组、短语,无 需判断类目归属,比较方便; 标引过程缺乏人工干预,准确性较差; 检索误差(噪音)较大; 搜索引擎适合于检索特定的信息,及较为 专、深、具体或类属不明确的课题。
搜索引擎的工作原理
❖搜索引擎主要由4部分组成:搜索器、索引器、 检索器、用户接口。
❖ 搜索器的功能是在因特网中发现和搜集信息。 ❖索引器的功能是理解搜索器所搜索的信息,从
中抽取出索引项,用于表示文档以及生成文档 库的索引表,建立起自己的物理索引数据库。 ❖检索器的功能是根据用户的查询在索引库中快 速检出文档,进行文档与查询的相关度评价, 对将要输出的结果进行排序,并实现某种用户 相关性反馈机制。 ❖用户接口的作用是输入用户查询、显示查询结 果,提供用户相关性反馈机制。
And两侧的检索
词必须同时出现 在检索字段中
A
B
a 逻辑“与”
❖作用 缩小检索范围,提高查准率。 ❖举例 检索“人口控制”或者“控制人口”方面的文 献信息。 人口 and 控制 检索中国最长的公路桥的信息。
中国 最长 公路桥
返回
b 逻辑“或”
❖ 百度中表示逻辑“或”的运算符:|
用于检索词并列关系(同义词、近义词)的组配, 实现检索词概念范围的并集。
❖ 书名号是百度独有的一个特殊查询语法。在其他搜索引 擎中,书名号会被忽略,而在百度,中文书名号是可被 查询的。加上书名号的查询词,有两层特殊功能,一是 书名号会出现在搜索结果中;二是被书名号扩起来的内 容,不会被拆分。 书名号在某些情况下特别有效果, 例如,查名字很通俗和常用的那些电影或者小说。比如, 查电影“手机”,如果不加书名号,很多情况下出来的 是通讯工具——手机,而加上书名号后,《手机》结果 就都是关于电影方面的了。
输入用户查询、 显示查询结果, 提供用户相关 性反馈机制。
搜索引擎的分类
❖ 按照索引方式的不同,可分为目录式搜索引擎、 机器人搜索引擎、元搜索引擎。
❖按照检索内容划分 可分为通用型、专题型
目录式搜索引擎
❖ 以人工方式或半自动方式搜集信息,由编辑员查看信息 之后,人工形成信息摘要,并将信息置于事先确定的分 类框架中。有利于族性检索。
百度相关词
百度高级检索 (前面大部分功能可以在这里实现)
百度“更多”功能
❖ 百科、知道、文库、图片、MP3、视频、地图 、词典、常用
百度常用搜索
Google
❖ 如果我们需要进行英文资料的检索,使用 Google则更合适一些。
Google总结(与baidu基本类似)
与、或、非 强制搜索或精确搜索 限制搜索网站或域名 限制查询的文件类型
3.2.2主要的中文搜索引擎(百度)
支持布尔逻辑运算 精确匹配 指定文档检索 限定在网页标题中检索 搜索范围限定在URL中 限定在网站中检索 百度相关词 百度高级检索 百度“更多”功能 百度计算器 邮编区号和电话号码归属地
精确匹配
❖ 双引号如果输入的查询词很长,百度在经过分析后,给 出的搜索结果中的查询词,可能是拆分的。如果您对这 种情况不满意,可以尝试让百度不拆分查询词。给查询 词加上双引号,就可以达到这种效果。 例如,搜索 上海科技大学 ,如果不加双引号,搜索结 果被拆分,效果不是很好,但加上双引号后,“上海科 技大学”,获得的结果就全是符合要求的了。
第3章 网络信息资源检索技术与工具
3.1.1布尔逻辑检索技术
❖ 布尔逻辑检索技术就是利用布尔逻辑算符进行检索项 的逻辑组配,用以表达检索者的提问概念。
❖ 布尔逻辑算符指规定检索词之间相互关系的运算符号, 在检索表达式中起着逻辑组配的作用
检索词

检索词

复杂概念的 检索式


检索词
3.1.1布尔逻辑检索技术
搜索引擎中的特色功能
❖ 寻人搜索引擎 (people.yahoo.com) ❖ 百度盲道http://dao.baidu.com/
百度盲道是百度提供的为方便视障人士上网阅读信息、 参与社区互动、听歌、访问互联网上其他相关网站的特 殊入口。 ❖ 学术搜索引擎Google学术搜索 http://scholar.google.com ❖ 百度国学搜索http://guoxue.baidu.com/ 百度国学搜索 是百度与国学公司合作推出的针对中国 传统文化方面的专业搜索,提供了大量的丰富的古典名 著、历史资料、人名书名等,为传播中华古代文明和国 学研究提供使用的便利。
❖ 信息大多面向网站。 ❖ 提供目录浏览服务和直接检索服务。 ❖ 该类搜索引擎因为加入了人工智能,所以信息准确、导
航质量高。 ❖ 缺点是需要人工介入(维护工作量大)、信息量少、信
息更新不及时。 ❖ 适合主题浏览,检索目的不太明确的用户。 ❖ 这类搜索引擎的代表是:国内:中文Yahoo!、网易、
sohu、sina等;国外:Yahoo!、Galaxy、LookSmart、 Open Dirertory、Go Guide等
3.1.3限制检索技术 ❖ 字段检索
3.1.3限制检索技术
❖ 限制符检索 ❖ “(Keyword_C=宏观经济)*(Writer=
杨)*(Years=2000+2001+2002+2003+200 4+2005+2006+2007+2008+2009+2010+ 2011+2012)”
3.1.4邻接检索技术(位置检索技术)
❖ 常用的布尔逻辑运算符:
▪ 逻辑“与(AND)” ▪ 逻辑“或(OR)” ▪ 逻辑“非(NOT)”
❖ 运算顺序
a 逻辑“与”
❖ 百度中表示逻辑“与”的运算符:AND 或 +或 “空格”
用于交叉概念或限定关系的组配,实现检索词
概念范围的交集。 表达式:
检出同时含有 检索词A和检 索词B的记录
A and B 或 A B或A+B
c 逻辑“非”
❖ 百度中表示逻辑“非”的运算符:-
【注意:“-”前必须输入一个空格】。
一种排斥关系的组配,用来从原来的检索范
围中排除不需要的概念。
表达式:
检索出的记录含有检
索词A,但同时不含
A -B
检索词B
适用于排除含有某个 指定检索词的记录
A
B
c 逻辑“非”
❖作用 缩小检索范围,增强检索的准确性。但使用不 当,易排除有用文献信息,从而导致漏检
❖ 位置逻辑检索 利用位置逻辑算符限定检索词之间的位置,或 指定检索词在记录中某一特定位置进行检索。 位置算符又称邻接运算符。
❖ 位置逻辑检索的作用 表达各个检索词之间的顺序与相对位置关系。
❖ 与布尔逻辑检索的区别 使用布尔逻辑检索时,计算机只判断参加运算 的检索词在数据库记录中出现与否,不能确定 检索词之间的相对位置关系。而通过与位置算 符配合使用可以减少检索误差。
指定文档检索
Filetype:文本类型(doc.ppt.pdf.txt等 等),表示在某一类文件中查找信息
例如:查找“网络信息检索”的所有的doc的 文档,可以把检索词写成: 网络信息检索 filetype:doc
限定在网页标题中检索
intitle:限定只搜索网页标题中
网页标题通常是对网页内容提纲挈领式的归纳。 把查询内容范围限定在网页标题中,有时能获 得良好的效果。
❖ 通用型搜索引擎: 在采集标引信息资源时不限制资源的主题范围
和数据类型,又称为综合型检索工具。 如:百度、雅虎等
❖ 专题型(垂直型)搜索引擎: 指那些专门用来检索某一类型信息和数据的
检索工具,如
查询地图的检索工具“MapBlast” 查询图像的检索工具“WebSEEK”等。 股票搜索引擎 www.macd.cn 搜房网http://jn.soufun.com/
▪ 按截词的位置 右截断、左截断、中间截断
后截断举例
❖ 输入: computer*
❖ 检索结果
computeracy computerise computerization computers
隐含OR运 算特性
后截断举例
❖ 查找作者为:Job.Black或者 Jobson.Black的图书
❖ 输入:Job*.Black
表达式:
检索出的记录含有检
索词A或者检索词B
A or B 或 A+B
在文献记录中只要
含有检索词A和检
索词B中的任何一
A 个即算命中
B
b 逻辑“或”
❖作用 扩大检索范围,防止漏检,提高 查全率。
❖举例 检索“计算机” 方面的文献信息。
计算机 or 电脑 检索“西红柿” 方面的文献信息。
番茄|西红柿
返回
限定在网站中检索
❖site:站点域名 把搜索范围限定在特定站点中
❖ 例如,到天空网下载软件msn,就可以这样查 询:msn site:skycn.com
❖ 注意,“site:”后面跟的站点域名,不要带 “http://”;另外,site:和站点名之间,不要 带空格。
msn site:skycn.com(其中一个检索结果网页
大提高,但查准率更难保障 ❖ 缺点是不能够充分使用原搜索引擎的功能,用户需要做
更多的筛选。 ❖ 这类搜索引擎的代表是搜乐网、搜魅网、万纬搜索、
WebCrawler、InfoMarket,在线搜 (http://www.zxsou.com/)等。
元搜索引擎----万纬搜索
通用型搜索引擎和专题型搜索引擎
工作原理—示意图
搜索器
在因特网中发 现和搜集信息
索引器
源自文库检索器
用户界面
理解搜索器所搜索的信息, 从中抽取出索引项,用于 表示文档以及生成文档库 的索引表,建立起自己的 物理索引数据库。
根据用户的查询在索引库 中快速检出文档,进行文 档与查询的相关度评价, 对将要输出的结果进行排 序,并实现某种用户相关 性反馈机制。
❖举例 检索有关能源方面的文献信息,但不包括核能。
energy -nuclear
返回
3.1.1布尔逻辑检索技术
• 布尔逻辑运算符的运算顺序
NOT
优先级高
AND
OR
优先级低
返回
3.1.2 截词检索技术
❖ 截词检索就是用截词符号将检索词截断,用 检索词的片段进行匹配运算。
▪ 按截词的字符数量 有限截断、无限截断
❖ Meta Search Engine(搜索引擎之上的搜索引擎,是一个 能调用其他搜索引擎的搜索引擎。)
❖ 这类搜索引擎没有自己的数据,而是将用户的查询请求 同时向多个搜索引擎递交,将返回的结果进行重复排除、 重新排序等处理后,作为自己的结果返回给用户。
❖ 服务方式为面向网页的全文检索。 ❖ 这类搜索引擎的优点是返回结果的信息量大。查全率大
相关文档
最新文档