文献检索 搜索引擎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
① intitle、allintitle:搜索范围限制在网页的 标题 ② intext,allintext:搜索范围限制在网页 中的正文中搜索 ③ inurl、allinurl:搜索范围限制在URL ④ inanchor、allinanchor :搜索范围限制 在页面的链接锚点描述文本进行搜索。
Google的高级检索
检索词
OR
• 条件:四川省OR高职 • 含意:二条件满足其中一个都符合要求 • 结果:凡有***四川省*** 以及凡有高职的全部搜索出来
AND
• 条件:四川省AND高职 • 含意:同时满足二个条件的才符合 • 结果:只有四川省的高职符合要求
NOT
• 条件:四川省高校NOT高职 • 结果:四川省高职以外的所有高校
第二节 网络信息资源 检索
• 教学内容:
1. 网络信息检索技术 2. 网络搜索引擎
• 回忆一下,用过搜索引擎的人 • 每次上网是否都会用搜索引擎 • 设想一下如果没有搜索引擎 •
将会如何
搜索引擎概念
• 是什么?系统 • 供用户随时查阅的信息地图。 • 一代搜索引擎代表——Yahoo • 二代搜索引擎代表——Google • 三代搜索引擎——?Facebook?
点击
计算机检索策略与技巧
计算机检索策略的制定
• 列出待检课题的学科范围、主题范围等。 • 确定检索词、构造检索式,调整词之间的位置关系及组配
关系。
• 选择相关数据库,确定检索途径。 • 拟定检索式。 • 实检与反馈调节 。
构造检索式
1. 选择检索词 2. 组配检索词
选择检索词应注意:
• 该词的所有拼写形式和方法 • 该词的广义词、狭义词、相关词及多义词等 • 该词的最佳截断部位 • 应包括那些非主题的词 • 对于泛指的主题概念词,应选用其包容特性的具体内 容来表达 • 课题面窄,提问专指度高,而数据库中对文献的标引 深度可能不足时,对检索词可进行粗化,取其上位检 索词
A OR B 扩大
A AND B 缩小
A NOT B 排除
B NOT A
布尔逻辑检索技术
• 布尔逻辑检索技术就是利用布尔逻辑算符进行 检索项的逻辑组配,用以表达检索者的提问概 念。 • 布尔逻辑算符指规定检索词之间相互关系的运 算符号,在检索表达式中起着逻辑组配的作用
检索词
简 单
组 配
检索词
复杂概念的 检索式
构造检索式的要求
• 表达课题要求
• 遵守待检数据库的检索用词规则
• 符合检索系统的功能及限制条件
• 简单明了
扩大检索结果
1. 同义词检索技术:应考虑 • 元素和元素符号,例:“AI‖和“Aluminium‖
• 缩写和全称,例:“计算机辅助设计”和 “CAD‖和“Computer Aided Design‖,同时 在外文数据库中仅用CAD作为主题词,误检率 较大, “弹药动力装置”也可被检出。
– – – 与:空格、AND 或:OR、| 非:-(减号)
⑥ ⑦ ⑧ ⑨
约束条件:+ 同义词:~ 数字范围:.. 括号:()
默认模糊搜索、默认拆分语句和过长的短语
如何精确搜索(短语搜索)
通配符*用法
点号匹配任意字符(也可不用引号)
布尔逻辑
逻辑非
约束条件
数字范围
谷歌高级搜索语法(一)
特点:
• 1.独立的门户网站,查询简洁方便 • 2.特有分类主题一体化查询功能 • 3.互动式“搜索提示”
• 4.专家优选信息价值高
• 5.与电子商务紧密结合 • 6.查询语句简单化
• 7.多元搜索“直通车”
搜狗分类搜索:
搜索引擎的不足
• 信息量过大,准确检索不易,漏检 • 信息的可靠性、权威性、真实性无检验 • 检索查找与系统间的认知和差距,造成检 索不准确 ,普通人员不易于掌握 • 工具书,整理有序,全部呈现在面前,系 统性强。引擎知识零乱,需要找,找一个 得一个,虽然有链接,有扩展,智能化, 但仍不能完全解决,且有更加繁杂感觉
• 布尔逻辑运算符的运算顺序
NOT
AND
OR
优先级高
返回
截词检索技术
截词检索就是用截词符号将检索词截断, 用检索词的片段进行匹配运算。 截词符号有“*” “?”,分别表示无 限截断和有限截断。 注意 截断的词干不能太短,词干一般应在3 个字符以上,以免增加检索时间,产生 误检。
Eg. (1)后截断:com*——come、 computer、computers、 computimy……
图书
• 提供图书全文 • 提供图书馆藏书情况 • 提供书商 • 提供相似图书 • 个人图书馆 • 阅读功能
在图书馆中查找
学术搜索
• 可实现全文搜索,给链接, • 与CNKI、维普、万方等合作 • 可以看全文
Google搜索比较
• 题目:汽车防护装置 • 利用检索运算符号 • 附加语种、博客、时间条件 • 比较检索结果
第三代互动式搜索引擎——搜狗
http://www.sogou.com 搜狗是搜狐公司于2004年8月3日推出的完全自主技术 开发的全球首个第三代互动式中文搜索引擎,是一个具有 独立域名的专业搜索网站——―搜狗” (www.sogou.com)。以一种人工智能的新算法,分析 和理解用户可能的查询意图,给予多个主题的“搜索提 示”,在用户查询和搜索引擎返回结果的人机交互过程中, 引导用户更快速准确定位自己所关注的内容,帮助用户快 速找到相关搜索结果,并可在用户搜索冲浪时,给与用户 未曾意识到的主题提示。
搜索引擎的结构
• 一般由网络蜘蛛、切词器、索引器、查询器几部分组成。 • 网络蜘蛛负责网页信息的抓取工作,传统爬虫从一个或若 干初始网页的URL开始,获得初始网页上的URL,在抓取 网页的过程中,不断从当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件 • 切词器和索引器负责将抓取的网页内容进行切词处理并自 动进行标引,建立索引数据库。 • 查询器根据用户查询条件检索索引数据库并对检索结果进 行排序和集合运算,如并集、交集运算,再提取网页简单 摘要信息反馈给查询用户。
• 手气不错”——即“手气不错?‖ 按钮自动 将您带到Google推荐的网页。您无须查看 其他结果,省时方便。 例如,要查找北京 大学,只需输入: 北京大学再点击“手气 不错”按钮,Google 就直接带您到 www.pku.edu.cn-- 北京大学的正式主页。
• ―相似网页”——点击“相似网页” 连接时, Google侦察兵便开始寻找与这一网页性质 类似的网页,一般都是同一级别的网页
搜索引擎检索技术
布尔逻辑检索技术 布尔逻辑检索是建立最早的检索理论, 也是检索系统中应用最广泛的检索技术。 它通过对布尔逻辑运算符进行组配,形成 检索式,用以表达用户的检索需求,并通 过一定的算法和手段进行检索。
布尔逻辑运算符及其关系
• 布尔逻辑运算符有三种:逻辑与(AND)、逻辑 或(OR)、逻辑非(NOT)
• 分为词条概述和基本信息栏 • 可编辑词条
一个词条
编辑词条
百度文库-课件,习题,考试题库,论文报告,专业资料,
各类公文模板。法律文件,文学小说等多个领域资料
百度知道基于搜索的互动式知识问答分享平台
• 也有百度快照, • 百度百科与百度知道的区别 • 前者学术性强,系统专业。有词条,词典 性质,只能搜索,不能提问,只能搜索。 • 后者互动性强,为社区型互动平台,自由 参与,自由提问自己找答案。
• 用多个搜索引擎验证搜索结果,源于各引 擎搜索的资源不完全相同,算法、排序不 同 • 资源有限、检索功能有限,引擎不能替代 专业数据库 • 仍有70%的资源引擎不能抓取 • 智能化的引擎不能完全替代智能的人
Google检索技术应用
• 1.布尔逻辑在google搜索引擎中的应用 Eg. 机电产品+设计
Google检索技术应用
• 1.布尔逻辑在google搜索引擎中的应用 Eg. (机电产品+设计) –竞赛
Google检索技术应用
Google检索技术应用
• 使用布尔逻辑检索需注意:
操作符须为英文字符,支持“-‖功能, 但减号前必须留一空格,否则视为无效字 符,进而执行默认的逻辑“与”关系。
Google检索技术应用
• 2.site(限定网域检索) 将搜索结果局限在某个具体网站或网站频道。 Eg.搜索edu.cn上所有关于周济的网页
Βιβλιοθήκη Baidu
Google检索技术应用
Google检索技术应用
限定文献类型检索 Eg.文献检索课 filetype:ppt 目前google支持ppt、doc、xls、pdf、ps、 rtf、dwf、kml、kmz、swf等格式的文件
搜索引擎的原理
• 可以看做二个三步: • 从互联网上抓取网页信息→建立索引数据 库、文档数据库→在索引数据库中搜索排 序 • 输入检索词、系统索引数据库中找到符合 条件的所有相关网页 、链接地址和页面内 容摘要等内容组织起来返回给用户
搜索引擎类型
• 全文搜索引擎 :Google、Yahoo! Search、Bing、百度 • 目录索引 :不是严格意义上的搜索引擎, 如行业目录网站、Yahoo Directory • 元搜索引擎 :在接受查询请求时,同时在 其他多个引擎上进行搜索,并将结果返回。 如 InfoSpace
py=200*
(2)前截断:*computer—— minicomputer、microcomputer…… (3)中截断:f??t——foot、feet
表单式检索
• 在检索系统中,高级检索界面都提供。
用检索式检索
浏览检索技术:参考文献链接
该链接点不仅可以显示该检 索结果文献所使用的参考文 献数量,单击它还可显示这 些参考文献的具体列表;
• 百度——Baidu
http://www.Baidu.co m
百度的高级检索
百度MP3检索界面
百度的更多功能
百度的行业报告
百度的行业报告
百度的特殊功能
百度百科
• 内容开放、自由的网络百科全书 • 涵盖各领域知识的中文信息收集平台 • 百度搜索、百度知道结合,从不同的层 次上满足用户对信息的需求 • 内容包括具体事物、知名人物、抽象概 念、文学著作、热点事件、汉语字词或 特定主题的组合
• 相关词,例:“Database‖,其相关词有 “Expert System‖、“software‖等。 2.截断技术 3.布尔逻辑“或”(OR)
缩小检索结果
1.布尔逻辑“与”(AND)
例如,检索计算机在图书馆中的应用的文 献,可表示为:计算机 and图书馆。 2.布尔逻辑“非”(NOT)
例如,检索除“水上运输工具”以外的其 他运输工具,可表示为:运输工具 not 水上运输。
Google检索技术应用
Google检索技术应用
Google检索技术应用
4.Define:查找词汇、缩写等 Eg. Define:J2EE
• What is xxx
Google的其他服务项目
有用功能
• 网页快照 • 当搜索内容站点或网页不存在时,用户可以调 用 Google事先为用户储存的大量应急网页,经 Google处理后,搜索项均用不同颜色标明,另外 还有标题信息说明其存档时间日期,并提醒用户 这只是存档资料。实际上Google将检索的网页都 做了一番“快照”然后放在自己的服务器上,这 样做的好处是不仅下载速度极快,而且可以获得 互联网上已经删除的网页。
3.组配
常用的搜索引擎
我们一起看
Google http://www.google.com.hk
• 30万亿页 132种语言 • Google深度爬虫一天更新一次 • 是目前世界上使用最多的 • 代表性搜索引擎,引领搜索技术发展 • 扩大服务领域 • 深度、广度、高度
谷歌一般搜索技术(一)
① ② ③ ④ ⑤ 默认模糊搜索、默认拆分语句和过长的短语 如何精确搜索(短语搜索) 通配符*用法 点号匹配任意字符:. 布尔逻辑
Google的高级检索
检索词
OR
• 条件:四川省OR高职 • 含意:二条件满足其中一个都符合要求 • 结果:凡有***四川省*** 以及凡有高职的全部搜索出来
AND
• 条件:四川省AND高职 • 含意:同时满足二个条件的才符合 • 结果:只有四川省的高职符合要求
NOT
• 条件:四川省高校NOT高职 • 结果:四川省高职以外的所有高校
第二节 网络信息资源 检索
• 教学内容:
1. 网络信息检索技术 2. 网络搜索引擎
• 回忆一下,用过搜索引擎的人 • 每次上网是否都会用搜索引擎 • 设想一下如果没有搜索引擎 •
将会如何
搜索引擎概念
• 是什么?系统 • 供用户随时查阅的信息地图。 • 一代搜索引擎代表——Yahoo • 二代搜索引擎代表——Google • 三代搜索引擎——?Facebook?
点击
计算机检索策略与技巧
计算机检索策略的制定
• 列出待检课题的学科范围、主题范围等。 • 确定检索词、构造检索式,调整词之间的位置关系及组配
关系。
• 选择相关数据库,确定检索途径。 • 拟定检索式。 • 实检与反馈调节 。
构造检索式
1. 选择检索词 2. 组配检索词
选择检索词应注意:
• 该词的所有拼写形式和方法 • 该词的广义词、狭义词、相关词及多义词等 • 该词的最佳截断部位 • 应包括那些非主题的词 • 对于泛指的主题概念词,应选用其包容特性的具体内 容来表达 • 课题面窄,提问专指度高,而数据库中对文献的标引 深度可能不足时,对检索词可进行粗化,取其上位检 索词
A OR B 扩大
A AND B 缩小
A NOT B 排除
B NOT A
布尔逻辑检索技术
• 布尔逻辑检索技术就是利用布尔逻辑算符进行 检索项的逻辑组配,用以表达检索者的提问概 念。 • 布尔逻辑算符指规定检索词之间相互关系的运 算符号,在检索表达式中起着逻辑组配的作用
检索词
简 单
组 配
检索词
复杂概念的 检索式
构造检索式的要求
• 表达课题要求
• 遵守待检数据库的检索用词规则
• 符合检索系统的功能及限制条件
• 简单明了
扩大检索结果
1. 同义词检索技术:应考虑 • 元素和元素符号,例:“AI‖和“Aluminium‖
• 缩写和全称,例:“计算机辅助设计”和 “CAD‖和“Computer Aided Design‖,同时 在外文数据库中仅用CAD作为主题词,误检率 较大, “弹药动力装置”也可被检出。
– – – 与:空格、AND 或:OR、| 非:-(减号)
⑥ ⑦ ⑧ ⑨
约束条件:+ 同义词:~ 数字范围:.. 括号:()
默认模糊搜索、默认拆分语句和过长的短语
如何精确搜索(短语搜索)
通配符*用法
点号匹配任意字符(也可不用引号)
布尔逻辑
逻辑非
约束条件
数字范围
谷歌高级搜索语法(一)
特点:
• 1.独立的门户网站,查询简洁方便 • 2.特有分类主题一体化查询功能 • 3.互动式“搜索提示”
• 4.专家优选信息价值高
• 5.与电子商务紧密结合 • 6.查询语句简单化
• 7.多元搜索“直通车”
搜狗分类搜索:
搜索引擎的不足
• 信息量过大,准确检索不易,漏检 • 信息的可靠性、权威性、真实性无检验 • 检索查找与系统间的认知和差距,造成检 索不准确 ,普通人员不易于掌握 • 工具书,整理有序,全部呈现在面前,系 统性强。引擎知识零乱,需要找,找一个 得一个,虽然有链接,有扩展,智能化, 但仍不能完全解决,且有更加繁杂感觉
• 布尔逻辑运算符的运算顺序
NOT
AND
OR
优先级高
返回
截词检索技术
截词检索就是用截词符号将检索词截断, 用检索词的片段进行匹配运算。 截词符号有“*” “?”,分别表示无 限截断和有限截断。 注意 截断的词干不能太短,词干一般应在3 个字符以上,以免增加检索时间,产生 误检。
Eg. (1)后截断:com*——come、 computer、computers、 computimy……
图书
• 提供图书全文 • 提供图书馆藏书情况 • 提供书商 • 提供相似图书 • 个人图书馆 • 阅读功能
在图书馆中查找
学术搜索
• 可实现全文搜索,给链接, • 与CNKI、维普、万方等合作 • 可以看全文
Google搜索比较
• 题目:汽车防护装置 • 利用检索运算符号 • 附加语种、博客、时间条件 • 比较检索结果
第三代互动式搜索引擎——搜狗
http://www.sogou.com 搜狗是搜狐公司于2004年8月3日推出的完全自主技术 开发的全球首个第三代互动式中文搜索引擎,是一个具有 独立域名的专业搜索网站——―搜狗” (www.sogou.com)。以一种人工智能的新算法,分析 和理解用户可能的查询意图,给予多个主题的“搜索提 示”,在用户查询和搜索引擎返回结果的人机交互过程中, 引导用户更快速准确定位自己所关注的内容,帮助用户快 速找到相关搜索结果,并可在用户搜索冲浪时,给与用户 未曾意识到的主题提示。
搜索引擎的结构
• 一般由网络蜘蛛、切词器、索引器、查询器几部分组成。 • 网络蜘蛛负责网页信息的抓取工作,传统爬虫从一个或若 干初始网页的URL开始,获得初始网页上的URL,在抓取 网页的过程中,不断从当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件 • 切词器和索引器负责将抓取的网页内容进行切词处理并自 动进行标引,建立索引数据库。 • 查询器根据用户查询条件检索索引数据库并对检索结果进 行排序和集合运算,如并集、交集运算,再提取网页简单 摘要信息反馈给查询用户。
• 手气不错”——即“手气不错?‖ 按钮自动 将您带到Google推荐的网页。您无须查看 其他结果,省时方便。 例如,要查找北京 大学,只需输入: 北京大学再点击“手气 不错”按钮,Google 就直接带您到 www.pku.edu.cn-- 北京大学的正式主页。
• ―相似网页”——点击“相似网页” 连接时, Google侦察兵便开始寻找与这一网页性质 类似的网页,一般都是同一级别的网页
搜索引擎检索技术
布尔逻辑检索技术 布尔逻辑检索是建立最早的检索理论, 也是检索系统中应用最广泛的检索技术。 它通过对布尔逻辑运算符进行组配,形成 检索式,用以表达用户的检索需求,并通 过一定的算法和手段进行检索。
布尔逻辑运算符及其关系
• 布尔逻辑运算符有三种:逻辑与(AND)、逻辑 或(OR)、逻辑非(NOT)
• 分为词条概述和基本信息栏 • 可编辑词条
一个词条
编辑词条
百度文库-课件,习题,考试题库,论文报告,专业资料,
各类公文模板。法律文件,文学小说等多个领域资料
百度知道基于搜索的互动式知识问答分享平台
• 也有百度快照, • 百度百科与百度知道的区别 • 前者学术性强,系统专业。有词条,词典 性质,只能搜索,不能提问,只能搜索。 • 后者互动性强,为社区型互动平台,自由 参与,自由提问自己找答案。
• 用多个搜索引擎验证搜索结果,源于各引 擎搜索的资源不完全相同,算法、排序不 同 • 资源有限、检索功能有限,引擎不能替代 专业数据库 • 仍有70%的资源引擎不能抓取 • 智能化的引擎不能完全替代智能的人
Google检索技术应用
• 1.布尔逻辑在google搜索引擎中的应用 Eg. 机电产品+设计
Google检索技术应用
• 1.布尔逻辑在google搜索引擎中的应用 Eg. (机电产品+设计) –竞赛
Google检索技术应用
Google检索技术应用
• 使用布尔逻辑检索需注意:
操作符须为英文字符,支持“-‖功能, 但减号前必须留一空格,否则视为无效字 符,进而执行默认的逻辑“与”关系。
Google检索技术应用
• 2.site(限定网域检索) 将搜索结果局限在某个具体网站或网站频道。 Eg.搜索edu.cn上所有关于周济的网页
Βιβλιοθήκη Baidu
Google检索技术应用
Google检索技术应用
限定文献类型检索 Eg.文献检索课 filetype:ppt 目前google支持ppt、doc、xls、pdf、ps、 rtf、dwf、kml、kmz、swf等格式的文件
搜索引擎的原理
• 可以看做二个三步: • 从互联网上抓取网页信息→建立索引数据 库、文档数据库→在索引数据库中搜索排 序 • 输入检索词、系统索引数据库中找到符合 条件的所有相关网页 、链接地址和页面内 容摘要等内容组织起来返回给用户
搜索引擎类型
• 全文搜索引擎 :Google、Yahoo! Search、Bing、百度 • 目录索引 :不是严格意义上的搜索引擎, 如行业目录网站、Yahoo Directory • 元搜索引擎 :在接受查询请求时,同时在 其他多个引擎上进行搜索,并将结果返回。 如 InfoSpace
py=200*
(2)前截断:*computer—— minicomputer、microcomputer…… (3)中截断:f??t——foot、feet
表单式检索
• 在检索系统中,高级检索界面都提供。
用检索式检索
浏览检索技术:参考文献链接
该链接点不仅可以显示该检 索结果文献所使用的参考文 献数量,单击它还可显示这 些参考文献的具体列表;
• 百度——Baidu
http://www.Baidu.co m
百度的高级检索
百度MP3检索界面
百度的更多功能
百度的行业报告
百度的行业报告
百度的特殊功能
百度百科
• 内容开放、自由的网络百科全书 • 涵盖各领域知识的中文信息收集平台 • 百度搜索、百度知道结合,从不同的层 次上满足用户对信息的需求 • 内容包括具体事物、知名人物、抽象概 念、文学著作、热点事件、汉语字词或 特定主题的组合
• 相关词,例:“Database‖,其相关词有 “Expert System‖、“software‖等。 2.截断技术 3.布尔逻辑“或”(OR)
缩小检索结果
1.布尔逻辑“与”(AND)
例如,检索计算机在图书馆中的应用的文 献,可表示为:计算机 and图书馆。 2.布尔逻辑“非”(NOT)
例如,检索除“水上运输工具”以外的其 他运输工具,可表示为:运输工具 not 水上运输。
Google检索技术应用
Google检索技术应用
Google检索技术应用
4.Define:查找词汇、缩写等 Eg. Define:J2EE
• What is xxx
Google的其他服务项目
有用功能
• 网页快照 • 当搜索内容站点或网页不存在时,用户可以调 用 Google事先为用户储存的大量应急网页,经 Google处理后,搜索项均用不同颜色标明,另外 还有标题信息说明其存档时间日期,并提醒用户 这只是存档资料。实际上Google将检索的网页都 做了一番“快照”然后放在自己的服务器上,这 样做的好处是不仅下载速度极快,而且可以获得 互联网上已经删除的网页。
3.组配
常用的搜索引擎
我们一起看
Google http://www.google.com.hk
• 30万亿页 132种语言 • Google深度爬虫一天更新一次 • 是目前世界上使用最多的 • 代表性搜索引擎,引领搜索技术发展 • 扩大服务领域 • 深度、广度、高度
谷歌一般搜索技术(一)
① ② ③ ④ ⑤ 默认模糊搜索、默认拆分语句和过长的短语 如何精确搜索(短语搜索) 通配符*用法 点号匹配任意字符:. 布尔逻辑