文献检索--第二讲(新)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
雅虎(Yahoo)、搜狗(Sogou)
英文:Yahoo、Alta Vista、Excite、Lycos 另有专门的搜索引擎。
常用的一些搜索引擎 (1)谷歌:http://www.google.cn 1997年,(简体中文)提供有类目检索和网站 检索两种方式。支持AND和“-”等条件查询。 以搜索精度高、速度快成为最受欢迎的搜索引索, 是目前搜索的领军人物。 • 检索方法与技巧:模块分类、关键词检索;支持布尔
1995年开始,搜索引擎(search engine)以一定的策略从网络收 集、发现信息,对信息进行理解、提取、组织和处理,并为用 户提供检索服务,从而起到信息导航的目的。
搜索引擎的工作原理 信息的收集处理 信息的检索输出 搜索引擎的分类(索引方式) 目录式搜索引擎:以人工或半自动方式收集信息, 按某种分类法进行加工整理,如:yahoo!、Galaxy、 Open Directory……Sohu(搜狐)、Sina … 机器人搜索引擎:由Spider、Robot的机器人程序 自动收集网页建库。如:Google 、AltaVista… 百度、天网…….
iii. (F)算符 - Field 同时出现在文献记录的同一字段中,如标题词字 段、文摘字段等,顺序不限,夹在其中的词量 也不限。 例: environment (F) protection iv. (S)算符 同自然段邻接 例: environment (S) protection 同句邻接词序可以颠倒,两词必须出现在同一 句子(子字段,即同一个短语、句子、段落中) 中。
前方截词 截词符在词的左边, 如:?magnetic 中间截词 截词符在词的中间,例如:organi?ation, 可以检索organisation organization 如: colo?r ,可检索到包含 color、colour、 colonizer、 colorimeter的记录。 一 个”?“ 和数字,其中的数字代表可替换的 字符数。 例:colo?1r, 只能检索到包含 colour的记录 。
3.查找友情链接: link: 安徽新华学院
用于搜索链接到某个URL地址的网页。可以了解有哪些 接指向您的网页。 网页把链
4.查找特定站点内容
语法:site:tsinghua.edu.cn (1) 如 古龙 site:sina.com.cn
(但不可加入http://或/这类,否则是错的。)
(2)可与filetype语法同时使用: 金庸 filetype:doc site:sina.com.cn (见网页)
百度的更新较快,半月一次,最快一周。
查找以下内容 (选择关键词): 1.中国的人口普查有悠久的历史,最早的中 国人口普查数字大约是多少?
[说明]:这是一条智力抢答题。不认真查找, 很多同学会说是:四亿五千万。本任务查 找的关键词应包含“中国 人口普查 最 早”。 • 查找的权威网站是:中国人口信息网 (http://www.cpirc.org.cn/know1.htm)
第二讲 网络搜索方法与技巧
一.电子信息检索的技术与技巧
二.中英文搜索引擎的使用方法及应用
一.电子信息检索的技术与技巧
1.电子信息检索的技术 (1) 布尔逻辑检索(boolean logic) 是当今检索理论中最成熟的理论之一,也是构 造检索表达式最基本、最简单的匹配模式。 布尔逻辑检索: 即运用布尔逻辑算符对检索词进行 逻辑组配,表达两个概念之间的逻辑关系。
(nW) 表示在此算符两侧的检索词必须按输入时 的前后顺序排列,不能颠倒。但允许在连接的两 个词之间最多插入n个单元词。 例: laser (1W) printer 结果中“ laser color printer”的文献为命中记录。 ii. (N)算符 N算符是Near的缩写,表示此算符两侧的检索词 必须紧密相连,所连接的词之间不允许插入任何 其他单词或字母。但词序可以颠倒。 例: intelligent (N) robot* ( Ei CPX Web) (nN)表示在两个检索词之间最多可插入n个单 词,且两词的词序任意。 例: intelligent (1N) robot
逻辑检索(自动添加AND),不支持“OR”等符号的使用; 忽略常见词
• 检索特色:网页快照、手气不错;
相似网页、查询电话号码、查找PDF文件、股票报价、查 找字典释意、用Google查找地图、工具条服务、网页翻译、 单词纠错、繁简转换
英文网 站Hale Waihona Puke Baidu
(2)百度:http://www.baidu.com
(3)位置检索(positional operator) — 位置运算符
为了提高检索的广度和准确度,常常需要对检索词之间的位置关 系加以限定。 以著名的Dialog系统常用的位置算符为例:
i. (W) 算符 { (W)或()} W 算符是With的缩写,表示在此算符两侧的检索词必 须按输入时的前后顺序排列,不能颠倒。所连接的词之 间除可以有一个空格、标点或连接号外不得夹有任何其 他单词或字母。 例:information(W)service 或 information( )service 表示检索结果为 information service 或informationservice 才算命中的记录。
1.找特定文件名的文件,尤其是PDF、 PPT 、DOC、TXT、 RAR、EXE、RM、Mp3、MOV、 swf、 ZIP 这些文件名 都是大家想找的重点。 方法一:基本搜索语法—— 如 文献检索 filetype:PPT 方法二:高级搜索功能
2.intitle: 表示后接的词限制在网页标题内。 如: intitle:教育学 filetype:PPT
逻辑运算符有三种: 逻辑“与” :常用“*”或“AND”表示,检 索时,命中信息同时含有两个概念,专指性强。 可以缩小检索范围,提高查准率。
如:要检索“计算机网络”方面的有关信息 “computer AND network”
逻辑“或”:常用“+”、“OR” 表示,检索时,命
中信息包含所有关于逻辑A或逻辑B或同时有A和B的, 可以扩大检索范围,避免漏检,提高查全率。 用来检索同义词、近义词、俗称词、复合词等
如:查找“城市”一词的资料 可用检索式 “city OR urban” 如:山芋、红薯;乙醇、酒精;欧洲经济共同体、欧共体;国 际标准化组织、ISO;
逻辑“非”:常用“-” 或“NOT”表示,命中信息包含逻
辑A、不包含逻辑B,排除了不需要的检索词,可以排除不必要 的信息,提高查准率。 如:检索“不包括核能的能源”方面的信息 ENERGY — NUCLEAR ENERGY 表示从“ENERGY”检索的记录中排除含有“NUCLEAR ENERGY”的记录。
优先级运算 ()>NOT>AND>OR
A+B- C
(2)截词检索 (truncation) — 截词符
截词检索在西文数据库中广泛使用。是在词干后可 能变化的位置加上截词符号。这样既可减少检索词 的输入量,又可扩大查找范围,提高查全率。检索词 的单复数形式,同一词英、美不同拼法,词根相同 的词都可用截词检索。 后方截词
google其它功能
1.查英文单词的中文名称 google是最全的英中词典,你找到一个英文词,却不知中 文怎么办? • 用google,写出英文词,然后大概了解一下这个词属于哪 一个学科,再用加用一个中文关键词搜索一下,效果很好。 • 如:urotensin不知道中文意思,但知道它是收缩血管的药 物,这时用urotensin 血管 收缩查一下,可能会出现一些 文章或综述内,其中便附有这个词的中文了
2.搜索 “再别康桥”的英语译稿
[说明]:徐志摩的词中学生非常喜欢。“再别 康桥”是高二语文课本中的内容。有关徐 志摩的网站更多。 • 关键词要用“再别康桥”+英文单词 (Cambridge)。 • 这是查找英文译稿或其它文字翻译的重要 方法。 小结:两个以上的关键词,缩小搜索范围
百度和google语法的应用
从URL上可以得到一些网站网址的规律:
比如:凡带“ ~ ”符号的大都是个人主页。从域名的 后缀上也可以得到一些大概的线索: • .edu 是教育类网站,既可能是严肃的学术研究, 也可能是学生随意制作的主页。 • .gov 或 .gov.cn 是政府网站,一般比较权威、可 靠,不会随意发布不准确的信息。 • .com 或 .com.cn 是商业网站,最常见。在介绍自 己的产品时往往会夸大其辞,所以要注意“批判” 性地接受。 • .net 网络服务公司,为商业或个人用户提供服务。 • .org 一般是非赢利性组织,其观点可能带有倾向性。
如查找美国教育网上的宇宙大爆炸jpg图片 搜索:BIG BANG filetype:jpg site:edu • Site可将搜索定位于某一个域名上,有利于缩小搜索范围,提 高搜索效率 。 如 keywords site:edu.cn,效果很好!可以方 便地搜索到各大学内有用的资源。 如:房屋建筑学 filetype:ppt site:edu.cn (见网页) 土木工程 filetype:doc site:tongji.edu.cn
后截断是在检索词词干后面加截词符,表示不限制或限制词 尾可变化的字符数,即查找词干相同的所有词。
如:Absorb? 作为检索式,可以检索出含有 Absorb,Absorbent,Absorbing,Absorbtion,Absorbtivit y等同词根的文献记录。 ? ? 最多一个字母 ??最多两个字母 ???
(4) 限制检索 a. 字段限制
可针对年代、特定类别等做限制。 分为两种类型: 基本索引字段限制检索:包括 题名、关键词、主题词、 文摘、分类号、全文等 辅助索引字段检索:如作者、期刊名、出版年、语种、文 献类型等。
b. 二次检索 在检索结果中再检索。 2.电子信息检索的技巧
二.中英文搜索引擎的使用方法及应用
中国提供搜索引擎的主要网站中,超过80%由百 度提供。1999年底,百度成立于美国硅谷,2000年 百度在中国发展起来。是国内唯一商业化的全文搜 索引擎,提供搜狐、新浪、263、TOM等站点的搜索 服务。
检索方法与技巧:模块分类、关键词检索;要求
“一字不差”,支持布尔逻辑检索(可以用空格代 替 AND/+);可以使用检索语法。
5.特殊语法:
INURL语法和基本搜索语法的最大区别在于,前者通常能 提供非常精确的专题资料。
Inurl:关键词1+空格+关键词2 示例:查找MIDI曲“沧海一声笑”。 搜索:“inurl:midi 沧海一声笑” 结果:已搜索有关inurl:midi 沧海一声笑的中文(简体) 网页。 注意:“inurl:”后面不能有空格。
2.查缩略词的全称
• 利用google查缩略词的全称,如果写作时突然忘了某个缩 略词的全称。当时手头若有金山词霸等软件则是易事,若 无则可考虑使用google,将其中文名与其缩略名作为关键 词搜索,效果很好。
* 如:WTO
搜索引擎的查询技巧 分析研究对象,选用搜索引擎 确定搜索途径,使用不同方式 正确选用搜索引擎的搜索选项 正确选用搜索引擎的各项搜索功能 如何提高查全率? • 选择上位词和相关词;如:查找关于孙中山的文献,先用孙中 山查再用孙文、国父查找。 • 调节检索式的网罗度,删除不必要的组面,如and(并且); • 进行族性检索(分类检索或用or连接相关检索词); • 截词检索;com*代替computer • 增加检索途径。 如何提高查准率?提高专指度(用下位词或专指性强的自由词) • 用逻辑乘“*”(and) 或 not 相关检索项;如查找克林顿,但 不要关于莱温斯基的信息。检索式:克林顿 not 莱温斯基 • 用文献外部特征限制输出结果(在中文图书中查找); • 用“二次检索”、“条件检索”排除误检; • 限制检索字段,指定邻接和优先关系。
按照检索内容,搜索引擎分为: (1)综合性搜索引擎 如Yahoo,Excite ,Alta Vista等 (2)专题型搜索引擎 如搜索电话号码的555-1212,Switchboard, 查询地图的MapBlast等 常见的搜索引擎: 中文:谷歌(Google)、百度(Baidu)、北大天网、爱问、
偏好;
检索特色:百度快照、自动纠错、百度搜霸;使用
百度与google比较 :
• 搜索英文不必说用google,搜索中文呢? • google发展早,因而它贮存了大量旧的信息,百度发 展迟,信息较新。 更新速度:对中文google一般半月至一月一更新。 http://www3.google.com/——看到最新的google搜索 结果。 可见google采用不同服务器逐步更新的。
相关文档
最新文档