信息检索技术讲授版
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类检索的要点:1。对待检课题的概念及学科间的 各种关系清楚;2。正确掌握相关课题的分类名称、 分类号,手工检索中掌握工具的分类排检。
分类检索的步骤:
1。分析待检课题,确定其学科,并厘清学科间的各种关系。 2。查出待检课题的分类号(工具简单时可以省略) 3。选择适当的检索工具 4。进入检索系统后选择分类号途径,并在对话框内输入分类号,开始
3.常规法
所谓常规法就是利用常规检索工具查找有关文献的方法,是信 息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手 段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工具 层出不穷,有很大的挑选余地。用户应根据自己的检索知识和条件 选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。
3.间隔符号. 置于字母段后自左至右没三位数字后。 4.推荐符号a 置于马克思、恩格斯、列宁、斯大林、毛泽东、邓小平
六位经典作家著作的互见分类好之后。
14/18
《中图法》标记制度
5.总论复分符号- 国家、地区区分号() 时代区分号= 名族、种 族区分号“ ” 通用时间、地点区分号< > 起止符号/
例4:“F813/817”各国财政,表明日本财政为 F813.13 ,英国 财政为 F815.61,美国财政为 F817.12。
16/18
图书馆图书标识:索书号
图书馆同一分类号的文献数量很多,为了区别相同类号的文献,在 分类号的基础上,又给了一个区分符号,这个符号称之为书次号。书 次号与分类号一起共同构成索书号。浙江传媒学院图书馆的文献就是 按照索书号的顺序排架管理的,书次号使用的是著者号,同样以字母+ 数字标明。。 中文书索书号如:
另一种较为普遍的查法是由近及远地追溯,这样由一变十, 由十变百地获取更多相关文献,直到满足要求为止。这种方法适 合于历史研究或对背景资料的查询, 其缺点是越查材料越旧,追 溯得到的文献与现在的研究专题越来越疏远。因此,最好是选择 综述、评论和质量较高的专著作为起点,它们所附的参考文献筛 选严格,有时还附有评论。
分类号、 报告号、登记号、专利号、ISBN、ISSN 记录号等 5、来源 6、其他特殊途径
(1)检索字段 数据库可供检索字段有二种,一种是反映内容的主题字段,如:题名、叙词、 标识 词和文摘等。字段检索时,使用后缀符如: 如: /TI 表示Title(篇名)
/AB 表示Abstract(文摘) /DE 表示Descriptor(叙词,规范词) 例如:electron/ti 表示electron 一词须出现在篇名字段; electron/ti,ab 表示electron 一词须出现在篇名或文摘字段。
大类(一级类目)
二级类目
三级类目
四级类目
五级类目
…
中图法8种复分表
4/18
《中图法》五大部类
马克思主义、列宁主义、毛泽东思想
哲学 宗教
社会科学 自然科学
综合性图书
5/18
《中图法》结构
1)类目结构
F 经济
一 级 类 目
6/18
F、经济类
二 级 类 目
F0 经济学 F1 世界各国经济概况、经济史、经济地理 F2 经济计划与管理 F3 农业经济 F4 工业经济 F5 交通运输经济 F6 邮电经济 F7 贸易经济 F8 财政、金融
7/18
F2ቤተ መጻሕፍቲ ባይዱ经济计划与管理
三 级 类 目
F20 国民经济管理 F21 计划经济
F22 经济计算、经济数学方法
F23 会计 F24 劳动经济 F25 物质经济 F27 企业经济 F28 基本建设经济 F29 城市与市政经济
8/18
F25 物质经济
四 级 类 目
F250 物质经济理论 F251 物质管理 F252 物质流通 F253 物质企业经营与管理 F259 世界各国物质经济
检索。 5。对比题目,阅览相关信息,选出所需信息,并下载相关信息 6。原文的索取
《中图法》结构
1)类目结构
类号—F204 科学技术管理——类名
国家科技管理入 此; 项目评价理 论方法入F224.5.
参见G311。
类级(用空格、并行和字体表示)
注释和 参照
3/18
《中图法》结构
1)类目结构
《中图法》共五大部类,二十二个大类,53,811个类目(包括专用 和通用类目)。 部类
例 2:《法国的邮电事业》的类号为“F635.65” ,“F63” 代表 世界各国 邮电事业,“565”为世界地区复分号,是法国的代号。 如主表类目没有注明依世界地区表复分时,则在世界地区复分号 上加国家区分号“()”以示区别
例3:《上海市现代摄影作品集》是“J426.51”,“J426”代表现 代摄影作品集,“51”为中国地区复分号,指上海市。
将字段代码放在检索词之前,用=号连接。
如:AN=EIP98124488325 (AN:Abstract Number)文摘号
AU=LIU,LITIAN
(AU:Author)作者
BN=0-8155-0963-4 (BN:ISBN)国际标准书号
CD=19880520
(CD:Conference Date)会议召开日期
(二)检索途径(检索入口)
所谓检索途径就是检索时切入信息群体的路径。检索途径有两大 类,一类是用信息的外部特征,如题名、责任者、某种序号、机 构名等作为检索标识;另一类是用能够描述信息内容的分类号、 关键词、主题词等作为检索标识。在数据库中检索时,几乎所有 的字段都可以作为检索的途径。
分类检索
这种检索是根据信息内容的学科分类来进行的。最 大的优点能保证信息的系统性,而且具有较好的族性 检索功能。
G254.97/Q097=2
17/18
案例
课题:工农业废水的循环利用的研究
分类号分析:
该课题的学科分类主要属于环境科学类,跨工业农业学科;根据《中 国图书馆分类法》,涉及“废水再利用”及其分类号“X70”;"工 业"分类号T;"农业"分类号为S;进一步查找《中图法》得出分类号: X703
学校图书馆内检索
AU=Salton? AND PY=199? 表示查找Salton所写的,并且是1990年后发表的所有
文献。
(2)限制符 在一些检索系统中,提供一类表示文献类型、文种、出版时间
等的限制符号,放在检索式的右边,起到约束检索结果的效果。 限制符的使用和字段检索一样,也要遵循所选检索系统和数据
库的规定。 如在DIALOG系统中: /ENG ---要求在英语出版物中检索 /NONENG---要求在非英语出版物中检索 /1998:2000----要求在1998--2000年的出版物中检索 Chess/PAT---表示检索结果只要chess这一主题的专利文献。
6.组配符号:置于相组配的类号之间,表示主类号之间的概念交叉 组配。
7.联合符号+ 当文献具有多个并列关系的主题时,需相应赋予多个 分类号以表达并列主题。
辅助符号的排列次序: - () “ ” = < > < > : +
15/18
检索实习题举例:
例1:《哲学辞典》类号为 “B-61”, “-61”是总论复分号,表示辞典。
这里需要说明的是,在Windows 环境下,尤其是在中文数据库及网 站中,逻辑检索可以用算符将检索要求编成综合表达式向计算机一 次输入检索提问,也可以用窗口上的逻辑指令按钮(与、或、非) 进行分步组配提问和检索。
案例
布尔逻辑算符
布尔逻辑算符是规定检索词之间逻辑关系的算符,利用布 尔逻辑算符进行检索词或代码的逻辑组配,是计算机信息检索 系统中最常用的一种检索方法,也称布尔检索。 布尔逻辑算符通常包括以下三种: (1)逻辑“或”:(OR) 或“+”表示 (2)逻辑“与”:(AND) 或“*”表示 (3)逻辑“非”:(NOT) 或 “-”表示
基本检索技术
search skill
1.检索算符 2.检索策略 3.检索评价
检索算符
1、布尔检索 AND(默认、空格、+、all of these words) OR(必须大写,关键词1、关键词2,|,/,any of these words) NOT(-, none of these words) NEAR
信息检索技术
郭伟玲
检索方法
search method
检索方法及检索途径
(一)检索方法
查找(Searching)就是实施检索策略、搜寻所得文献信息的过程。以下几种 方法,无论是计算机还是手工检索,都是常用的方法。
1.“拉网法”
在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web 页面 开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。然后用“书签” 保存这个页面的URL,转向另一个分支。这种方法可以迅速获得较多的相关地 址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应 时间快的引擎。
词汇检索的步骤:
a、 分析课题,确定检索词及词间关系 b、选择适当的检索工具 c、选择词汇检索途径,在对话框内输入检索词 (注意词间关系的表 达) d、 根据快捷显示,选出有用信息并下载。 e、 原文的索取
其他检索途径
1、题名检索 包括书名、刊名、篇名和其他信息的标题等
2、作者 3、机构 4、号码
9/18
《中图法》标记制度
1. 采用字母、数字混合制的标记符号与层累小数制的标记制度。其 中,字母用来表示大类,其他各级类目则用数字表示。“T工业技 术“大类范围广泛,内容繁多,故又在该类基础上采用双位拉丁 字母标记所属的16个二级类目。
2.对于超过10个同位类时,采用八分制(1…8 91 92)或双位制(11 12…99)。
(1)逻辑“与”(AND或*)
逻辑“与” (AND) 是用来组配具有相互交叉限定关系的 检索概念。逻辑“与”有时也用“*”代替,其含义是检出的 记录中同时含有“AND”前后两个检索词。如:查找有关“ 纳米”和“材料”方面的文献时,其检索式为: ●Nano AND Materials ●Nano * Materials
下面以“计算机”和“文献检索” 两个词来解释三种逻辑算符的含义。
①计算机”AND“文献检索”,表示查找文献内容中既含有“计算机” 又含有“文献检索”词的文献。
②计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含 有“文献检索”以及两词都包含的文献。
③计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而 不含有“文献检索”的那部分文献。
后缀代码(suffix code),对应基本索引(basic index),反映文献的主题内容,将字
段代码放在检索词之后,并用“/”号连接。
另一种则是反映形式特征的检索字段,如:作者、文献类型、语种、出版时间等。
前缀代码(prefix code),往往是用于表达文献外部特征的字段,即一些辅助性检索字段,
根据分类号检索的几种结果 1 分类号为X703/M14
2 分类号为X703/A42
3 分类号为X703/L4
词汇检索
与分类号检索相比,词汇检索具有直观、灵活、专指性和适应 性好的特点,同时检索速度也比分类检索快。
词汇检索的要点:首先是要选好检索词,正确理解词间关系, 检索中还要注意词间关系的正确表达。常用的词汇检索有关键词 检索和主题检索。计算机检索时,选择任意字段检索时,检索项 也可以是各种词汇。
2.引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的某种内在 联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、 相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指 明了与用户需求最密切的文献线索,往往包含了相似的观点、思路、 方法,具有启发意义。
引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有 价值的论文后进一步查找该论文被哪些其它文献引用过,以便了 解后人对该论文的评论、是否有人对此作过进一步研究、实践结 果如何、最新的进展怎样等等。由远及近地追寻,越查资料越新, 研究也就越深入,但这种查法主要依靠专门的引文索引,如 《科 学引文索引》、《社会科学引文索引》 。
4.排除、限定和合取法
这实际上是将信息加工的方法融入检索中去。思维中使用排除这一 概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在 否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检 索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间 上加以内在的肯定。排除的结果必然是限定,反之亦然。
分类检索的步骤:
1。分析待检课题,确定其学科,并厘清学科间的各种关系。 2。查出待检课题的分类号(工具简单时可以省略) 3。选择适当的检索工具 4。进入检索系统后选择分类号途径,并在对话框内输入分类号,开始
3.常规法
所谓常规法就是利用常规检索工具查找有关文献的方法,是信 息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手 段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工具 层出不穷,有很大的挑选余地。用户应根据自己的检索知识和条件 选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。
3.间隔符号. 置于字母段后自左至右没三位数字后。 4.推荐符号a 置于马克思、恩格斯、列宁、斯大林、毛泽东、邓小平
六位经典作家著作的互见分类好之后。
14/18
《中图法》标记制度
5.总论复分符号- 国家、地区区分号() 时代区分号= 名族、种 族区分号“ ” 通用时间、地点区分号< > 起止符号/
例4:“F813/817”各国财政,表明日本财政为 F813.13 ,英国 财政为 F815.61,美国财政为 F817.12。
16/18
图书馆图书标识:索书号
图书馆同一分类号的文献数量很多,为了区别相同类号的文献,在 分类号的基础上,又给了一个区分符号,这个符号称之为书次号。书 次号与分类号一起共同构成索书号。浙江传媒学院图书馆的文献就是 按照索书号的顺序排架管理的,书次号使用的是著者号,同样以字母+ 数字标明。。 中文书索书号如:
另一种较为普遍的查法是由近及远地追溯,这样由一变十, 由十变百地获取更多相关文献,直到满足要求为止。这种方法适 合于历史研究或对背景资料的查询, 其缺点是越查材料越旧,追 溯得到的文献与现在的研究专题越来越疏远。因此,最好是选择 综述、评论和质量较高的专著作为起点,它们所附的参考文献筛 选严格,有时还附有评论。
分类号、 报告号、登记号、专利号、ISBN、ISSN 记录号等 5、来源 6、其他特殊途径
(1)检索字段 数据库可供检索字段有二种,一种是反映内容的主题字段,如:题名、叙词、 标识 词和文摘等。字段检索时,使用后缀符如: 如: /TI 表示Title(篇名)
/AB 表示Abstract(文摘) /DE 表示Descriptor(叙词,规范词) 例如:electron/ti 表示electron 一词须出现在篇名字段; electron/ti,ab 表示electron 一词须出现在篇名或文摘字段。
大类(一级类目)
二级类目
三级类目
四级类目
五级类目
…
中图法8种复分表
4/18
《中图法》五大部类
马克思主义、列宁主义、毛泽东思想
哲学 宗教
社会科学 自然科学
综合性图书
5/18
《中图法》结构
1)类目结构
F 经济
一 级 类 目
6/18
F、经济类
二 级 类 目
F0 经济学 F1 世界各国经济概况、经济史、经济地理 F2 经济计划与管理 F3 农业经济 F4 工业经济 F5 交通运输经济 F6 邮电经济 F7 贸易经济 F8 财政、金融
7/18
F2ቤተ መጻሕፍቲ ባይዱ经济计划与管理
三 级 类 目
F20 国民经济管理 F21 计划经济
F22 经济计算、经济数学方法
F23 会计 F24 劳动经济 F25 物质经济 F27 企业经济 F28 基本建设经济 F29 城市与市政经济
8/18
F25 物质经济
四 级 类 目
F250 物质经济理论 F251 物质管理 F252 物质流通 F253 物质企业经营与管理 F259 世界各国物质经济
检索。 5。对比题目,阅览相关信息,选出所需信息,并下载相关信息 6。原文的索取
《中图法》结构
1)类目结构
类号—F204 科学技术管理——类名
国家科技管理入 此; 项目评价理 论方法入F224.5.
参见G311。
类级(用空格、并行和字体表示)
注释和 参照
3/18
《中图法》结构
1)类目结构
《中图法》共五大部类,二十二个大类,53,811个类目(包括专用 和通用类目)。 部类
例 2:《法国的邮电事业》的类号为“F635.65” ,“F63” 代表 世界各国 邮电事业,“565”为世界地区复分号,是法国的代号。 如主表类目没有注明依世界地区表复分时,则在世界地区复分号 上加国家区分号“()”以示区别
例3:《上海市现代摄影作品集》是“J426.51”,“J426”代表现 代摄影作品集,“51”为中国地区复分号,指上海市。
将字段代码放在检索词之前,用=号连接。
如:AN=EIP98124488325 (AN:Abstract Number)文摘号
AU=LIU,LITIAN
(AU:Author)作者
BN=0-8155-0963-4 (BN:ISBN)国际标准书号
CD=19880520
(CD:Conference Date)会议召开日期
(二)检索途径(检索入口)
所谓检索途径就是检索时切入信息群体的路径。检索途径有两大 类,一类是用信息的外部特征,如题名、责任者、某种序号、机 构名等作为检索标识;另一类是用能够描述信息内容的分类号、 关键词、主题词等作为检索标识。在数据库中检索时,几乎所有 的字段都可以作为检索的途径。
分类检索
这种检索是根据信息内容的学科分类来进行的。最 大的优点能保证信息的系统性,而且具有较好的族性 检索功能。
G254.97/Q097=2
17/18
案例
课题:工农业废水的循环利用的研究
分类号分析:
该课题的学科分类主要属于环境科学类,跨工业农业学科;根据《中 国图书馆分类法》,涉及“废水再利用”及其分类号“X70”;"工 业"分类号T;"农业"分类号为S;进一步查找《中图法》得出分类号: X703
学校图书馆内检索
AU=Salton? AND PY=199? 表示查找Salton所写的,并且是1990年后发表的所有
文献。
(2)限制符 在一些检索系统中,提供一类表示文献类型、文种、出版时间
等的限制符号,放在检索式的右边,起到约束检索结果的效果。 限制符的使用和字段检索一样,也要遵循所选检索系统和数据
库的规定。 如在DIALOG系统中: /ENG ---要求在英语出版物中检索 /NONENG---要求在非英语出版物中检索 /1998:2000----要求在1998--2000年的出版物中检索 Chess/PAT---表示检索结果只要chess这一主题的专利文献。
6.组配符号:置于相组配的类号之间,表示主类号之间的概念交叉 组配。
7.联合符号+ 当文献具有多个并列关系的主题时,需相应赋予多个 分类号以表达并列主题。
辅助符号的排列次序: - () “ ” = < > < > : +
15/18
检索实习题举例:
例1:《哲学辞典》类号为 “B-61”, “-61”是总论复分号,表示辞典。
这里需要说明的是,在Windows 环境下,尤其是在中文数据库及网 站中,逻辑检索可以用算符将检索要求编成综合表达式向计算机一 次输入检索提问,也可以用窗口上的逻辑指令按钮(与、或、非) 进行分步组配提问和检索。
案例
布尔逻辑算符
布尔逻辑算符是规定检索词之间逻辑关系的算符,利用布 尔逻辑算符进行检索词或代码的逻辑组配,是计算机信息检索 系统中最常用的一种检索方法,也称布尔检索。 布尔逻辑算符通常包括以下三种: (1)逻辑“或”:(OR) 或“+”表示 (2)逻辑“与”:(AND) 或“*”表示 (3)逻辑“非”:(NOT) 或 “-”表示
基本检索技术
search skill
1.检索算符 2.检索策略 3.检索评价
检索算符
1、布尔检索 AND(默认、空格、+、all of these words) OR(必须大写,关键词1、关键词2,|,/,any of these words) NOT(-, none of these words) NEAR
信息检索技术
郭伟玲
检索方法
search method
检索方法及检索途径
(一)检索方法
查找(Searching)就是实施检索策略、搜寻所得文献信息的过程。以下几种 方法,无论是计算机还是手工检索,都是常用的方法。
1.“拉网法”
在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web 页面 开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。然后用“书签” 保存这个页面的URL,转向另一个分支。这种方法可以迅速获得较多的相关地 址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应 时间快的引擎。
词汇检索的步骤:
a、 分析课题,确定检索词及词间关系 b、选择适当的检索工具 c、选择词汇检索途径,在对话框内输入检索词 (注意词间关系的表 达) d、 根据快捷显示,选出有用信息并下载。 e、 原文的索取
其他检索途径
1、题名检索 包括书名、刊名、篇名和其他信息的标题等
2、作者 3、机构 4、号码
9/18
《中图法》标记制度
1. 采用字母、数字混合制的标记符号与层累小数制的标记制度。其 中,字母用来表示大类,其他各级类目则用数字表示。“T工业技 术“大类范围广泛,内容繁多,故又在该类基础上采用双位拉丁 字母标记所属的16个二级类目。
2.对于超过10个同位类时,采用八分制(1…8 91 92)或双位制(11 12…99)。
(1)逻辑“与”(AND或*)
逻辑“与” (AND) 是用来组配具有相互交叉限定关系的 检索概念。逻辑“与”有时也用“*”代替,其含义是检出的 记录中同时含有“AND”前后两个检索词。如:查找有关“ 纳米”和“材料”方面的文献时,其检索式为: ●Nano AND Materials ●Nano * Materials
下面以“计算机”和“文献检索” 两个词来解释三种逻辑算符的含义。
①计算机”AND“文献检索”,表示查找文献内容中既含有“计算机” 又含有“文献检索”词的文献。
②计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含 有“文献检索”以及两词都包含的文献。
③计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而 不含有“文献检索”的那部分文献。
后缀代码(suffix code),对应基本索引(basic index),反映文献的主题内容,将字
段代码放在检索词之后,并用“/”号连接。
另一种则是反映形式特征的检索字段,如:作者、文献类型、语种、出版时间等。
前缀代码(prefix code),往往是用于表达文献外部特征的字段,即一些辅助性检索字段,
根据分类号检索的几种结果 1 分类号为X703/M14
2 分类号为X703/A42
3 分类号为X703/L4
词汇检索
与分类号检索相比,词汇检索具有直观、灵活、专指性和适应 性好的特点,同时检索速度也比分类检索快。
词汇检索的要点:首先是要选好检索词,正确理解词间关系, 检索中还要注意词间关系的正确表达。常用的词汇检索有关键词 检索和主题检索。计算机检索时,选择任意字段检索时,检索项 也可以是各种词汇。
2.引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的某种内在 联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、 相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指 明了与用户需求最密切的文献线索,往往包含了相似的观点、思路、 方法,具有启发意义。
引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有 价值的论文后进一步查找该论文被哪些其它文献引用过,以便了 解后人对该论文的评论、是否有人对此作过进一步研究、实践结 果如何、最新的进展怎样等等。由远及近地追寻,越查资料越新, 研究也就越深入,但这种查法主要依靠专门的引文索引,如 《科 学引文索引》、《社会科学引文索引》 。
4.排除、限定和合取法
这实际上是将信息加工的方法融入检索中去。思维中使用排除这一 概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在 否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检 索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间 上加以内在的肯定。排除的结果必然是限定,反之亦然。