计算机信息检索基础知识.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(5)执行检索指令: 对数据库进行查找, 并输出检索结果。 (6)分析检索结果,完善检索表达式: • 重新确定检索词; • 选用“上位词”或 “下位词”: • 选用其他相关检索词; • 更换检索途径等, 然后再执行检索,直到获得满意的检索结 果为止。
(7)如果检索结果是没有全文的二次文献,而且本 院图书馆也没有收藏原文,还要根据文献线索用 一定方法获得一次文献,也就是”全文”,其方法 有: • 检索全文数据库 • 检索联合目录或专门进行原文提供服务的机构 (如:国家科技图书文献中心 www.nstl.gov.cn) 的目录,找到收藏原文的地点(其他图书馆等) 联系得到全文 • 检索其他图书馆目录,确认收藏后联系获得。
认真分析课题,明确课题含义:


明确课题含义 例如:“计算机声音身份识别 技术”是指利用说话者的声音的声纹、频率等特 征确定其身份,该技术用于案件侦破等,不是根 据记录的声音由电脑识别理解其含义;“电子垃 圾的处理回收”指的是废弃电脑、手机的处理, 不是“垃圾电子邮件的处理”。 明确自己的情报需求和检索目的 即明确自己研 究的课题是攻关型的还是探索型的,对信息查找 的指标要求是查准、查全还是查新。同时还要弄 清所需文献信息的类型、文种、时间范围等。

布尔逻辑运算 “与”
A B
A∩B
A*B A and B
交集 A∩B 与
and * 属于集合A且属 于集合B的元素组 成的集合。
举例
查找“计算机控制啤酒生产过程”课题的 相关信息。 检索的文献记录中必须同时含有A(计算 机)、B(控制)、C(啤酒)才算命中, 其检索式为:A*B*C 或: A AND B AND C

计算机检索特点

(2)检索途径多: 因为计算机检索系统 对数据库记录的许多字段都做了索引,有 的系统甚至对每个字段都做了索引,所以 这些字段均可作为检索入口。
计算机检索特点

(3)使用方便 : 因为计算机检索采用灵活 的逻辑运算和后组式组配方式,便于进行多 元检索和多途径检索。检索者可选定文献记 录的任何可检字段作为检索途径,而且有些 字段(如篇名、文摘字段)采用了文中自由 词查找的方式,更是便于用户掌握。
截词方式
按截断字符数量分:


有限截词 无限截词
按截断部位分:

• • •
前方一致 后方一致 中间一致 中间不一致
有限截词符
①有限截词 用“?”作截词符,将n
个截词符“?”放在检索词的词干中 或词尾可能变化的位置上。n个“?” 表示截词的位数为0~n个字符。 例如: stud?--则检出有study等的记录。 stud??--则检出有studio等的记录。 stud???--则检出有student studied 等的记录。
位置算符检索与位置算符
位置算符:是在检索式中用于表示检索词
之间位置关系的符号。包括在记录中的顺 序和相对位置。 它能避免布尔逻辑算符不考虑检索词位置 关系而引起的检索误差。 布尔逻辑检索考虑的是:检索词在命中记 录中是否出现,而不考虑其位置关系。
位置算符
例如:要查找“食品添加剂的制备”的相关文 献 用逻辑算符与列出检索式为: “食品 AND 添加剂 AND 制备” 命中记录中既有“食品添加剂制备”的文献, 也有“含有添加剂食品的制备”的文献,结果2 与检索要求不附。 如果通过与位置算符配合使用,可以减少检索 误差。 请注意:不同的联机检索系统所使用的位置算 符的种类和功能有时不完全相同。

联机检索阶段


网络化检索阶段


计算机检索工具
检索工具:指的就是二次文献或二次文献 数据库。是用以报道、存储和查找文献信 息的一切工具与设备。 文献数据库:以各种类型的原始文献为素材, 在广泛收集、筛选、分析的基础上,用选 定的检索语言进行描述和标引,并按特定 规则组织编排而成。

计算机检索特点
检索效果的评价



在实际检索时,我们总是希望将检索系统中 与所需信息相关的全部记录都检出来,同时 这些记录均是我们所需要的,这就涉及到检 索效果的问题。 所谓检索效果:是指检索系统检索的有效程 度,它反映检索系统的能力,包括技术效果、 经济效果。 技术效果:指检索系统在检索时满足检索要 求的有效程度。 经济效果:主要指检索系统完成检索服务的 成本及时间。

Liqu*
计算机检索策略(难点和重点)
计算机检索策略:是指利用计算机进
行检索时,为实现检索目标而制订的 检索方案或对策。

手工检索过程是由人们用手查、眼看、脑子作判断 而完成的,它往往只存在于检索者的脑子里,所以 不必写成书面的表达语句,并且可以边查找边考虑, 灵活地改变检索策略。
计算机检索策略

截词符检索与截词算符
截词符检索:计算机检索外文数据库时, 运用检索词的词干或不完整词形进行 查找的过程称为截词检索。


在英文词汇中,只要在词干上加上不同的前缀或后缀, 就可以派生出许多相近或不同的词汇。检索者将词干 相同、意思相近的词全部输入计算机,既麻烦又容易 出错。 计算机检索系统采用了截词检索功能,即在检索词的 词干上加一个截词符号,以表示对该词干的各种词性 的一系列词进行检索。
检出的相关文献量 R=---------------------×100%= 检索系统中相关文献总量 a ——×100% a+c


查准率:
检出的相关文献量 P=---------------------×100%= 检出的文献总量 a ———×100% a+b
a:检出的相关文献量 b:检出的非相关文献 c:未检出的相关文献量

提高查全率的方法
提高检索词的泛指度(热水器-燃气热 水器) 选全同义词、近义词(土豆-马铃薯) 多用截词符 减少使用逻辑“与”、逻辑“非”运算 符 增加使用逻辑“或”运算符 取消某些限制符 在多字段或全文中检索 采用分类号检索等

提高查准率的方法
提高检索词的专指度 使用下位词及专指性较强的自由词 少用截词符 增加使用逻辑“与”、逻辑“非”运算
计算机检索特点
(4)检索范围ຫໍສະໝຸດ Baidu: 计算机检索能提供远 程检索,所以检索数据库的范围不仅仅局 限在本馆所拥有的数据库。 另外,联机联网系统中含有大量的数据库, 其主题涉及各个学科和生活的各个领域。


例如:dialog联机检索系统中有数百个数据库, 一个数据库收有数百万,甚至上千万条纪录。 OCLC联机检索系统中拥有多种类型的数据库,收 有数万种期刊、图书、会议记录等文献记录。
(1)检索速度快 :与手工检索相比,计算机 检索能提高检索效率,节省时间和人力。 例如:利用DIALOG联机系统检索美国“化学文摘 (CA)”从1967至今的数据库,一般一个课题 只用3-4min左右,用光盘数据库检索也不超过 10-15min,但用手工检索《CA》的累积索引和 卷期索引,一个至少要花上几天的时间。
计算机检索信息时,检索提问与文献
标识之间的对比匹配工作是机器进行 的,必须拟定周密的检索策略,用计 算机能够理解和运算的形式加以表达, 然后交计算机执行。 因此机检时检索策略的正确与否就显 得尤为重要。 (例如)吸铁石—磁石---磁铁
磁铁
实施计算机检索过程:
(1)认真分析课题,明确课题含义 (2)选择数据库 (3)确定检索途径和检索词 (4)组配各检索词

常用的位置算符有以下几种


①(W)算符(WITH)表示两词相邻,词序不能 颠倒,中间不得插入其他词、字母或代码,但 允许有空格或标点符号。 ②(nW)算符(nWORD)表示两词中间可插入n 个词,但它们之间的顺序不可颠倒。 ③(N)算符(NEAR)表示两词相邻,不得插入 其他词,但词序可以颠倒。 ④(nN)算符(nNEAR)表示两词中间可以插入 n个词,且词序可以颠倒。
计算机信息检索 基础知识
计算机检索

是指检索者在计算机终端上,将检索提 问式按特定的检索指令输入计算机,计 算机检索系统将检索提问式与数据库中 的文献特征项进行匹配比较,并将符合 检索提问式的文献记录输出,由计算机 显示或打印的过程。
计算机技术用于信息检索的历程:

单机批处理检索阶段 :

1946年,世界上第一台数字式电子计算机诞生,1951年,美国 麻省理工学院开始对利用计算机代码化文摘进行可行性研究。 这一阶段也称为脱机检索时期,一是单机由专人操作,用户不能 人机见面;二是只能进行批处理不能即问即答。 1960年,美国国家医学图书馆开始建立“医学文献分析与检 索系统”。 20世纪80年代中期,美国国家科学基金会计算机网络 (NSFnet)将各地的一些大学、科研机构及政府机构的局域网络 联结成一个全国性的计算机信息网络 。 进入90年代,世界各国在仿效NSFnet建立全国性文献信息计 算机网络基础上,设法与美国联网,因而产生了国际计算机互联 网络——Internet。

CNKI高级检索—逻辑“与”演示
CNKI高级检索—逻辑“与”演示
布尔逻辑运算“或”
并集
A∪B
A
B
A∪B
或 OR + 属于集合A或者属 于集合B的元素组 成的集合。
A
B
A+B
A OR B
举例
查找国外有关电视机的资料 则检索式为: television
+ TV (television OR TV) 文献记录中只要有television 或TV、 或者二者兼有,均符合检索条件。
计算机检索特点

(5)检索内容新、时效性强 : 联机检 索系统的数据库定期更新数据,且更新的 周期也逐步加快。有每月更新,每周更新, 有的数据库甚至每天更新。
计算机检索技术
布尔逻辑算符:与、或、非 位置算符:W 、N 截词符:无限截词符、有限截词符 • 制定计算机信息检索策略 检索效果的评价:评价指标
NSTL—逻辑“或”检索演示
NSTL—逻辑“或”检索演示
布尔逻辑运算 “非”
差集 A-B
A
B
A-B
A NOT B
非 NOT 属于集合A而不 属于集合B的元 素组成的集合。
举例
查找“除蛋白酶外的各类酶制剂”的
资料。 检索的文献记录中必须含有 A(酶),而不含有B(蛋白酶)才算 命中 其检索式为 A-B (A NOT B)。
检索效果的技术评价指标
常用技术指标:查全率和查准率 查全率:反映所需文献被检出的
程度; 查准率:则反映系统拒绝非相关 文献的能力。两者结合起来反映 检索系统的检索效果。 查全率与查准率之间存在互逆关 系,即提高系统的查全率,会使 查准率下降,反之亦然。
如何计算?


查全率:
例如
Computer(W)aided(W)design可检索出含 有Computer aided design的文献记录 Laser(1W)printer可检索出含有 Laser printer和laser color printer的文献记 录 Computer(N)network可检索出含有 Computer network、network computer形 式的文献记录
无限截词
②无限截词: 在检索词干后加一个 “*”(也有的数据库用“?”), 表示该词词尾允许变化的字符数不 受任何限制。 例如:
“comput*”,则可检出有computer、 computing、computers、 computeriation等词的记录。
液化: Liquefaction Liquefy Liquescence 液体: Liquit
NSTL—逻辑“非”检索演示
NSTL—逻辑“非”检索演示
逻辑算符优先次序
注意:利用布尔逻辑三种算符检索时,有时
会同时用上,计算机会按优先顺序自动完成 算符运算。 其中NOT优先级最高,AND次之,OR的最低 改变优先级可在检索式中添加括号。 例:(计算机 OR 电脑) AND 控制 AND 啤酒
符 减少逻辑“或”运算符; 多用限制符或限制字段, 用文献的外部特征限制等多种方法。
相关文档
最新文档