信息检索技术 (1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目标而制定的全盘计划或方案。
信息检索的基本流程
分析检索要求
选择数据库
确定检索词
构成检索式
修改检索式 不满意
提交计算机
结果显示
满意 完成
2.1 检索课题分析
检索课题的分析,即主题分析,明确课题所包含的概念成份及其
相互关系。这是检索策略制定的根本出发点,也是影响检索效率高低
或成败的关键。 要明确以下问题: ◎分析课题的主要内容及其所涉及的学科范围。 ◎所需文献的类型、语种、年代及文献量的范围。 ◎对查新、查准、查全的指标要求,及其侧重。
第三节 信息检索技术
The Information Retrieval Technology
1.检索算符 2.检索策略
3.检索评价
第三节 信息检索技术
1.检索算符
用一个关键词检索可能比较简单容易,但通常检索题目会 用到不止一个关键词。下面就讲一下有效组合多个检索概念的 方法和技巧。 数据库是有高度的组织结构性的,因此,要有效地进行检索 需用到一些特殊的技术。当你要用多个词表达你的检索意图时, 检索词的输入必须通过数据库能够"理解"的方式才行。 例如: 互联网对青少年的影响
2.2 选择相关信息资源
通过检索需求的目的的分析,有针对性的选择相关信息源,主要
确定以下几个方面: (1)是否要对所有与检索课题相关的资源进行检索Baidu Nhomakorabea如果是,则
不但要考虑检索一次文献和二次文献的数据库,而且对于网上其
它资源;如搜索引擎、学科导航专题BBS等也要进行查询。 (2)究竟要选择哪些信息源;如查找生物学方面的信息,则可能
●Nano * Materials
当你希望所找的文章中包含两个或两个以上的检索概念时,你可以在检索 式中用“AND”将这些关键词连接起来,表示这些关键词必须同时出现在记 录中的某处。使用“AND”将缩小检索范围。 如: students AND Internet 输入上面这个检索式,会找到关于students和internet同时出现的文 章,只包含其中一个词的文章是不会被检索到的。因此, 在连接不同概念 的检索词时,AND是非常有用的。在一个检索式中,AND可以被使用多 次。 如: students AND Internet AND assignments 有的中文数据库用“*”来代替AND,就象下面的这个例子。当然,不是所有 的中文数据库都支持这种用法,你可以查看帮助文件加以确认。
smokes等进行检索。对于最多允许添加一个字符的情况, 则用 ? ? 的形
式表示。如:smok? ?;将只对 smoke , smoky进行检索。
(2)中间截断 中间截断是把截词符号放在一个检索词的中间。一般中间 截断只允许有限截断。中间截词符也称通配符,是在一词中
间用若干个?号,表示可插入若干个字符。
如:学生 * 互联网
(2)逻辑“或”:用“OR”或“+”表示
在检索中,你也可以用逻辑“或”(OR)连接关键词。检索 式(A OR B )可以检索到包含A或者B或者A和B同时出现的文 献。OR最好用于针对一个概念的同义词检索。很显然,使用 OR可以扩大检索范围。
例如 Internet OR Web
输入comput* 可以检出 computer,computus,computing,computative,computator等
截词符用来对检索词(干)进行扩展。在不同的检索系统中,截词符有 不同的表示方法,通常用 “?”或者“*”来表示。 截词方式: 按截断的位置来分共有三种:后截断、中间截断、前截断; 按截断的字符数量来分:有限截词(limited truncation)、无限截词( unlimited truncation)。 平时用得较多的是后截断(无限截词和有限截词)和中间截断(仅允许 有限截词)。
OR用于组配具有并列关系、概念相同或相近的检索词,如同义词、相
关词等。用OR算符的基本作用是扩大检索范围,增加命中的文献量,提 高检索的查全率。
如:查找“肿瘤”的检索式为:
cancer(癌)or tumor(瘤)or carcinoma(癌)
(3)逻辑非:“not”或 “-”表示
NOT的含义是排除,意味着在检索结果中只出现其中的 一个关键词而不应出现另一个关键词。 例如: computer NOT software 输入上面这个检索式,会检索到有关computer的文 章,但这些文章中不应包括和software相关的内容。
检索结果的记录一定比用关系较松的算符检出的记录数少。
以下用electron和device 两词为例,在Ei Compendex数据库检 索,其结果如下表所示。
位置算符按照限制程度的大小排序为:(W)、(nW) 最强,(N)、(nN)次之,(S)再次之,(F)最弱。
2.检索策略 执行一个课题的检索是有过程、分步来 完成的,检索步骤的科学安排称为检索策 略(search strategy) ,它是为实现检索
(3)逻辑“非”:(NOT) 或 “-”表示
(1)逻辑“与”(AND或*)
逻辑“与” (AND) 是用来组配具有相互交叉限定关系的检 索概念。逻辑“与”有时也用“*”代替,其含义是检出的记录中
同时含有“AND”前后两个检索词。如:查找有关“纳米”和
“材料”方面的文献时,其检索式为: ●Nano AND Materials
NOT(非),下面的篇幅将向你展示连接词的用法
1.1布尔逻辑算符
布尔逻辑算符是规定检索词之间逻辑关系的算符, 利用布尔逻辑算符进行检索词或代码的逻辑组配,是
计算机信息检索系统中最常用的一种检索方法,也称
布尔检索。 布尔逻辑算符通常包括以下三种: (1)逻辑“或”:(OR) 或“+”表示 (2)逻辑“与”:(AND) 或“*”表示
如:silicon(2W)sensor;命中的记录中出现的匹配词除上例的外
,还可能会有:silicon angular rate sensor , silicon-based
chemical sensor等等。
(2)(N)与(nN)算符
(N):N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两
使用上面这个检索式,使用了网络的同义词。会找到有关Internet 或
Web的文献或Internet 与Web 同时出现的文献。也可以在一次搜索中多 次使用OR:
如:Internet OR Web OR online OR digital OR wired
有的中文数据库在使用OR时需用“+”来代替: 互联网 + 网络 + 在线
首先列出相关的检索词:互联网、青少年、影响。要
注意的是,通常名词比形容词、介词、代词更适合作
为检索的主题词,你知道吗?有些没有实际意义的虚 词在检索中被称为禁用词(stopword),禁用词在检索 时通常会被忽略掉;接下来试着把这些检索词组配起 来:“互联网”和“青少年”和“影响”
常用到的连接词有AND(与)、OR(或)和
会涉及医学方面的信息资源,所以要考虑跨学科的问题。
(3)选择哪些语种的信息源:是中文还是西文?还是两者兼顾。
(4)信息源覆盖的年限是否符合要求。大多数数字信息资源覆盖的
年限都是近20年的内容,如果课题需要更早的资料,就要考虑手工检 索的问题;还有些数据库由于更新速度的原因,无法提供最新的信息
,也是要考虑的因素,考虑用其它相关资源来予以补充。
(5)(F) 算符 (F): F是Field 的缩写。(F)表示其连接的两个检索词必须出现在 同一字段中,字段不限,词序不限。 如:pollution(F)control 可检出:
control and management of industrial pollution
不同算符的比较:两个词由不同的算符连接组成不同的检索式,其检 索结果显然不同。比如同样两个词用关系较紧的算符其
词间不允许插词。
(nN): (nN)中的n表示允许插词量少于或等于n个。
如:internet(1N)accessing 命中记录中除上例的外,还会可能有: accessing the internet , internet /intranet accessing等。
(3)(L)算符 (L):L是limit的缩写。(L)表示其连接的两个检索词之间有主副关 系,前者为主,后者为副,可用来连接主、副标题词。它们出现在记录 的规范词字段。 如:television(L)high definition 命中记录的规范词字段(de)中出现的匹配词是:TELEVISION-High definition。 (4)(S)算符 (S):S是Subfield的缩写。(S)表示其连接的两个检索词必须出现在同一 子字段中。子字段是指字段中的一部分,如一个句子、一个词组、短语 。字段不限,词序不限。 如:silicon(S)sensor 命中记录出现的匹配情况如: A vacuum magnetic sensor(VMS) using a silicon field emitter tip was fabricated and demonstrated.
连接检索词A和检索词B,
检索式为:A NOT B (或A—B) 表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息
集合排除掉。
如:查找“动物的乙肝病毒”的文献的检索式为: hepatitis B virus(乙肝病毒) not human(人类)
图(a)
图(b)
图(c)
1.2 截词算符( truncation )
(1)后截断
后截断即前方一致检索,是最常用的检索技术。将截词符放在一个词干 的后边,以表示其后可有无限或有限个字符。
◐后截断无限截词
不说明具体截去字符的数量。截词符是在一个词尾加一个 ? 号,表示在
其后可添加任意多个字符,这些字符都被作为检索词进行检索。无限截 词通常用 ? 或 * 来表示
把截词符放在字根的最后。如:behav?;
中间截断主要用于英式和美式单词的不同拼写方式,以及有 些词在某个元音位置上出现单复数不同。 如:organi?ation 将对organisation和organization进行检索。
如:wom?n
系统将找出 "woman" , "women“;
中文数据库截词一般只能用在词尾,英文数据库则3种方式 都可以。 (3)前截断 前截断 用? 或 *来表示 把截词符放在字根的左边。如:*Computer,系统在检索时, 索引词Microcomputer算命中
Comput*er
截词符就是用一个符号来代替单词的一部分或某个字母。截词符只用 于英文检索。 截词检索的作用是减少检索词的输入而保证相关检索概 念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和 英式英语),避免漏检。这样可以扩大检索范围,提高查全率,节省 检索时间。 看看下面这些例子:
输入wom?n 可以检出woman,women
系统将找出 “behave, behaviour,behavioural”等等。 ◐后截断有限截词
说明具体截去字符的数量,截词符是在一个词尾加有限个 ?号,n个 ?
号表示其后可添加的字符数少于等于n个。 如:smok?? ;系统 将对smoke , smoky , smoked , smoker ,
(5)信息源的特点及针对性如何:要了解自己已选信息资源的查询 特点,是否与自己的信息需求相吻合。例如要查询某个机构或公司的 网页,使用搜索引擎是最好的;查询新闻时事,可登录到一些新闻网 站;查找学位论文,就一定要使用学位论文数据库或直接登录到大学 的网站上查询或申请提供相关的服务。
1.3位置算符
位置算符:表示其连接的两个检索词之间的位置关系
(1) (W)与(nW)算符 W是with的缩写。(W) 表示其连接的两个检索词必须按序出现,中 间不允许插词,只能有一空格或标点、符号。 如:high(W)class 命中的记录中出现的匹配词可能有:high class 或high-class。 (nW):与(W)类似, 只是它允许插词,插词量小于或等于n个。
需要注意的是,有的中文数据库在使用NOT时需用“-”来代替,就象下面的 例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文 件加以确认.
如:
计算机 - 软件
上述检索式用于查找只出现计算机而不出现计算机软件的文献,用于连 接排除关系的检索词,即排除不需要的和影响检索结果的概念。用NOT
相关文档
最新文档