计算机检索基础知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
同字段检索符:(F)表示算符两侧的检 索词必须同时出现在文献记录的同一字段内, 如标题字段、叙词字段、文摘字段等,但它们 之间的顺序不限,且夹在其间的其它词数量也 不限。字段类型可用后缀符限定。 ?select market? (F) information/DE,TI 说明market? 和information两个词必须同时 出现在叙词字段或题名字段中。
二、检索算符
将选定的检索词用系统规定的检索算符 连接组配起来,就成为一条体现检索策略的 检索表达式,系统使用的检索算符一般有以 下几种:
1
布尔逻辑算符
布 尔 检 索 式 是 采 用 逻 辑 或 ( “ OR” 或 “+”)、逻辑与(“AND”或“*”) 和逻辑 非(“NOT”或 “—”)等算符,指定文献的 标引词中必须存在的条件或不能出现的条件。
2 截词检索符
在实际检索中,常遇到词干相同、词义相 近的检索词,或同一词的单、复数形式,动、 名词形式、英美拼法等。所谓截词检索,就是 将通配符如“*”、“?”或“$”等等,放在检 索词中检索者认为合适的地方截断,用截断的 词的一个局部进行检索,并认为凡满足这个词 局部中的所有字符(串)的文献,都为命中文 献。 截词方式有多种,按截断的字符数量分, 有有限截断和无限截断;按截断的位臵分,有 后截断、前截断、前后截断和中截断。
词位臵算符:即要求检索词之间的相互位臵 满足某些条件而使用的检索算符:
(W)算符是“word”或“with”的缩写,表示此 算符两边的检索词词序不能颠倒,两个词之间 可有一个空格、或一个标点符号、或一个连接 号; (nW)则表示两个检索词之间最多嵌入n个词。
例如,检索“CD-ROM”,则可用 ?S CD(W) ROM;而用price(2W)inflation , 则可能检出 price levels and inflation。
前后截断,是在作为检索词的词干左右两 侧同时放臵截词符号,用以表示词干两侧均 可以有有限或无限个字符的变化。这是中间 一致检索。
中截断,是将截词符放臵在检索词的中 间,作为通用字符,允许有有限个字符变化。 这是前后方一致检索。这种方法对于解决英 美不同拼法,不规则的单复数变化很有用。 符号个数与允许变化的个数相等。如,用 “wom?n”相当于查找woman和women;用 “fib??board”相当于查找fiberboard和 fibreboard。 使用截词检索时,要注意截词的词干不 能太短,以免增加机器检索时间和产生误检。
采用“OR”(“+”)算符时,检索式写作A OR B(即A + B),表明数据库中凡有检索词 A或者B,或同时有A和B的记录均为命中记录。 使用逻辑或可连接同一检索组面的多个同义 词、近义词和相关词,扩大检索范围。 采用“AND”(“*”)算符时,检索式写 作A AND B(即A * B),表明数据库中同时 有检索词A和B的记录才为命中记录。逻辑与 可增强检索的专指性,缩小检索范围。
(N)算符是“near”的缩写,表示此算符两边 的检索词必须紧密相连,此间不允许插入其他 单词或字母,但词序可以颠倒;
(nN)算符则表示在两个检索词之间最多可以 插入n个单词,且词序可以颠倒。如,?S econom?? ?(2N)recovery , 可 以 检 出 : economic recovery, recovery of the economy, recovery from economic troubles。 词位臵检索是很有用的检索技术,它可以规 定词组中各词的前后次序,防止错误的搭配和 输出。
一般有3个部分:一是根据检索要求编制提问 检索式,二是制定确实可行的检索策略,三是使用 检索指令实施检索。
提问检索式是一个既能反映检索课题 内容,又能为计算机识别的式子,是上机 检索的依据。编写提问检索式主要使用布 尔逻辑算符和位臵逻辑算符及其它限制符 号(如截词符)等,把检索词组配起来, 确定检索词之间的关系,准确地表达检索 提问的内容。 构成提问检索式的基本要素主要是检 索词、逻辑算符、位臵算符及截词符。
二、高级检索技术
1 加权检索
加权检索的侧重点在于判定检索词或字 符串在满足检索逻辑后对文献命中与否的影 响程度,它根据用户的检索需求来确定检索 词,再根据每个词在检索要求中的重要程度 不同,分别给予一定的数值(权重)加以区 别,同时给出检索命中界限进行限制。界限 值也称阈值(threshold),其作用为限制检索 结果的输出量。
第二节 计算机检索技术
一、基本检wk.baidu.com技术 1 布尔检索 几乎所有的网络信息检索系统都支持布 尔逻辑检索,但不同的检索工具又有差别. 2 截词检索
3 短语检索
在网络检索工具中,
若在检索框内输入两个或两个以上的检 索词,且两个检索词之间没有任何其它符号, 该检索系统会将这两个检索词之间的关系设 为默认值(AND或OR);
所谓有限截词,是在检索词后截去有限 的 字 母 , 例 如 输 入 computer? ? , 表 示 “?”可以有0-1个字母变化,系统即检 出带有computer和computers的文献;输 入stud??? ?,表示截三个字母,可检索 出 带 有 study, studies, studied 和 studing等的文献。
字段代码
AB 基本索引字段 DE ID TI
字段名称
Abstract Descriptor Identifier Title
译名
文摘 叙词 自由标引词 题名
AU
DT 辅助索引字段 JN LA PY
Author
Document Type Journal Name Language Publication Year
检索式的编制,直接影响到检索质量、检索 效率和检索费用。要注意概念的分析,算符使用 正确但不能达到应有检索效果的例子很多。
例如,一个查找欧洲投资流向的题目,在列 出检索词时就存在整体与部分的关系,如果用 EUROPE AND INVESTMENTS去检索,就会有大量文 献漏检,原因在于“欧洲”指一个整体地理概念, 无法代表通常意义上的英、法等各发达国家,而 后者往其他国家和地区投资的情况正是我们所需 要 的 。 因 此 , 检 索 时 应 用 : ( EUROPE OR BRITAIN OR FRANCE OR ITALY OR SPAIN OR…) AND INVESTMENTS。
前截断,是将截词符放在一个字符串的 左方,表示其右的有限或无限个字符不影响 该字符串的检索,或者说这是一种后方一致 检 索 。 如 “ ?ment” 可 同 时 检 索 含 有 equipment, adjustment, establishment, attachment等的文献记录。“* 信息”表示 可检索出“经济信息”、“生物信息”、 “医学信息”等的记录。
“link”表示检索词应该出现在链点文字中;
“site”表示检索应该在一定的站点上进行;
“ult”表示检索词应该是网址的一部分;
“title”表示检索词应在网页标题中出现;
“alt”表示检索词应在图像替代文字中。
6 多语种检索 很多网络检索工具提供多语种检索或检 索结果的翻译功能。例如AltaVista提供了包 括英、法、德、日、中、俄、西班牙等25种 语言的检索,可供用户根据需要自由选择。
2 自然语言检索
自然语言检索是未来网络信息检索发展 的趋势。它是指用户以自然语言作为检索入 口进行检索。 其基本原理是:首先利用“禁用词表” 剔除那些没有实质主题意义的词,如介词、 副词等,然后将其余的词自动转换成关键词 进行检索。由于自然语言表达概念的自由度 很大,又存在着大量的同义词和近义词,再 加上自然语言标引不用词表,不显示概念的 属种关系和相关关系,因此漏检率较高,自 然语言检索存在一定的局限性。
后截断,是将截词符号放在一个字符串的 右方,满足截词符左方所有字符的记录都为 命中记录。从性质上讲,这是一种前方一致 的检索,例如:MARKET? , 则前6个字符为 MARKET的所有词都满足条件,系统可检出的 词汇有:
MARKET , MARKETABLE , MARKETING 可以看出,截词检索具有隐含的OR运算特 性,MARKET?相当于1 OR 2 OR 3。其他使用 场合如单复数(book?)、年代(199?)同 根词、作者等。
采用“NOT”(“—”)算符时,检索式写 作A NOT B(即A — B),表明数据库中凡有 检索词A而不含检索词B的记录才为命中记录。 使用逻辑非可以排除不希望出现的概念,增 强检索的准确性。
布尔检索式优先执行顺序通常是NOT、 AND、OR,在有括号的情况下,先执行括号内 的逻辑运算,在多层括号时,先执行最内层 括号中的运算。布尔检索比较容易掌握,但 使用不当会造成大量漏检和误检,特别是 “非”运算符的运用应特别小心,否则会把 有用的文献排除了。
作者
文献类型 刊名 语种 出版年
4 位臵逻辑检索符
又称全文查找逻辑算符,相邻度检索算符, 原文检索符。由于布尔检索的“AND”运算要求 AND两边的检索词在同一记录中同时存在才能 命中文献,这就可能会引起误组配而造成大量 误检,而位臵逻辑检索是以原始记录中检索词 与检索词特定的位臵关系为逻辑运算的对象, 检索词用位臵算符相连,就可以弥补布尔检索 的缺陷。 位臵逻辑检索可分为词位臵检索、同句检 索、字段检索和记录检索。
第二章 计算机检索基础知识
第一节
计算机提问检索式
利用计算机检索就是把提问变成机器能识别的 检索策略输入计算机中,由计算机自动对数据库中 各文档的记录进行扫描和匹配。实质上,就是把我 们的要求变成检索提问输入计算机,与数据库中文 献记录的特征进行类比、组配,把完全匹配的文献 记录检索出来的自动化过程。
无限截词是在检索词根后加一个“?”, 表示该词后带任意字母的词都符合需要, 如输入comput? 则可检出含有computers, computing, computered等的文献。
3 限制检索符
在编制检索式时,使用字段限制检索符可 以限定检索词在数据库中出现的范围,对命中 太多的记录再行筛选。如检索式:AU=Gordon? AND PY=199? , 表 示 查 找 Gordon 所 写 的 、 于 1990年后发表的所有文献。 这种字段检索可由代表文献内容特征的基 本索引(Basic Index)字段和代表文献外表 特征的辅助索引(Additional Index)构成, 前者含有所有与主题内容相关的词,如书目型 数据库中的题目、文摘、规范词字段中的叙词 等,后者含有记录中除基本索引字段外的那部 分信息,如作者、语种、出版年等。
目前加权检索在网络检索工具中的运用 还很不完善,尚不能根据用户的需求来确定 某一个具体语词的权值大小从而确定它对检 索结果的影响程度。
现在很多网络检索工具采用“+”、“-” 来表示检索词在检索提问中的分量。在某个 检索词前面带上“+”表示该检索词必须在检 索结果中出现,反之,若某个检索词前面带 上“-”,则表示该检索词一定不能出现在检 索结果中。 AltaVista、HotBot、Infoseek等都 支持这种形式的加权检索。
一、检索词的选择
检索词包括叙词(Descriptors)、标题 词(Subject Headings)、自由标引词 (Identifier)和全文查找自由词(Free Terms)。
除了检索词用作检索项外,还有一些其 它的检索项,如集号检索项、数字检索项 等。
对检索词(或检索项)还可以用一些字 段加以限制。
若要将这两个或多个检索词看成为一个 短语或词组进行检索,就必须使用一定的标 识符号来表明该词组或短语。最常用的是将 该词组用双引括号或括号标识出来。
4 邻近检索
邻近检索是用来表示两个检索词(或短 语)之间的距离和位臵关系。目前运用较 为广泛的是“nW”、“nN”两种。
5 字段检索
有的网络信息检索工具设计了类似于字段检 索的功能。运用这一检索方法,可将检索范围限 制在一定的范围内。Infoseek就支持这种检索字段, 例如: