计算机检索技术概述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.3.3 截词检索算符
有限截词——一个符号表示一个字符,一般使用“?” (英文半角问号)代表0-1个字符。 比如: chip? 可检索出:chips(右截断)
无限截词——一个符号表示任意多个字符,标准符号 是“*”,代表0-n个字符,也称为通配符。 比如:comput* 可检出:compute, Computer, computers, computing, Computerize等.
前截断
中文数据库里面 习惯称为“后方 一致”
如:*computer
computer microcomputer minicomputer
中截断
man
如:m?n
men
3.3.4 字段限制检索
Title (ti): computer Py>=2008 La=english 限定网站:site:gov.cn
【实例】在搜索引擎中输入“电视台-中 央电视台”,查询结果不包含“中央电 视台”。
相同的检索词在不同的字段中检索到的结果不同。
【实例】用《中文科技期刊数据库》检索机械产品采用计算机 辅助设计的论文。
用不同字段作为途径,如下所示: 选择”u=任意字段” 输入“计算机辅助*产品”,查出2902篇; 选择”m=题名或关键词” 输入“计算机辅助*产品”,查出626
篇; 选择“t=题名”输入“计算机辅助*产品”,查出139篇; 选择“k=关键词”输入“计算机辅助*产品”,查出545篇; 检索入口 选择“c=分类号”输入“机械产品”的分类号
“TH122”年限设定,查到11206条。
3.3.2 位置检索算符
也叫“邻接检索”, 表示两个或多个检索词之间的 关系检索方式,常用的位置算符有:
注:不同的数据库所用的截词符不一样,使用应先查 一下各数据库的帮助加以确认
截词检索与截词检索算符
后截断
无限截断
如:physic*
Physic physics physicst
中文数据库里面 习惯称为“前方 一致”
physicalism
有限截断
如:physic??
Physic physics
physicst
词间位置检索
基本技术
3.3.1 布尔逻辑检索算符
1.逻辑 “与” (AND),表示为 A and B 或 A * B
2.逻辑 “或”(OR),表示为 A or B 或 A + B 3.逻辑 “非”(NOT),表示为 A not B 或 A - B
逻辑“与”
用“and”、“*”或者空格表示。在网络搜索 引擎中习惯用空格代替“and”。表示检出的记录 必须同时包含所有的检索词,可以缩小检索范围, 减少命中文献量,提高查准率。
link:whitehouse.gov 限定网页:inurl:midi 沧海一声笑 限定文件类型:filetype:
3.3.5 其它符号
1.括号 括在其中的操作符先起作用。
三聚氰胺*(农产品 +鸡蛋+牛奶 +大米)
2.引号 引号内的检索项以整体形式出现。如:information retrieval 表示 information AND retrieval 而 “information retrieval ” 则表示一个词组
太阳
A A and B
B
能源
例:检索“太阳能”文献
【实例】检索“中国人民政府”这个网站, 可以输入“中国*政府”、“中国 and 政府”、“中国 政府”等。
【实例】检索课题“中国外汇储备规模的 研究”不是一篇文章,需要检索有关的 期刊文章,其检索式宜表达为“中国 and 外汇 and 储备 and 规模”
期专 产 刊利 品 论数 数 文据 据 数库 库 据 库
按收录文献信 息的范围划分
综合性数据库
专业性数据库
文本数据库

网络数据库

声音数据库 单机数据库
联机数据库

数值数据库

息 划
图像数据库
按服务模式划分

多媒体数据库
视频数据库
3.3 检索式的拟订
3.3.1布尔逻辑检索算符 3.3.2位置检索算符 3.3.3截词检索算符 3.3.4字段揭示及限制算符 3.3.5其它符号 3.3.6注意事项
逻辑“非”(NOT)
表示检索结果中排除含有某些词的记录,可 以缩小检索范围,减少文献输出量,但并不一定 能提高查准率。
能源
A
B
核能
A not B 例:检索“除核能以外有关能源”文献
【实例】输入“automobile not car”, 就要求查询的结果中包含automobile (汽车),但同时不能包含car(小汽 车)。
2.弄清检索课题的信息类型和时间要求
时间要求上,研究层次低、学科发展快的,则检索的时 段可以适当缩短。 例如:查“超声波技术在医学上的应用”和查国内外研究社 会保障制度的文章。
3.考虑课题的特殊要求 4.明确用户自身的信息需求
分析课题时须注意的问题
1.要从概念入手,而不是从字面意思入手;
2.概念扩展时要考虑同义词、相关词、上位词/下位词等 (既词表中提到的用、代、分、属、参、族),还要注意中英文 混用的现象 ;
3.2 计算机检索的相关概念
1.检索系统 信息检索系统包括两个子系统:存储子系统和检
索子系统。 2.联机检索
利用与检索系统或信息中心的主机连接,在中央 处理机控制下查询系统内的数据库,并能够与系统 实时对话,随时调整检索策略。 3.数据库
是在计算机存储设备上按一定方式存储的相互关 联的数据集合。
字段(Field) 记录(Record) 文档(File)
3. n( Near)表示两个检索词可以互换顺, 二者之间只能间隔连字符、空格或者是逗 号。
【实例】在OCLC中输入communication n satellite;
4. nN( Near N)表示两个检索词可以互换 顺,二者之间最多间隔N个字符。
【实例】在EBSCO中输入communication n3 satellite;
比较:在EBSCO中输入source and law、 source w2 law
3.3.3 截词检索算符
检索color 检索computer、microcomputer、minicomputer
截词符(通配符)——提高查全率,防止漏 检的有力手段,也可以简化输入,包括有限截词 和无限截词,常用的截词符有:*, ?, #,!,$
数据库
字段(field):如在数据库中题名、作者、作者单位、 期刊名、摘要、全文等等均是字段;一条记录由多个 字段值组成;对计算机检索来说字段相当于检索入口。
常用字段缩写: TI——Title 文章题目 AB——Abstract 文章摘要 KW——Key Word 关键词 AU——Author 作者 AF——Affiliation 作者单位 SO——Source 文章来源(刊名信息等) ISSN(ISBN)—— International standard Serial (book) Number PY——Publication year 出版年 LA——Language 语种
顺排文档(记录) 倒排文档(索引)
数据库(database)——由计算机进行处理的一定数 量同类信息的有序集合,是用来存储和查找文献信 息的电子化检索工具。
数据库的类型
按收录的文献类型划分
按信息处理层次wenku.baidu.com分
书 目 数 据 库
文 摘 数 据 库
全 文 数 据 库
书学 目位 及论 图文 书数 全据 文库 数 据 库
《公共管理学报 》上面发表的论文。
【题解】“A=胡鞍钢*J=公共管理学报 ” 。 4.写出“研究法律与经济和政治的关系“的课题的检索式。 【题解】“法律*(经济+政治)” 5.检索有关“中国国内商业银行的信贷管理或信贷风险的
研究”方面的相关文献。 【题解】(商业银行-外资银行)*(信贷管理+信贷风险)
2.扩展 神经网络:相关的上位词有人工智能 旋转机械 故障诊断:相关词有故障定位、故障检测,上位词有
容错技术 3.检索式:
(神经网络 OR 人工智能)AND(旋转机械)AND (故障诊断 OR 故障定位 OR 故障检测 OR 容错技术)
检索式示例
1.检索关于研究鲁迅的论文,应选择什么检索字段。 【题解】必须选择标题或者关键词,不能选择为作者途径。 2. “知识产权”一词还可析出哪些隐含概念。 【题解】“专利权”、“版权”、“著作权”等概念。 3.用《中文科技期刊数据库》检索著名经济学家胡鞍钢在
逻辑“或”
用“or”、“+”或逗号表示。在网络搜索引擎 中习惯用逗号代替“OR”。表示检出的记录中至少含有 多个检索词中的任何一个,可以扩大检索范围,增加 命中文献量,防止漏检。常用于连接同义词,相关词 等。
光盘
A
B
磁盘
A or B 例:检索“光盘和磁盘”文献
【实例】在搜索引擎中输入“计算机OR多 媒体OR Windows98”则查询至少包含 “计算机”、“多媒体”、“Windows 98”三者之一的信息。
泛的限定词应予以删除。
替换:是对表达不清晰或容易造成检索误 差的词用更明确、更具体的词予以替换。 如公交—>公共交通,绿色包装->环保包装 等
增加:针对一词多义或者在检索结果中有 很多干扰信息时,可采用增加检索词达到 “限义”的手段。
例:神经网络在旋转机械故障诊断中的应用研究
1.本课题包含“神经网络” “旋转机械” “故障诊断” 三个概念,“应用”和“研究”属于意义过于宽泛的词,不应 该作为检索词。
3.4检索步骤
1.检索准备 2.选择合适的检索工具 3.选择检索途径 4.拟订检索式 5.实施检索 6.筛选文献 7.索取原文
3.4.1检索准备
1.弄清课题学科属性、专业范围及其 相关内容
首先明白是单一学科还是涉及多 学科或跨学科。
当课题涉及多学科时,以主要学 科为检索重点,次要学科为补充。 例:超声波技术在兽医上的应用。
4.英语或汉语中都有许多虚词,不能作为检索词。
如:汉语中“的、地、得、了”等助词;
英语中的a about also and any as at be between by both for some so not this with等 介词或冠词等
3.3.6检索策略
检索策略是对检索的全面策划,在操作上 主要指检索式的编制和数据库的选择。
记录(Record)——由若干字段组成的文献单元,在 全文数据库中,一条记录相当于一篇完整的文献, 在书目数据库中,一条记录相当于一条文摘或题录。
文档(File)——由若干个逻辑记录构成的信息集合, 是数据库的基本内容,分为顺排文档和倒排文档。 顺排文挡是数据库的主体内容,倒排文档是将记录 中的一切可检字段或属性值提取出来,按某种顺序 重新加以组织所得到的文档。
第四讲
计算机检索技术概述
3.1 计算机检索简况 3.2 计算机检索的相关概念 3.3 检索式的拟订 3.4 检索步骤
3.1 计算机检索简况
计算机检索指利用计算机及相关设备进行的文献信息检 索。
信息检索技术正向两个方向迅速发展: 一是在深度上提高管理和组织信息的能力 传统信息检索向全文文本、多媒体、多载体、多原理等 新型信息检索的发展. 二是在广度上提高管理和组织信息的能力 文献资源的网络化和分布化,面向Internet中浩瀚无垠 的资源。
检索策略在计算机检索中直接决定检索结 果的准与全。
1. 确定检索词
切分:是对课题的语句以词为单位进行切 分,转换为检索的最小单元。
例:检索“吸烟与肺癌的关系研究”相关文献。 例:检索“肺气肿病人的血氧测定法”方面的
相关文献。 注意:应保持词意义的完整。 删除:对不具有检索意思的虚词或过分宽
3.个别数据库使用的特殊符号 某些搜索引擎使用加号(+)表示该单词必须出现。 在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必
须要同时包含“电脑、电话、传真”这三个关键词。 个别数据库例如“国研网”、山东标准网使用“&”代替“and”;欧
洲专利局光盘数据库的“without”、美国专利商标局数据库的“andnot”
1. w (with) 表示两个检索词前后次序固定,二者之间只能间隔连
字符、空格或者是逗号。 【实例】在OCLC中输入communication w satellite; 2 . wN (with N) 表示两个检索词前后次序固定,二者之间最多间隔N个
字符。 【实例】在EBSCO中输入communication w3 satellite;
相关文档
最新文档