第二章信息检索基本方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 数据库中文摘例:
著者
文摘必备的 著录项目 摘要 篇名 出处
名词辨析:文摘和摘要
参考工具书
工具书:根据一定需要,广泛收集某一范围有关资 料,按特定体例或方式编排,提供基本知识和文献 线索的一种特殊类型图书。 1、检索类工具书 主要对相关文献外表特征进行揭示和报道。包括:
目录(Bibliography/Catalogue) 题录(Title) 文摘(Abstract) 索引(Index):《社会科学引文索引》 将题名、人名、地名、字句及参考文献分别摘录,注明出 处
检索关键词“混合动力汽 车” hybrid electric vehicle, hybrid(1w)vehicle hybrid vehicle with laser(1w)printer 检索关键词“激光打印机” (n W) laser printer laser colour printer
一般用于重大课题和各学科发展史以及新兴学科等方面的 研究课题的全面检索。
倒查法:由近到远地回溯性查找文献信息的方法。目的
是获取最新文献信息。在确认某项成果是否是创新时,也适 合用倒查法。
抽查法:针对某一学科领域内的课题,重点对某一时间
段文献进行检索。多用于写专题调查报告。
二、引文法
又叫追溯法,是利用已掌握文献后面的参考文献或引用 文献追踪查找相关文献的方法。有助于了解某一课题研究 的轨迹,产生新发现。 具体方法有2种: 1、利用原始文献后附的参考文献由近及远追溯检索 2、是利用专门编制的引文索引由远及近追溯查找
与检索途径相对应,是它的具体化。
2、类型:
按规范程度分:规范词、规范代码、自由词 按表达特征形式分:主题、分类、责任者、特定意义 (代码、编号等)
二、检索标识的确定
1、必须反映课题内容和信息需求 2、要和数据库的标引标识相一致 3、对于有叙词或主题词表的,要优先选用叙词 或主题词 4、选用各学科内具有检索价值的基本名词或术 语 5、如无表可查,或表上无反映,则为自由词, 应加选其它词进行组配
每条记录揭示一种文献(书、刊) 例:馆藏目录里的一条记录。著录格式为:
题录
• 题录的含义
• 是描述文献外部特征的文献条目。 • 题录的著录对象一般是单篇文献。 • 通常每条记录揭示一篇文章。
相同点:著录格式
不同点:著录对象
目录和题录
目录 题录
完整出版物
单篇文献
文摘
• 文摘的定义
• 我国国家标准GB 3468-1983《检索期刊编辑总则》 定义:除题录部分外还对文献内容作实质性描述 的文献条目称之为文摘。 • 不仅描述文献的外表特征,而且还揭示文献的内 容特征。比题录多出摘要。 • 文摘是文献原文浓缩后的产物,是忠实于原文内 容的简要记录单元,能揭示文献的内容特征。
例1:计算机信息检索
提问式(检索表达式)为: 信息检索 AND 计算机 (信息检索 OR 文献检索) AND 计算机 信息检索 NOT 信息检索课
例2:数据挖掘在信息检索与信息分析中的应用
提问式为: 数据挖掘 * (信息检索 + 信息分析)
一个问题
布尔算符中的逻辑“与”只判断参加运算的检索词有 否在数据库记录中出现,而没有限定算符两侧检索词之 间的相对位臵关系,有时难免造成误检。
例如:查找“细菌对染料破坏”方面的文献
检索词:细菌、染料、破坏 逻辑“与”组配 检索结果:命中同时用这三个词标引的文献 有“细菌对染料的破坏”方面的文献,也会有“染料 对细菌的破坏”方面的文献,要排除后一部分的文献, 就需用位臵算符限定词与词之间的位臵关系。
2、位置算符
位臵算符又称邻接运算符,用于表达各个 检索词之间在记录中的顺序与相对位臵关系
除核能以外的有关能源方面的文献才被命中。
逻辑检索概念示意图
A
B
A
B
A and B A*B
A or B A+B
A
B
B not A B-A
在上述逻辑算符中,其运算优先级顺序为 NOT,AND,OR,但是可以用括号改变它们之间 的运算顺序。例: (A OR C) AND B 表示先执行“A OR C”的检索,再与B进行AND 运算。例: 通信 or 通讯 and 加密 = 通信 or (通讯 and 加密 ) (通信 or 通讯) and 加密
三、循环法
又叫综合法、交替法,是把上述两种方法加以 综合运用的方法。可获得较为全面而准确的文献。
第五节 检索技术
检索技术主要指检索词的组配技术和检索表达式的构成规
则。 表达检索词间逻辑关系、位置关系或对检索词书写方 法与范围进行限制的方法。 检索表达式又称检索提问式,主要是运用各种逻辑运算符 号、位置逻辑算符、截词符及其他限制符号等,把检索词 连接起来,确定检索词之间的关系,准确表达检索课题的 内容 例:金融*理论>=2004
第四节 检索方法
为实现检索目标所采用的具体操作方法和手 段的总称。
检索方法很多,在检索过程中应根据检索系统的功能和 检索者的实际需求,灵活运用各种检索方法,以达到满 意的检索效果。常用的检索方法有:
一、工具法 也叫直接法或常用法 是指直接利用检索工具检索文献的方法。
顺查法:按由远到近的时间顺序查找文献信息的方法。
2、词语类工具书
Dictionary,提供字、词的形、音、义和使用方法,以及 学科名词术语的含义、演变和发展。 字典:《新华字典》 词典:《辞海》、《汉语成语大词典》
3、资料类工具书
提供各种基本知识或某一课题的具体资料。 百科全书(Encyclopedia)是汇萃人类一切门 类知识或某一门类知识的工具书。 年鉴 (上一年度) 手册(指南、便览、大全) 名录(机构名录、人名录、地名录) 类书(古代文献) 政书(古代法律法规)
在实际检索中,为提高查准率,往往需对检索词 之间的位臵关系加以限定,因为用不用位臵逻辑算符 和用什么样的位臵逻辑算符,所得出的检索结果、查 准率都各不相同
不同检索系统所使用的位臵算符种类和功能
有所不同
常见的位置算符(以dialoge系统为例)
位置算符 表示方法 (W)或( ) 说明 两个词在命中结果中相邻(可有空格、标点 和连字符),词序不得颠倒。 两个词之间最多可夹入n个词,词序不得颠倒
第二章
信息检索基本方法
检索工具
第一节
定义: 用来报道、存储和查找各类信息的工具。
你都用过哪些检索工具?
• 检索系统/检索工具
二次文献 • 搜索引擎 • 数据库(目录/题录、文摘、索引、全文)
• 参考工具(字典、词典、百科全书、年鉴、 手册等) 三次文献 • 综述、述评等
目录
• 目录的含义
• 是图书、期刊等出版物外表特征的揭示和报道。 是指导阅读和科学管理文献的重要手段。 • 文献的外表:特征(外部特征)包括题名、著者、 出处、卷期、页码、时间、文献类型、语种等 • 目录以完整的出版物(如一本书、一种期刊)作 为著录的基本单位,所以也可说是按某种顺序编 排的文献清单。如: • 每个图书馆的馆藏目录,揭示该馆的馆藏情况 • 联合目录揭示多家图书馆的收藏情况
一、布尔逻辑算符
即用布尔代数中的逻辑算符对检索单元(如主题词) 进行组配,表达用户提出的检索课题。
“算符”:表示检索词之间逻辑关系的运算符号
(1)逻辑与:AND、*
用于概念交叉和限定。起缩小检索范围和提高文献 查准率的作用。 例 Solar*Energy 人口 AND 控制
(2)逻辑或:OR、+ 用于概念之间并列关系的组配。能扩大检索范围, 避免文献漏检。 例: www + internet + network (3)逻辑非:NOT、- 从原检索范围中剔除一部分不需要的内容。 例: Energy —Nuclear
二、外表特征途径
1、题名途径: 书名、论文篇名、刊名、专利名、标准名等 2、责任者途径: 个人、团体 3、机构名称途径: 可以了解统计该机构的情况 4、编号途径: ISBN号、ISSN号、专利号、合同号 5、其他途径: 引文索引、会议索引
关于引文索引
定义:
以某一文献 (包括作者、题名、发表年份、出处等基本数据)作为标目, 标目下著录引用或参考过该文献的全部文献及出处。它主要供用户从被引 文献查找引用文献。 来源: 20世纪50年代,美国加菲尔德研制,主办费城科学情报研究所创办了: 《科学引文索引》(SCI,1963年创刊)、《社会科学引文索引》 (SSCI,1973年创刊)、《艺术与人文科学引文索引》(AHCI,1978年创刊), 并建立了引文索引数据库。 国内: 《中国科学引文数据库》 ( CSCD ) ,《中国人文社会科学引文数据库》 ( CHSSCD ) 中国科学院文献情报中心与中国学术期刊电子杂志社 《 中文社会科学引文索引 》 ( CSSCI ):由南京大学中国社会科学研究评价 中心开发研制 《中国期刊全文数据库》也具有引文检索的功能
功用:
多用于新兴学科、交叉学科及其他复杂课题的文献检 索。 A、揭示科技文献之间的内在逻辑与联系,反映文献 之间引用与被引用的关系,体现了科学和技术的发展 过程,预测科学发展方向 B、评价科技文献的价值、科技人员及科研机构的工 作成绩和水平。 • 此后又研制出引文分析技术,为文献计量学、科学计 量学的研究提供了新的方法。
文摘的特点与作用
• 确定相关性,即帮助读者判断所检索到的文献是 否合乎需要,从而决定原始文献的取舍。 • 一定程度上代替原文。科技人员阅读了著录较为 详细的文摘之后,大体上就掌握了原文内容要点, 不必再阅读原文了。这一点,对于那些难索取到 原文的“难得文献”尤为重要。 • 大大节省了科技人员查找和阅读文献的时间。 • 帮助克服语言障碍。在一种检索工具中,无论原 始文献是什么语种,其文摘都被译为统一的一种 语言(一般为英语)。
计算机检索系统实例:
深圳大学图书馆计算机管理集成系统中 检索子系统的检索方法:
提供了题名、著者、分类号、普通主 题、ISBN、索取号、登录号、ISSN、名称 主题、地名主题等十一个检索途径。
第三节 检索标识
一、定义与类型 1、定义: 即检索词,指能表达检索课题主题概念和信 息需求的名词术语、类号、名称及代码等的总称。
(1) (W) 最常用来替代短语中间的空格,可以简写为() (2) (n W) 可代替一个或多个任意词语,包括空格,且前后单词顺序 不变。( n代表自然数1,2,3,……)
(w) 检索关键词 “白色污染” white(W)pollution 或 white pollution, whitewhite()pollution 或() pollution
第二节
检索途径(approach)
进行检索的出发点及路线,也叫检索点。 一、内容特征途径 1、主题途径 按文献信息的内容主题进行检索的途径。 主题概念分析→提炼主题词(标题词、关键词、叙词) →利用主题索引或关键词索引进行检索 2、分类途径 按文献信息所属学科(专业)类别进行检索的途径。 分类分析→按分类法取分类号→利用分类索引进行检索 3、代码途径 按照文献信息具有的唯一或一定的代码进行检索的途径.
4、表谱类工具书
以表格或其他较为整齐的形式,记录史实、时间、地理等资料, 并附以简略的文字说明,以反映史实和时间。包括: 年表、历表、表谱, 《中国历史纪年表》、《中西回史日历》
5、图录类工具书
以图形、图像、符号等为主体,附以简略的文字说明,以反映各 种事物、人物的空间特征和形象特征的工具书。包括: 地图、历史图录、文物图录、人物图录、艺术图录、科技图录
6、边缘类工具书
介于工具书与非工具书之间,既有一般图书的阅读功能,又有工 具书的查检功用的文献。包括: 资料汇编、史书、方志
小结: 一、语言文字的宝库 -- 字典、词典 二、事实数据便览 -- 年鉴、手册 三、没有围墙的大学 -- 百科全书 四、史实典故的宝山 -- 类书、政书 五、书山学海的向导 -- 目录、索引、文摘 六、名录、表谱、图录、资料汇编
wenku.baidu.com
with
(nW)
near
(N)
(nN)
两个词在命中结果中相邻,词序可颠倒。
两个词之间最多可夹入n个词,词序可颠倒。 两个词在同一字段出现,位置不固定。
field
(F)
subfield
link
(S)
(L)
两个词在同一子字段出现,位置不固定。
两个词在同一规范词单元内出现,位置不固 定。
位置算符With
相关文档
最新文档