情报检索的原理与技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据来源:《远东经济评论》 (Economic Review of Far East)
日本是第二次世界大战战败国,而且地处 孤岛,资源缺乏,但它只花了20年的时间就令 全国经济获得飞速发展,原因何在?
最重要的一条就是每个国民及整个国家都 竭尽全力地追求信息,走一条“引进、消化、 综合、创新、返销、赚钱”的富国之路。
二. 现代检索技术
1. 全文检索
全文检索系统是为人们获取文献原文而不仅仅 是文献线索而产生的一种现代检索技术。近年来, 全文检索的应用范围不断拓展,它与出版技术的结 合,使各种科技期刊、专利文献、新闻报纸等全文 数据库应运而生。一些年鉴、手册、百科全书、参 考书等也成为全文系统处理的对象,有些著名的文 学作品也可以转换成全文数据库。
中截断:又称中间屏蔽法,用截词符屏蔽词中不 同字符的方法,中间一致检索。
(2)按照截取字符的数量
有限截断:是在检索词后截去有限的字符。 例如 computer? computers) computer??? (computer or 三个字符
无限截断:在检索词后跟任意个字符均为命 中文献。
例如 comput* (computer or computing or computered … )
第二章 情报检索 的原理与技术
日本经济发展的启示
日本人均国民生产总值:
1945年只有20美元, 1955年为200美元, 1965年为1000美元, 1980年为10000美元, 1982年为12000美元, 1989年为16100美元, 1991年为27326美元(当年美国是22550美元)且仅 次于瑞士(35100美元), 1994年为34630美元,居世界银行评出的十大富国的 第三位(十大富国:卢森堡、瑞士、日本、丹麦、挪 威、美国、德国、奥地利、冰岛、瑞典)。
5.词组检索
词组检索是将一个词组(通常用双引号“ ”括起)当作一个独立运算单元,进行严格匹配 ,以提高检索的精度和准确度,它也是一般数据 库检索中常用的方法。 词组检索实际上体现了邻近位臵运算(Near 运算)的功能,即它不仅规定了检索式中各个具 体的检索词及其相互间的逻辑关系,而且规定了 检索词之间的临近位臵关系。
3. 超媒体超文本检索
传统文本都是线性的,用户必须顺序阅读。超 媒体与此不同,它是一种非线性的网状结构。用户要 沿着交叉链选择阅读自己感兴趣的部分。早期的超文 本以文字为主,随着多媒体的发展,开始容纳包括图 像(形)、视频、声频等各种动、静态信息,统称为 超媒体系统或超级文本系统。 从信息组织角度看,超媒体系统是一个由节点 和表达节点之间关系的链构成的网状数据库。
三.情报检索语言
1.
检索语言的概念
情报检索语言是根据检索需要而创制的人工语 言,也称检索标识系统。它专门用于各种手工和计 算机情报检索系统,其实质是表达一系列概括文献 内容的概念及其相互关系的概念标识系统。
2. 检索语言的类型
检索语言的种类很多,按其构成原理 一般可分为分类语言(又称分类法)、主 题语言和代码语言三种。 其中分类语言又有体系分类法和组配 分类法的区别,主题语言又有标题词语言、 叙词语言和关键词语言的区别。
(1)按照截词的位臵
后截断:将截词符号放在一个字符串的右方, 满足截词符左方所有字符的记录均为命中记录。 性 质上讲,是一种前方一致的检索。 例如 market* marketing or …) 199? (market or marketable or
(1990-1999)
前截断:将截词符号放在一个字符串的左方,是 一种后方一致检索。
将情报信息按照一定方式组织、存贮 起来,并针对用户需求的需要查找出所需 情报的过程。(广义)
ቤተ መጻሕፍቲ ባይዱ
2.情报检索原理
存贮过程:搜集情报、筛选加工、 形成检索工具、组成检索系统 检索过程:明确需求、分析课题、 利用检索工具、得出检索结果
文献情 报内容 用户情 报需求
主题分析
主题概念
主题分析
主题概念
情 报 检 索 语 言
3. 截词检索
由于西文的构词特性,在检索中经常会遇 到名词的单复数形式不一致;同一意义的词,英、 美拼法不一致;词干加上不同性质的前缀和后缀 就可以派生出许多意义相近的词等。 截词是在检索词的某个局部截断,采用截 词符构成模糊检索,防止漏检。
截词符(通配符)
?
*
??
???
意义
截词检索具有逻辑or 的运算特性。
2. 位臵算符检索
位臵检索也叫邻近检索,是用一些特定 的算符(位臵算符)来表达检索词与检索词 之间的邻近关系,并且可以不依赖主题词表 而直接使用自由词进行检索的技术方法。 位臵关系包括词距(单词间的间隔)和 词序(单词的先后顺序)两个方面。
(1)(W)或() (W)算符是With或word 的缩写, 表示两侧的词 必须紧密相连,次序不得颠倒,中间不得有其他词或 者字母(两个词之间可以有一个空格、或一个标点符 号、或一个连接号)。
例如:CD()ROM
(nW)——n Word n为一个数字,表示算符两侧的检索词间允许插 入n个实词或虚词,顺序不能颠倒。 例如:price (2w) inflation
(2)(N)
(N)算符是Near的缩写,表示算符两侧的 词必须紧密相连,中间不得有其他字符,但词 序可以颠倒。 (nN) nNear n是一数字,表示在两个检 索词之间最多可以插入n个单词,且词序可以颠 倒。 (3)(F)——Field同字段检索,检索词 必须同时出现在同一字段中。 (4)(S)——Subfield或sentence ,同 子字段或同句检索,参加检索的两个词必须出 现在同一个自然句中。
资料显示, 1952年日本出口总 额只有8亿美元, 由于它在战后花了 20年时间和57亿美 元购买外国的情报 和专利,大大促进 了经济的发展,到 1990年,日本的出 口总额竟达到2860 亿美元,1995年则 达到4400亿美元, 出口总额仅次于德 国、美国,居世界 第三位。
日本人收集情报 信息的手段多种多样, 而且具有独创性。每 年在近千种科技文献、 政府报告和报刊上获 得美国有价值的论文 约7万篇,内容几乎 涉及所有的科技领域。 日本企业在美国的大 学情报站有上千个, 这些情报站多是高薪 聘用美国的专家为日 本服务的。
国际情报公司 (International Information Company, IIC)一位 人士说,日本人收集 情报、信息像梭子鱼 一样,极其厉害,什 么都不放过。
第一节 第二节
情报检索原理 情报检索技术
第一节
情报检索原理
一.情报检索概念 二. 情报检索类型 三.情报检索语言 四.情报检索工具
标识
输入
情报检 索系统 标识
检索
结果
二. 情报检索类型
1. 根据检索内容分类 文献检索(Document Retrieval)
数据检索(Data Retrieval)
事实检索(Fact Retrieval)
2.根据检索手段分类
手工检索 特点是方便、灵活、判别直观, 可随时修改检索策略,查准率较高。不足的是 检索速度较慢,漏检现象比较严重,不便于进 行复杂概念课题的检索。 计算机检索 特点是速度快、效率高、查 全率较高。不足之处是成本高、费用大,查准 率通常不尽如人意。
4. 字段限制检索
字段限制检索是限定检索词在数据库记录 中的一个或几个字段范围内查找的一种检索。 在检索系统中,数据库设臵的可供检索的 字段通常有两种:表达文献主题内容特征的基 本索引字段和表达文献外部特征的辅助索引字 段。基本索引字段包括篇名、文摘、叙词、自 由标引词四个字段;辅助索引字段包括除基本 索引字段外的所有字段,如著者字段、著者机 构字段、文献类型字段、语种字段等。 基本索引字段一般用后缀表示,如 medicine/TI,或medicine In TI ;辅助索引 字段一般用前缀表示,如AU=Smith D. ,再如 PY=2005。
题录型检索工具
文摘型检索工具
参考型检索工具
搜索引擎
第二节
情报检索技术
一. 传统检索技术
二. 现代检索技术
三. 检索策略
一.传统检索技术
传统意义上的检索技术包括布尔逻辑 检索、位臵检索、截词检索、限制检索等, 不同的数据库使用该技术的情况各不相同, 具体使用时应结合实际情况选用。
1. 布尔逻辑检索(Boolean Logic Retrieval)
表达文献情 报主题概念
分类语言
标题词语言 单元词语言 叙词语言 关键词语言
主题语言
检索语言
表达文献情 报外部特征
书名、刊名、篇名等 著者(作者)名称 号码(如报告号、专利 号、文献序号) 文献类型
四.情报检索工具
1. 检索工具的概念
检索工具是用以报道、存储和查找文献 信息的一切工具与设备。 它以各种类型的原始文献为素材,在广 泛收集、筛选、分析的基础上,用选定的检 索语言进行描述和标引,并按特定规则组织 编排而成的二次文献。
2. 多媒体检索
多媒体检索技术是把文字、声音、图像(形)等多 种信息的传播载体通过计算机进行数字化加工处理而形 成的一种综合技术。 视频检索。这种检索要在大量的视频数据中查找所 需要的视频片断。如关于卫星云图的变化、人体内器官 的运作等。 声音检索。包括:用序号查找一段声音;以匹配方 式检索给定样值的声音;对声音文本的检索等。 图像检索。它通过分析图像的内容,如颜色、纹理 等建立特征索引,并存储在特征库中。用户查询时,只 要把自己对图像的模糊印象描述出来即可在大容量图像 信息库中找到所要的图像。
检索式
business information /TI or business information in TI 表示检索在题名中出现 business information 的所有文献。
分析
review in TI
AU=Gordon and PY=2005 表示检索 Gordon所写的2005年发表的所有文献。 分析 PT=patent and LA=Chinese
AB TI AD AU CP LA PT PY
Abstract文摘 Title 题名 Address of Author著者地址 Author著者 Country of Publication出版国 Language of Article文献语种 Publication Type出版物类型 Publication Year出版年
一.情报检索概念
1.情报检索
“检索”一词源自英文“Retrieval”,其含 义是“查找”。 将大量相关情报按一定的方式和规律组织 和存储起来,形成某种情报集合,并能根据用 户特定需求快速高效地查找出所需情报的过程 称情报检索。
总结:
从大量的信息情报集合中查找出所需 情报的活动、过程与方法。(狭义)
通过对一些简单概念检索词的组配,表达 一个复杂概念。表达概念间的并列关系、相交 关系和排斥关系,分别是逻辑或(or)、逻辑 与(and)、逻辑非(not)。
(1)逻辑“或” “or”或“+”
“或”用于组配具有同义或同组概念的词, 如同义词或近义词。用于并列关系,可以扩大检 索范围,防止漏检,增加查全率。 检索式写作 A or B 或 A + B
2. 检索工具的类型
(1)按检索手段划分 手工检索工具 机械检索工具
计算机检索工具
(2)按载体形态划分 书本式检索工具、
卡片式检索工具、
缩微式检索工具、 磁性材料检索工具(磁 盘、光盘等)
(3)按收录范围划分 综合性检索工具 专业性检索工具 专题性检索工具 单一性检索工具 (4)按著录对象和 方式划分 目录型检索工具
(3)逻辑“非” “not”或“—”
表示排除某些不需要的和影响检索结果的概 念,基本作用是缩小检索范围,提高查准率。 检索式写作 A not B 或 A - B
表达意义 数据库中凡有检索词A而不含检索 词B的记录才为命中记录。
注意:
布尔逻辑检索算式优先执行顺序通常是 NOT、AND、OR,在有括号的情况下,先执 行括号内的运算,在多层括号时,先执行 最内层括号的运算。 布尔逻辑检索比较容易掌握,但使用不 当会造成大量误检和漏检,尤其是非运算 符的运用应特别小心。
表达意义 数据库中凡有检索词A或者B,或 同时有A和B的记录均为命中记录。
(2)逻辑“与” “and”、“*”或 “×”
“与”用于概念交叉和限定关系的组配。可 以缩小检索范围,减少命中文献量,提高查准率。 检索式写作 A and B 、 A * B 或A ×B
表达意义 数据库中同时有检索词A和B的记 录才为命中记录。