信息检索原理与方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国分类主题词表
检索词之间的三种关系:
• 等同关系是指叙词与非叙词之间的关系。参照符号是“Y” (用)和“D”(代〕两种。 “Y”用作正式叙伺指引 词;”D”用作非正式叙词指引词。 • 属分关系亦称等级关系,指上位叙词和下位叙词之间的关 系。所用参照符号有“S” (属)、“F”(分)。和“Z” (族)3种。“S”作上位叙词指引符,只在下位叙词下使 用。“F” 作下位叙词指引符,只在上位叙词下使用。 “Z”作族首词指引符,指示族首词。
检索范围,提高查全率,可使用
“+”或“OR”来表示。
• 其检索表达式为:“A or B”或
A
B
“A + B”,即检索记录中含有A
词或者B词中的任何一词即可。
• 例如:“高清晰电视 or HDTV”
“逻辑非”
“NOT”
• 用于从原来的检索范围中排除
不需要的概念,或影响检索结
果的概念。
• 可使用“NOT”或“-”来表示
海外投资
F 间接投资 直接投资 S C 投资* 海外企业
经济扩张
资本输出
检索词之间关系举例
对外投资 D 国际投资 Y (用) 表示从非正式主题词 指引到正式主题词 D (代)表示“Y”的对应参照 F (属)表示主题词的下位词 临床医学 (狭义词) S (分)表示主题词的上位词 Clinical medicine ( 广义词) R4 Z (族)表示主题所属的族首 D临床学 C (参)表示主题词之间的相关 D症状学 关系 。 Z 医药学
T 工业技术
• TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学、金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 动力工程 TL 原子能技术 TM 电工技术 TN 无线电电子学、电讯技术 TP 自动化技术、计算机技术 TP1自动化基础理论 TP2自动化技术及设备 TP3计算技术、计算机技术 TP30一般性问题 TP31计算机软件 TP32一般计算器和计算机 TP33电子数字计算机(不连续作 用电子计算机) TP34电子模拟计算机(连续作用 电子计算机) TP35混合电子计算机 TP36微型计算机 TP37多媒体技术与多媒体计算机 TP38其他计算机 TP39计算机的应用 TP6射流技术(流控技术) TP7遥感技术 TP8远动技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑工程 TV 水利工程
分类语言
• 按学科范畴划分而构成的一种语言体系,它集中反映学科 的系统性、反映它们的相关、从属、派生等关系,从总体 到局部分层、分面展开,形成分类体系。 • 由类目号码及名称作为检索语言,构成分类类目表,如图 书分类表、专利分类表用的都是分类语言。 • 是用分类号来表达各种概念,将各种概念按学科性质进行 分类和系统排列。以科学分类为基础,运用概念划分和概 括的方法,按照知识门类的逻辑次序,从总到分,从简单 到复杂,层层进行概念划分,则产生许多不同等级的类目。 上位类包括下位类的总合,下位类隶属于其上位类,同级 类互不相容,构成一个严格有序的层磊式结构系。
信息检索基本技术
• • • • 逻辑算符 位臵算符 截词符 基本索引字段标识符
逻辑算符
定义:表达检索提问的各概念之间的逻辑关系。
逻辑算符有三种: AND (与)、OR(或)、NOT(非)
三种算符可同时在一个检索式中使用,也可单独使用。
使用逻辑算符时应注意的事项:
①逻辑算符的优先级为:NOT、AND、OR,可用括号来改变优先顺 序。 ②在逻辑组配时,算符的两侧必须各留有一个空格。
LCSH 参照系统符号及意义 • • • • • 非正式标题 USE 标题 (用 ) 标题 UF 非正式标题 (代 ) 下位标题 BT 上位标题 (属) 上位标题 NT 下位标题 (分) 标题 A RT 标题B (参)
文献数据库简介
数据库的定义和类型
数据处理系统所需要的一种数据集合。
一.定义:至少由一种文档组成,并能满足某一特定的目的或某一特定
“逻辑与”
“AND”
• 用于交叉概念或限定关系的组配, 可以缩小检索范围,提高查准率。 可使用“and”或“*”来表示。 • 其检索表达式为:“A and B”或 “A * B”,即检索记录中必须同 时包含A词与B词才算命中。 • 例如:“中国 and 对外贸易”。
A
B
“逻辑或”
“OR”
• 用于并列概念的组配,可以扩大
,其检索表达式为:“A NOT
A
B
B”或“A - B”,即检索记录
中包含A词但不含有B词。
• 例如:“能源 NOT 太阳能”
位置算符 (W)、(N)
(W):W是with的缩写, 表示两个词必须紧挨 着,且词序不可颠倒 ,(W)算符也可用空括 号()代替。 例: solar()energy (nW):表示两个词之间 可插入n个词,且词序 不可颠倒。 例: solar(3w)energy (N):N是near的缩写,表示 两个词之间必须紧挨着, 但词序任意。 例:fiber(N)optic
主题词
一般,一篇文献都是论及某一方面的特定问题的,也就是说, 与论题相关的词出现的频率较大。 • 文献中出现频率最高的词是冠词、介词和连词等,即其本 身没有具体含义的词,如a、an、the、this、that、or、 and、in、on、with等; • 绝大部分词在文献中出现的频率较低;
• 在文献中出现的频率既不高也不低的词,在文献中约3-20 个之间,这些词恰恰是与文献的主题相关度较大的词,我 们称之为文献的主题词或关键词。
S 医学
海外投资
F 间接投资 直接投资 S C 投资* 海外企业
经济扩张
资本输出
Library of Congress Subject Headings 美国国会图书馆主题词表(LCSH)
• 主题词表: computerized industrial control USE industrial computer control Computerized instrumentation UF computerized instruments NT automatic test equipment computerized monitoring computerized spectroscopy computerized tomography BT computer applications TT computer applications RT astronomy computing astrophysics computing biology computing chemical engineering computing
中国图书馆分类法
分五大部22大类:
A 马克思主义、列宁主义、毛泽东思想、 邓小平理论 B 哲学、宗教 C 社会科学总论 D-K 社会科学各学科 N 自然科学总论 O-X 自然科学各学科 Z 综合性图书
中国图书馆分类法
• A 马克思主义、列宁主义、毛 泽东 思想、邓小平理论 • B 哲学、宗教 • C 社会科学总论 • D 政治、法律 • E 军事 • F 经济 • G 文化、科学、教育、体育 • H 语言、文字 • I 文学 • J 艺术 • K 历史、地理 • • • • • • • • • • • N O P Q R S T U V X Z 自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
中图法分类标引实例
分类标引Fra Baidu bibliotek法:
崔文风著 1.心理与人生-发展心理 2.心理与人生-完善心理 3.心理与人生-调节心理 分类号分别为: G78 B848.4 R395.6
教子成长 事事成功 强身治病
教育学 心理学 医学
主题词语言
• 主题词语言包括:关键词语言、单元词语言、标 题词语言、叙词语言等,它们有不同的主题词表。 主题词表达概念本身,在主题词表中通过参照系 统来指示词汇之间的关系。 • 关键词语言:关键词是从文题、文摘或正文中抽 出,具有实质意义,能够代表文献内容主题的名 词术语。关键词可直接用于文献标引。 • 主题词语言:主题词是表达一定概念主题的规范 化的名词术语。主题标引须有专门的主题词表。
• 数据库的构成
(1)文档(file),若干个逻辑记录构成的信息集合成为文档。
(2)记录(record),记录是若干个字段组成的文献单元。 (3)字段(field),是文献著录的基本单元,用来描述文献主题内容相关 的某种属性,是组成记录的数据项。 书目数据库中的字段反映一篇文献的具体特征,如标题字段、著者字 段文献来源字段(又称文献出处)、主题词字段、关键词字段;文摘字段、 语种字段等。每个字段都有己的字段标识符(field tag)以供识别,把记 录划分成字段的另一作用是便于进行字段限定检索。
工欲善其事,必先利其器
——信息检索原理与方法
东北大学图书馆
刘畅
信息检索的基本原理
• 信息检索基本原理的 核心是用户信息需求 与文献信息集合的比 较和选择, 是两者匹 配(match)的过程。
信息的特征
一篇文章、一本书、一份报告等一般都有以 下特征:
• 外表特征:题名、作者、作者工作单位,专利和 科技报告还有专利号或报告号等,这些可以表征 一篇特定文献的特征可以在文献的封面或扉页, 即不打开书本,或不看文献的具体内容就可以确 定一篇文献。 • 内部特征:假如我们深入到文献内容中间,则可 以发现还可用另外两种方法来表征它:主题词和 分类号
分类号
一篇文献还可以按照各种自然科学和社会科 学的分类方法进行归类,如《中国图书馆 分类法》:
K 历史、地理 K2 中国史 K2O 通史 K201 革命史
O 数、理、化 O1 数学 O12 初等数学 O123 初等几何
信息检索语言
• 检索语言是用于描述 检索系统中信息的内 部及外部特征和表达 用户信息提问的一种 专门语言。 • 检索的匹配正是通过 语言的比较匹配来实 现的。
• 相关关系指叙词间除属分关系、等同关系之外的在语义上 有关联的关系。相关关系用符 号“C"(参)表示。建立 此种关系的目的是,引导检索者从其他词汇中寻找可能有 用的词。
检索词之间关系举例
对外投资 D 国际投资 Y (用) 表示从非正式主题词 指引到正式主题词 D (代)表示“Y”的对应参照 F (属)表示主题词的下位词 (狭义词) S (分)表示主题词的上位词 (广义词) Z (族)表示主题所属的族首 C (参)表示主题词之间的相关 关系。
二.数据库类型:
1.文献目录型数据库(bibliographic database). 也称为书目数据库或者目录 数据库,是二次文献数据库,包含文摘数据库、题录数据库、索引数据库、各 国的MARC格式的图书目录。 2.指南数据库(reference databases).也称指示性数据库,其内容是关于某些 机构、人物、出版物、项目、程序、活动对象的简要描述,是指引用户从其他 有关的信息原获取更详细的信息的一类数据库。 3.数值数据库(numeric database).又称数据型数据库,此类数据库存储的均为 数据信息。 4.全文型数据库(full-text database)。是指储存文献全文或者其中主要部分 的一种数据库。
国内外常用的分类法
• 中国图书馆图书分类法(中图法) • 中国科学院图书馆图书分类法(科图法) 该分类法目前主要用于中国科学院图书馆及其所属各科 研单位的图书馆(室)的文献分类。 • 杜威十进制分类法(Decimal Classification)简称为杜威法 该分类法是目前世界上使用最广泛、影响最大的图书分 类法,已用于130多个国家的图书馆,许多分类法均是借鉴于 杜威分类法产生的。 • 美国国会图书馆图书分类法(Library of Congress classification)简称为LC分类法。目前美国大多数图书 馆采用的分类法。 • 国际十进分类法(Universal Decimal Classification)简 称UDC分类法 • 国际专利分类法(International Patent Classification ) 简称 IPC