第一讲 计算机信息检索原
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三. 计算机信息检索的基本方法
步骤之二:分析提取课题概念 步骤之二: 方法
提取主要概念,区分出辅助概念、禁用词 提取主要概念,区分出辅助概念、 主要概念(也称核心概念):课题研究的主要对象, ):课题研究的主要对象 主要概念(也称核心概念):课题研究的主要对象,包 括课题归属的专业名称,课题涉及的具体原理、 括课题归属的专业名称,课题涉及的具体原理、研究方 材料工艺、应用领域等。 法、材料工艺、应用领域等。 辅助概念(也称普通概念):没有专业意义的概念。 ):没有专业意义的概念 辅助概念(也称普通概念):没有专业意义的概念。 禁用词:没有检索意义、检索过程中一般不使用的词。 禁用词:没有检索意义、检索过程中一般不使用的词。 包括:介词、冠词、连词等虚词, 包括:介词、冠词、连词等虚词,也包括没有事物含义 的普通名词、代词、动词和形容词。 的普通名词、代词、动词和形容词。
信息检索概念
p.19
信息检索概念
一个匹配( Match)过程 一个匹配( Match)过程
信息检索概念信息检索概念-类型
按检索方式分: 按检索方式分:
手工检索:以手工操作方式,利用检索工具书进行 手工检索:以手工操作方式, 检索。 检索。 机器检索:以机械、机电、或电子化的方式, 机器检索:以机械、机电、或电子化的方式,利用 检索系统进行检索。主要指计算机信息检索。 检索系统进行检索。主要指计算机信息检索。
信息检索概念
信息检索( 信息检索(Information Retrivel)定义 从任何信息集合中查找所需信息的活 过程与方法。 动、过程与方法。
信息检索概念
从狭义来讲,是指利用检索工具查找 查找文献的 从狭义来讲,是指利用检索工具查找文献的 过程 从广义来讲,信息检索全程应包括信息存贮 从广义来讲,信息检索全程应包括信息存贮 检索两方面的含义 两方面的含义。 与检索两方面的含义。 存贮( storing) 存贮(information storing)是将信息按 一定的方式有序的组织起来 retrieval)是根据用户 检索 (information retrieval)是根据用户 特定的需求将相关信息准确的提取出来。 特定的需求将相关信息准确的提取出来。
处理
三. 计算机信息检索的基本方法
关键词语言:概念扩展的三种方法: 扩展的三种方法 关键词语言:概念扩展的三种方法: 基于同一概念的扩展法 基于内容分析的扩展法 基于检索结果的扩展法 概念的处理方法:截词法 概念的处理方法:
三. 计算机信息检索的基本方法
概念扩展法之一:基于同一概念的扩展法 同一概念的扩展法 概念扩展法之一:基于同一概念
加工深度 一次文献 全文型(中刊网、Elsevier等) 全文型(中刊网、Elsevier等 (iPac、期刊目录等) 二次文献 目录型 (iPac、期刊目录等) (SKBK等 题录型 (SKBK等) 文摘型(Compendex等 文摘型(Compendex等) 三次文献 网络在线词典等工具书
二. 文献信息数据库原理 —数据库类型
Fra Baidu bibliotek
二. 文献信息数据库原理
记录—某一实体全部属性的描述, 文档的基本 记录—某一实体全部属性的描述,是文档的基本 全部属性的描述 单元。全文数据库: 单元。全文数据库:一条记录对应一篇全文 书目数据库: 书目数据库:一条记录对应一条文摘或题录 字段—某一实体的具体属性的描述, 记录的基 具体属性的描述 字段—某一实体的具体属性的描述,是记录的基 本单元。与文献内容相关:基本字段 本单元。与文献内容相关:基本字段 与文献内容无关:辅助字段 与文献内容无关:辅助字段
三. 计算机信息检索的基本方法
共六个步骤: 共六个步骤:
明确检索要求和检索目标 课题概念分析方法 检索词的扩展、 检索词的扩展、选择和处理 数据库的选择 检索策略构成和调整方法 输出格式和方式的选择
三. 计算机信息检索的基本方法
步骤之一: 明确检索要求和目标 步骤之一: 检索要求:学科、文献类型及语种、年代、 检索要求:学科、文献类型及语种、年代、篇 数和检索费用 检索类型:特定文献检索、 检索类型:特定文献检索、相关文献检索 检索目标: 检索目标: 解决技术疑难—需较高查准率; 解决技术疑难—需较高查准率; 开题调研、成果查新—需较高查全率; 开题调研、成果查新—需较高查全率; 探索性— 探索性—查准率和查全率不一定很高要求 本例:十年之内, 本例:十年之内,外语相关文献
二. 文献信息数据库原理
基本字段名称: 基本字段名称: 文摘( 文摘(Abstracts)
文章题目( 文章题目(Article Title) 作者关键词( 作者关键词(Author Key Words)
二. 文献信息数据库原理
辅助字段名称: 辅助字段名称: 作者 (Authors) 作者机构 期刊名称( 期刊名称(Journal Title) 国际标准连续出版物号( 国际标准连续出版物号(ISSN)等。
三. 计算机信息检索的基本方法
概念扩展法之一:基于同一概念的扩展法 同一概念的扩展法 概念扩展法之一:基于同一概念
(3)同一事物名称的反义词 污水处理与水净化 光洁度与粗糙度 (4)同一事物名词的单复数、不同词性、英美语的不 同一事物名词的单复数、不同词性、 同形式 单数 复数 名词 动词 computer computers composition composite 英拼 美拼 colour color fibre fiber
科技文献检索与利用
江苏科技大学图书馆 丁 毅 dingyehn@163.com Tel:4401104(办) Tel:4401104(办)
课时安排(16课时) 课时安排(16课时)
概论 第一讲计算机信息检索原理,因特网的检索 第二讲中文数据库检索 第三讲 外文数据库检索 实习 实习 第四讲 专利、标准检索 实习 考查形式:作业+ 考查形式:作业+ 考勤
联机检索(online search)(20世纪50年代 联机检索(online search)(20世纪50年代) 世纪50年代) 脱机检索( search)(60年代末70年代初 )(60年代末70年代初) 脱机检索(offline search)(60年代末70年代初) 光盘检索( search)(80年代 )(80年代) 光盘检索(CD search)(80年代) 网络检索( search)(90年代 )(90年代) 网络检索(Internet/Web search)(90年代) 全球数字图书馆系统(digital global system)(21 全球数字图书馆系统( system)( )(21 世纪) 世纪)
三. 计算机信息检索的基本方法
例1:关于机床模具的CAD设计 关于机床模具的CAD设计 主要概念:机床( 主要概念:机床(machine 模具(mould 模具(mould ) CAD 辅助概念: 辅助概念:设计 禁用词:关于, 禁用词:关于,的 聚丙烯的合成 例2:聚丙烯的合成 主要概念: 主要概念:聚丙烯 辅助概念: 辅助概念:合成 禁用词: 禁用词:的
二. 文献信息数据库原理
p.19
二. 文献信息数据库原理
机检原理: 机检原理: 输入检索提问标识 输入检索提问标识 倒排文档 与数据库标引标识进行比较匹配 文档( 标引标识进行比较匹配, →倒排文档(与数据库标引标识进行比较匹配, 给出记录篇数 记录篇数) 给出记录篇数) 顺排文档 根据记录号读取) 文档( →顺排文档(根据记录号读取) →输出结果 。 (结果不理想时要进一步修改检索提问标识) 结果不理想时要进一步修改检索提问标识)
三. 计算机信息检索的基本方法
关键词语语言: 关键词语语言:汉语语词的切分方法 把表达的短语, 把表达的短语,去掉其中的虚词和泛指的词 语,然后按照概念单元分成不能再拆分的词 语。 数字光纤通信,应拆分成“数字” 如:数字光纤通信,应拆分成“数字”、 光纤” 通信” “光纤”、“通信” 三个概念 不能拆分成“数字通信” 光纤通信” 不能拆分成“数字通信”、“光纤通信”
第一讲. 第一讲.计算机信息检索原 理
一.要点: 要点:
文献检索的定义、 文献检索的定义、原理 文献信息数据库原理 计算机检索的步骤: 计算机检索的步骤: 主要概念的提取方法; 主要概念的提取方法; 检索概念的扩展方法; 检索概念的扩展方法; 截词、逻辑算符、位置算符、 截词、逻辑算符、位置算符、字段限定和优 先算符; 先算符; 检索策略调整的基本方法; 检索策略调整的基本方法;
二.文献信息数据库原理
数据库的定义和类型 数据库的构成 文献信息数据库的检索原理
二.文献信息数据库原理
数据库的定义: 数据库的定义:
至少由一种文档 (file)组成 组成, (file)组成,能满 足特定目的或特定 功能数据处理系统 需要的数据集合。 需要的数据集合。
二. 文献信息数据库原理
类型: 类型: 信息内容 文字型(大多数) 文字型(大多数) 数值型 多媒体
顺排文档示意图
记录号 辅助字段
基本字段
记录4 记录
记录6 记录
倒排文档示意图
作者倒排文档: 作者倒排文档: 作者姓名 记录号 1 陈春秀 3 陈东方 3 程文娟 5 黄茂 6 秦大河 6 秦翔 2 吴元康 4 肖中新
数据库(文档) 数据库(文档) / \ 顺排文档 倒排文档 顺排文档 倒排文档(若干) / / | \ 记录的集合 期刊名称等倒排文档 记录的集合 主题词 作者 期刊名称等倒排文档… | 字段 给出特征标识 记录数 / \ 基本字段 辅助字段 基本字段 辅助字段
tool)
三. 计算机信息检索的基本方法
例3:农用拖拉机的研制与开发 主要概念: 主要概念:农用拖拉机
辅助概念:研制 开发 辅助概念: 禁用词:的 与 禁用词:
例4:高性能激光放大器
主要概念:激光 主要概念: 放大器 辅助概念:高性能 辅助概念:
三. 计算机信息检索的基本方法
步骤之三: 检索词的扩展、 步骤之三: 检索词的扩展、选择和
(1)同一事物的学名、俗名、商品名 同一事物的学名、俗名、 学名 俗名 商品名 NaCl 盐 PC 计算机 电脑 硅油 聚二甲基硅氧烷 乙醇 酒精
三. 计算机信息检索的基本方法
概念扩展法之一:基于同一概念的扩展法 同一概念的扩展法 概念扩展法之一:基于同一概念
(2)同一事物的简称、全称、音译和意译 同一事物的简称、全称、 简称 全称 音译 意译 www world wide web CAD computer aided design internet 因特网 互联网 motor 马达 电动机 laser 激光器 镭射
二次文献(定义同印刷型检索工具) 二次文献(定义同印刷型检索工具) 目录:一批相关文献信息的著录集合, 目录:一批相关文献信息的著录集合,它以报道文 出版或收藏信息为主要功能的工具 为主要功能的工具。 献出版或收藏信息为主要功能的工具。 题录:将图书、报刊等文献中论文的篇目 篇目按照一定 题录:将图书、报刊等文献中论文的篇目按照一定 的排检方法编排而成的,供人们查找篇目出 的排检方法编排而成的,供人们查找篇目出 的工具。 处的工具。 文摘:以精练的语言把文献信息的重要内容 内容、 文摘:以精练的语言把文献信息的重要内容、学术 观点、数据及结构准确地摘录下来 准确地摘录下来, 观点、数据及结构准确地摘录下来,并按一 定的著录规则与排列方式编排起来, 定的著录规则与排列方式编排起来,供读者 查阅使用的一种检索工具。 查阅使用的一种检索工具。
目录型数据库
揭示文献 外部信息: 外部信息: 封面信息、 封面信息、 馆藏信息
题录数据库
来源出处
文摘型数据库
篇名
摘要
来源出处
二. 文献信息数据库原理
数据库的构成
由“文档—记录—字段”三个层次构成 文档—记录—字段”
文档:一般地说, 文档:一般地说,一个数据库至少包
括一个顺排文档和一个倒排文档 括一个顺排文档和一个倒排文档。 顺排文档和一个倒排文档。 顺排文档:记录(记录号大小排列) 顺排文档:记录(记录号大小排列)的 集合。 内容无序性,无法直接检索。 集合。 内容无序性,无法直接检索。 倒排文档:记录的特征标识(作者、期刊名称等) 倒排文档:记录的特征标识(作者、期刊名称等) 排序, 排序,其后列出含有此标识的记录号 提高检索效率。 提高检索效率。