4-信息检索基础
信息检索知识点
信息检索知识点 Revised by Liu Jing on January 12, 2021信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
第一讲 信息检索 PPT课件
第一节 信息 知识 情报 文献
2.知识 知识是人类认识的成果或结晶,是系
统化信息的集合. 知识的属性:
意识性 信息性 实践性 规律性 继承性 渗透性
第一节 信息 知识 情报 文献
3.文献 知识借助于一定的语言形式或物化为某
种劳动产品的形式,就成为可以交流的 文献。 文献的三要素:知识、载体、纪录方式。 文献的属性:知识信息性、客观物质性、 人工纪录性、动态发展性等。 文字形式的文献变成数据形式即称之 为电子文献。
信息的重要性(二)
从知识层面上理解
知识经济建立在知识 材料、 消耗 不可 不可 利用与创新的基础上, 能源 性 共享 再生 知识创新需要大量的
信息做原料。
信息与材料、能源 被称为当今社会的三 大资源
信息
非消 耗性
可共 享
可再 生
二、信息意识和信息素质
信息意识:是人们对各种信息的自觉 心理反应。
第一节 信息 知识 情报 文献
4.情报 在英汉词典中,“information”可译
为“信息”,也可译为“情报”. 情报:人们在一定的时间内为了一定
的目的而传递的有使用价值的知识. 情报的属性:知识性、传递性、效用性。 情报交流:直接交流和间接交流
第一节 信息 知识 情报 文献
信息的重要性 从情报的层面上理解 1.信息决定战争的胜负 2.信息决定企业的兴衰 3.信息是领导决策的依据。
二、文献的出版类型
按出版类型文献划分以下十大类:
(1)图书 (2)期刊(3)会议文献 (4)科技报告 (5)专利文献 (6)学位论文(7)标准文献 (8)政府出版物(9)产品资料 (10)技术档案
二、文献的出版类型
1.科技图书(Sci-Tech book) 阅读类:科普读物、专著、文集等 工具类:百科全书、年鉴、手册、词典等。
第4章 信息检索技术
如:?经济 则数据库中含有经济、工业经济、农业经济 等方面的文献均为命中文献。
3、中截断 (通用字符法或屏蔽)
是把截断符号置于一个检索词的中间,对词中 间出现变化的字符数加以限定。一般中截断仅允许 有限截断。
应用:用于英美单词的不同拼写方式或单复数的 特殊变化。
例如: defence defense
作用:扩大检索范围,增加命中文献量;提高检 索结果的查全率。3、逻辑“非”———————————————A
逻辑运算符: 逻辑表达式为: B
“not”或“-” A not B 或 A-B
其含义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
例如,在EI COMPENDEX(1998)文档中 检索提问式 SS PATENT NOT GERMAN 所得结果为: S1 S2 S3 110 325 108 PATENT GERMAN PATENT NOT GERMAN
1. 后截断 将截词符号放在一个字符串的右方,满足截词符左 方所有字符的记录都为命中记录。 无限截断:是在检索词词干后面加一个截词符,表 示不限制词尾可变化的字符位数,即查找词干相同的所有 词。例: comput* 表示允许其后可带有任何字符且数 量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、 computerized、computation、 computations、 computational、 computationally 等词。
主题字段 (基本字段)
标题、叙词、关键词、文摘、 分类号等
字段 非主题字段 (辅助字段)
作者、作者工作单位、连续 出版物编号、使用语言、出版 者等
网络信息资源检索4
第四章 Internet信息检索 1 2 3 4 网络信息检索的一般方法 网络信息检索工具 相关网络信息检索技术 搜索引擎及其原理
1 网络信息检索的一般方法
1.1 浏览
1.2 通过网络资源指南来查找信息 1.3 利用搜索引擎进行信息检索
1.1 浏览
(1)偶然发现。
这是在因特网上发现、检索信息的原始方法。
等功能。
2 网络信息检索工具
网络信息检索工具是指在因特网上提 供信息检索服务的计算机系统,其检索的 对象是存在于因特网信息空间中各种类型 的网络信息资源。
近来具一般是由自动索引程序、 数据库和检索代理软件组成的。
自动索引程序
即在日常的网络阅读、漫游过程中,意外发现一些
有用信息。这种方式的目的性不是很强,其不可预 见性、偶然性使检索过程具有某种探索宝藏的意味, 也许会充满乐趣,但也可能一无所获。
(2)顺“链”而行。
指用户在阅读超文本文档时,利用文档中的链接从一网
页转向另一相关网页。有些类似于传统文献检索中的“追溯 检索”,即根据文献后所附的参考文献目录去追溯相关文献, 一轮一轮地不断扩大检索范围。这种方式可以在很短的时间 内获得大量相关信息,但也有可能在“顺链而行”中偏离了
3、提供检索服务 用户输入关键词进行检索,搜索引擎从 索引数据库中找到匹配该关键词的网页;为 了用户便于判断,除了网页标题和URL外, 还会提供一段来自网页的摘要以及其他信息。
3信息需求及其表达4信息检索基础
中国图书馆分类法的体系结构
大类( 22 个):
A 马克思主义、列宁主义、 毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济
一个字母表示一个大类,称为一级类目
O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医学、卫生 S 农业科学 T 工业技术 TH 机械、仪表工业 TM 电子技术 TN 无线电电子学、电 讯技术 TP 自动化技术、 计算技术 TQ 化学工业 TS 轻工业、手工 业
结论:做科研、发明之前,应利用信息检索来避免重复的研究,从而少走弯 路。
2. 检索语言
2.1 定义
检索语言是文献信息存储和检索过程中共同使用
的一种专门语言,用于描述检索系统信息的内部及外
部特征和表达用户信息需求,是编制检索工具的依据。
2.2 类型——按照描述文献的基本特征划分
不同的检索语言构成不同的标目及索引系统,提供各种检索点(即检索途径)
查阅文献 计划思考 实验研究 书写报告
计划思考 15%
科 研 人 员 时 间 分 配 表
1.5 信息检索的意义
提高信息查询的效率
全世界每年出版的图书有80万种以上,科技期刊8万种以
上,发表期刊论文大于600万篇以上;公开的专利说明书100多
万件;国际会议文献1万多件;美、英、德、日等国产生的科 技报告达20万件左右。 具备一定的信息检索能力,才能在浩如烟海的文献中,快 速、有效地查找出有用的信息。
明确的因素:一个月内 不明确的因素:外观、用途、厂商品牌; 不十分明确的因素:①价格在15万元左右多大幅度(是10万-20万, 还是14万-16万);②较高的性价比是指在一定价格前提下哪些主要部 件的技术含量及其指标。
第4章 国内常用信息检索工具(系统)
4.1 文献检索-全国报刊索引
《全国报刊索引》:由上海图书馆编辑出版, 一种题录类综合性的检索工具,月刊分为:哲 学社会科学版和自然科学版两种。目前提供网 络版检索 《全国报刊索引》综合数据库从1993年开始编 辑发行 为了全面报道国内中文报刊资源,2004年起推 出了《全国报刊索引数据库-目次库》,收录 各类报刊近万种,几乎包括了国内(包括港台 地区)所有的中文报刊资源
4.2 常用系统-中文常用系统简介
这里主要介绍的是综合性检索系统
中国知网 万方数据 维普期刊 国家科技图书文献中心(外刊、外文资源)
4.2 常用系统-中国知网简介
中国知网:由清华大学、清华同方发起,始建于 1999年4月。以实现全社会知识资源传播共享与增 值利用为目标 /index.htm 经过十几年的发展,中国知网已经成为目前中国常 用的检索系统平台 它的检索功能与界面也几经更新,目前最新的知识 发现网络平台(简称KDN) /help/AssistDocument/KDN/ht ml/main.htm 知网概览:资源、导航、数字化学习研究以及个人 /机构图书馆
目前年鉴总计2000种
按行业分成二十一类行业,同时按照地方年
鉴按照区域分成34个省和区域 1949年至今 提供年鉴整刊导航
4.2 常用系统-中国知网工具书及知识元检索
除了上述常见文献及年鉴的数据库,知网还
提供工具书及知识元的检索。
4.2 常用系统-中国知网概念知识元检索
4.2 常用系统-中国知网其他服务
新版知网提供更多服务,例如数字图书馆系
4.1 文献检索-人大报刊复印资料
第四章网络信息检索
搜索引擎检索技巧 • 简单检索 • 双引号(“”)检索
• 加号(+)检索:强调某个词汇必须出现在搜
•
• • • • • •
索结果中。 减号(-)检索:强调某个词汇必须不出现在 搜索结果中。
括号()检索: 空格检索 通配符(*?)检索: 区分大小写检索 布尔逻辑检索 元词检索
(四)常用中文搜索引擎及特点
(二)网络信息检索的一般方法 • 浏览 • 通过网络资源指南查找信息 • 利用网络信息检索工具查找信息:Web 网检 索工具---搜索引擎。 将位于全世界不同地点的相关信息资源 有机地编织在一起,用户通过internet 调来 所希望得到的所有文本、图像、影视和声 音等信息。
(三) www搜索引擎
1996年2月提供服务的台湾蕃薯藤搜索引擎, 标志着中文搜索引擎的正式开始。之后哇 塞、奇摩、悠游等一批中文搜索引擎在港 台相继出现;在中国内地,继四通利方公 司(新浪网前身)开发出了国内最早的中 文搜索引擎Richsurf后,网易、搜索客、常中文搜索引擎:
定义: • 广义上的搜索引擎指基于因特网提供信息管理、 查询、检索等服务的工具、系统与网站。 • 狭义上的搜索引擎指利用ROBOT软件对因特网上 的见面或网站信息资源进行自动搜索服务而专门 设计的一种检索服务软件。 • 常用较为严谨的搜索引擎定义:?
2 搜索引擎的类型
按照信息搜集方法和服务提供方式的不同,搜索引 擎可以分为三大类: (1)目录式搜索引擎:早期的搜索引擎是把因特网 中的资源服务器的地址收集起来,由其提供的资 源的类型不同分成不同的目录,再一层层地进行 分类。信息大多面向网站,提供目录浏览服务和 直接检索服务。优点:信息准确、导航质量高; 缺点:需要人工介入,维护量大,信息量少,信 息更新不及时。代表: Yaho用语法规则)
第四章 信息检索模型
向量空间模型
➢ 向量空间模型(Vector Space Model,VSM) 是由G·Salton等人在1958年提出的
➢ 代表系统
SMART( System for the Manipulation and Retrieval of Text)
➢ 这一系统理论框架到现在仍然是信息检索 技术研究的基础
D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利,文档di通常由
从文档中抽取的能够表达文档内容的特征项(如索引 项/检索词/关键词)来表示 设K={k1, k2 , … , kn} 为系统索引项集合 则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性(权值weight)
相当于识别包含了一个某个特定term的文档
➢ 经过某种训练的用户可以容易地写出布尔查询 式
➢ 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
➢ 布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 非常刚性: “与”意味着全部; “或”意味着任何一 个
模型中的问题
➢ 怎样确定文档中哪些词是重要的词?(索 引项)
➢ 怎样确定一个词在某个文档中或在整个文 档集中的重要程度?(权重)
➢ 怎样确定一个文档和一个查询式之间的相 似度?
索引项的选择
➢ 若干独立的词项被选作索引项(index keys) or 词表 vocabulary
➢ 索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪些呢?
例如:文档的统计特性 ➢ 用户规定一个词项(key)集合,可以给每个词项附加权重
信息检索
1.什么是信息检索?从广义的角度讲,信息检索包含信息存储和信息获取两个过程。
信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程。
获取是存储的逆过程,其实质是根据特定的需求,运用以组织好的检索系统,将特定的信息查找出来。
存储是获取的前提和基础,没有存储就没有获取,而获取是存储的目的,二者密切联系,互相依存,缺一不可。
狭义的信息检索是指广义的信息检索的后一个过程,即信息获取的过程,相当于人们所说的信息查检等。
具体来说,狭义的信息检索指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程。
2.信息检索效果的评价指标有哪些?(1)检索效果有效性评价,即检索技术效果的评价,是对检索系统满足检索要求的有效程度的评价,主要以查全率和查准率为评价标准。
(2)检索系统使用的评价,包括系统对用户是否需要,是否实用有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法。
(3)检索费用——效率评价,即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。
评价信息检索效果的指标主要有6个:收录范围、查全率、查准率、响应时间、用户负担和输出形式。
附:查全率=【检出相关文献信息量/检索系统中相关文献信息总量】*100%=(a/a+c)*100%查准率=【检出相关文献信息量/检出文献信息总量】*100%=(a/a+b)*100%漏检率=【漏检相关文献信息量/检索系统中相关文献信息总量】*100%=(c/a+c)*100%误检率=【误检文献信息量/检出文献信息总量】*100%=(b/a+b)*100% 3.什么是检索语言?检索语言的实质是用于表达一系列概括文献信息内容的概念及其相互关系的概念标识系统。
它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征的一套代码(如化合物的各种代码),用于对文献内容进行主题标引、特征描述或逻辑分类。
信息检索
1、信息类型:(加工程度分)一、二、三、高次信息2、构成文献的四个基本要素:(1)构成文献内核的知识信息(决定文献内容);(2)负载知识信息的物质载体(决定文献形态);记录知识信息的符号系统;记载知识信息的记录方式(构成文献手段)3、信息、知识、文献三者关系:(1)信息是生产知识的原料(2)知识是被人类系统化后的信息(3)文献是存储、传递知识信息的载体4、具有信息素质的人应具备的能力:运用信息工具;获取信息;处理信息;生成信息;创造信息;信息增效;信息协作;信息免疫。
5、文献种类:按加工层次分:一、二、三次文献。
【按出版类型】图书,期刊,会议文献,专利文献,科技报告,学位论文,技术档案,产品资料,标准文献,政府出版物。
6、一次文献:以作者本人的生产与科研工作成果为依据而撰写的、并以公开发行进入社会流通使用的原始文献。
图书,报刊(青年文摘)二次文献:(检索性文献)无新知识产生,由一次文献形成各种目录、索引和文摘。
有汇集性,检索性的特点三次文献:(参考性文献)有新知识产生,词典、手册、百科全书、年鉴、各种教科书及综述等。
7、信息检索的基本方式:传统、现代信息检索||信息检索全称“信息的存储与检索”8、检索工具:【按用途分】指示型,参考型;【按编著方式】目录型;题录型;文摘型(按压缩程度分:指示性,报道性,评述性文摘);索引型9、手工检索工具包括5部分:(1)编辑说明与使用范例(2)分类表与主题词表(3)正文部分(4)索引部分(5)附录部分10、检索语言特点:人工语言;唯一性11、检索语言的构成:词汇和语法12、检索语言的分类:按描述文献的内外部特征分为【外部】名称语言;代码语言。
【内部】分类语言;主体语言(标题词语言,叙词法、单元词、关键词语言)。
13、分类语言特点:(1)分类语言体现了学科的系统性,便于从学科门类出发,进行族性检索,查全一门学科中各种事物的所有分类(2)体系分类法将概念逐级划分,具有等级结构,便于扩大与缩小检索范围(3)分类法不宜经常修订,列举在分类表中的类目不能随时改变,因而分类法不能及时反映新的科学技术(4)体系分类法用分类号作为检索标识,不能直接表达概念,不熟悉分类法,转换时可能发生误差,用分类号则不受限制(5)分类法是按直线或序列编制类目,遇到跨学科课题时,与课题相关的文献只能标引在一门学科的类目之下,索引时可能漏检。
信息检索课件第4章
将单词转化为其词干形式,以匹配更多的相关文档。
常见的信息检索算法
1
TF-IDF
基于词频和文档频率计算匹配的相关程度。
2
PageRank
评估网页的重要性,通过链接分析产生排名。
3
BM25
改进的TF-IDF,解决了词频过度调整的问题。
布尔检索模型及其优缺点
优点
• 简单 • 可靠 • 易于理解
PageRank
通过网页之间的链接关系来确 定网页的重要性和排名。
HITS
通过分析网页的链接和内容, 确定网页和链接的权重和重要 性。
BM25F
结合文档的内容和链接关系, 综合计算关键词匹配的重要性 和文档的相关性。
搜索引擎的优化技巧
1 关键词研究
2 网页结构优化
3 用户体验优化
依据用户需求和搜索习惯, 调整关键词的数量和选择, 提高匹配准确性和页面排 名。
信息检索系统的组成
服务器端
负责索引存储的数据和响应用户请求。
客户端
提供用户接口,用于输入查询、展现搜索结果和相 应操作。
数据存储
存储检索所需的数据,包括文本、图像和视频等。
信息检索中的数据预处理
1 分词
将文档和查询分成单独的词或短语,提高匹配的召回率。
2 去除停用词
去除出现频率高但信息含量低的词,例如“a”和“the”等。
调整页面结构和元素标记, 提高网页质量和展现效果, 提高页面自然排名。
提高页面响应速度,提供 简洁明了的内容和导航, 提高用户留存率和转化率。
信息检索中的未来发展趋势与关键技术
未来发展趋势
人工智能和自然语言处理将推动信息检索领域的快 速发展。
计算机信息检索
2022/9/5
第4章 计算机信息检索
15
常见辅 助 字 段
段码名称 英文段码全称
作者
Author
作者单位 Author Affiliation
期刊名称 Serials Title
语种
Language
英文段码简称
AU AF ST LA
2022/9/5
第4章 计算机信息检索
16
3.2.4 文献信息数据库-检索原理
2022/9/5
第4章 计算机信息检索
4
机检与手检的比较
计算机情报检索的优点在于速度快,耗时少,查 阅范围广,查到的信息新, 专指性强。计算机检索 适用于最近20年内文献以及动态性信息的检索。
计算机情报检索的缺点是追溯时间有一定限制, 检索费用比较昂贵。
手工检索的优点是检索时间和检索范围都不受限 制,且费用低廉。手工检索尤其适用于学术性和 文科文献的检索。
文献.
概念分析:硬件 软件 逻辑关系:相互排斥关系
检索策略:硬件不包含 软件
hardware NOT software
2022/9/5
第4章 计算机信息检索
26
3.3.1 检 索 技 术
2 、优先算符:括号()
计算机优先执行括号内的检索式; A OR B (检索结果即集合号为S1) C OR D (检索结果即集合号为S2) S1 AND S2
2
计算机信息检索的定义
计算机信息检索,简称机检,是
指利用计算机查找文献信息的 过程。
2022/9/5
第4章 计算机信息检索
3
计算机信息检索的发展历史
四个主要的发展阶段 第一阶段:50年~ 电子管 第二阶段:65年~ IC,联机检索 第三阶段:85年~ DOS,光盘网络 第四阶段:93年~ WINDOW,互联网
第二讲:信息检索基础知识与技巧
图形表示:
5各种不同的运算符 5.1布尔逻辑运算符
①逻辑与 常用表示符号: AND 或 * 含义:检出文献中必须同时包含被其连接的所 有词或词组。 作用:缩小检索范围,减少命中文献量,提高 检索结果的查准率。
5 各种不同的运算符 5.1布尔逻辑运算符
逻辑“与”应用举例
查找干旱对水稻基因表达影响方面的文章: 干旱AND 水稻AND 基因表达
O
P Q R S
数理科学和化学
天文学、地球科学 生物科学 医药、卫生 农业科学
G H I J K
T U V X Z
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
语言、文字 文学 艺术 历史、地理
《中图法》结构示意图
大多数图书馆的索书号由中图法的分类号和著者号两部分 构成。索书号是确定一本图书所在架位的依据。了解了索 书号,就能准确迅速地找到自己需要的图书。
5 各种不同的运算符 5.2 截词符
② 前截断 又称左截断,截词符放在被截词的左边。例如 输入*magnetic,可检索出: electro-magnetic, electromagnetic等。
5 各种不同的运算符 5.2 截词符
③ 中间截断 在检索词中间嵌入截断符号,允许检索词中间 有若干形式的变化。主要解决一些英美拼写不 同,单复数形式不同的词的输入。 如:输入wom *n 可检出: woman、women 输入defen * e 可检出: defence、defense
5 各种不同的运算符 5.1布尔逻辑运算符
优先处理算符() 在实际检索中,有时要调整逻辑运算符的运算 顺序,使某些算符优先进行逻辑匹配。用() 表示,它不是布尔逻辑算符,但常与布尔逻辑 运算符搭配使用。 用法:优先对()内的算符进行逻辑运算。
信息检索
信息检索1.信息检索的概念。
狭义信息检索是指用户找出有关信息的过程。
广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
2. 信息检索的类型(1)按照检索对象的不同划分早期分为:文献检索、事实检索、数据检索。
当前三分方法:文本检索、音频与视频检索、数值检索。
(2)按检索手段划分:手工检索、机器检索3.简述信息检索的基本原理信息检索的基本原理:对信息集合与需求集合的匹配与选择。
实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。
一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。
二、需求集合:用户的信息需求是在社会实践活动中产生的。
当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。
三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。
5.信息检索领域的主要研究问题有哪些?⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等⑶信息资源及其收集、加工:信息存储、数据库⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。
信息检索的两种研究方式:以计算机为中心和以用户为中心,以计算机为中心的IR问题是主流。
新第二章 信息检索基础知识
2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索
第四章 计算机信息检索
三.数据库
1.数据库的概念 数据库是按一定要求存贮在计算机中的相互关 联的数据集合。 数据库的发展是随着文献信息自动化管理的发 展而发展的。当今社会,随着信息量的剧增和计 算机的广泛应用以及人们对文献信息的迫切需求, 电子文献资源的产生与发展就成为必然。而数据 库建设是文献信息自动化管理的基础和核心,是 建立信息网络不可缺少的信息资源,是资源共享 的物质基础,是方便有效地为社会提供信息的重 要渠道。 因此,数据库的飞速发展是信息社会发展的 必然结果。
计算机信息检索
刘 锋
本课内容 一、计算机信息检索的基本知识 二、计算机信息检索系统的构成 三、计算机信息检索原理与技术 四、计算机信息检索策略 五、我校图书馆电子资源概况
一、计算机信息检索的基本知识
1.计算机检索的概念 计算机检索是指工作人员在电子计算 机或计算机检索网络的终端机上,使用特 定的检索指令或检索逻辑关系,由计算机 从数据库中检索出数据或文献的过程。 优势: 提高查全率、查准率,数据资源较全 面丰富,检索功能强,检索质量高,资源共 享 ,内容更新快,服务方式灵活方便。
一、布尔逻辑检索 二、截词检索 三、原文检索 四、加权检索和聚类检索 五、限制检索
六、区分大小写检索 七、短语检索(精确检索) 九、模糊检索 十、概念检索 十、相关检索
1、布尔逻辑检索
布尔逻辑是表达不同概念之间关系的符号逻辑 系统。 利用布尔逻辑运算符进行检索词或代码的逻辑 组配,是现代信息检索系统中最常用的一种方 法。 常用的布尔逻辑算符有三种,分别是逻辑或 “OR‖、逻辑与“AND‖、逻辑非“NOT‖。 用这些逻辑算符将检索词组配构成检索提问式, 计算机将根据提问式与系统中的记录进行匹配, 当两者相符时则命中,并自动输出该文献记录。
第四章计算机信息检索
逻辑与(and、*、空格等)
solar and energy solar * energy
逻辑或(or、+、| )
solar or energy solar + energy
逻辑非(not、-、^、!)
solar not energy solar - energy
例如:
1、“城市绿化” 检索式:城市绿化+(城市+北京+天津+上海+… )*
如solar和energy,它们的三种逻辑组 配关系分别为:
1、布尔逻辑检索
它是不同的单一主题概念,通过“布尔” 逻辑算符组配形成多主题概念的检索式。 常用的布尔逻辑算符有4种:逻辑与 (AND、*)、逻辑或(OR、+)、逻 辑非(NOT、-)、异或(XOR,不常 用)。
如solar和energy,它们的三种逻辑组 配关系分别为:
倒排文档
数据库的“索引”即是 它的倒排文档,它是将 著者倒排档 记录中一切可检索的标
倒排文档
主题倒排档 文种倒排档
识抽出,按某种顺序 著者 (如字顺,分类)重新
存取号 主题词 存取号 文种 存取号
排列而形成的文档。如 Han js 010003 基因 010003 China 010002
主题、著者、文种等倒
时间:20世纪50年代-60年代 检索人员→检索策略→成批检索→用户 不足:地理上的障碍;时间上的迟滞;封闭式的
检索
1.脱机检索
是采用单机进行存储和处理信息,回答检索提问 时,采用批处理方式。这种机检方式,人机不能 进行应答,必须由专职人员建立用户提问档,系 统定期进行检索。
时间:20世纪50年代-60年代 检索人员→检索策略→成批检索→用户 不足:地理上的障碍;时间上的迟滞;封闭式的
信息检索知识点
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
否 是否匹配
是
得到检索结果☺
检索过程
检索需求
检索者
主题分析
主题概念
用检索语言对 文献进行描述
检索表达式
(提问标识)
输出结果为零
4.1.2 信息检索系统
信息检索系统的构成 印刷型信息检索系统的类型 计算机信息检索系统
1、信息检索系统的构成
检索文档(file)。检索文档即标有检索标识的信 息集合(information set),如手工检索系统中的 书目、索引和文摘中由文献款目组成的记录、工具 书中的条目或短文组成的主体,计算机检索系统中 的数据库。
字段(field):字段是记录的基本单元,用 于描述事物的某一属性,字段与文献记录中的 著录项相对应。下成是常见的字段名称和代码 表。
目录的著录对象一般是整本书或整种刊物。 《全国总书目》揭示每年国内图书出版情况, 每个图书馆的OPAC(联机公共目录)揭示该馆的管藏 联合目录揭示许多家图书馆出版物收藏情况。
•目录著录格式示例
文献检索与信息素养教育/秦殿启编 著.——南京:南京大学出版社, 2008.8 258页;16厘米 ISBN 978-7-305-05393-1 I.文… II.秦… III.①情报检索 ② 信息学 IV.G252.7G201
信息检索原理
信息检索过程的实质是将检索提问 标识与存贮在检索工具(系统)中的标 引标识进行比较,两者一致或信息标引 的标识包含着检索提问标识的信息就是 检索命中的信息,这就是信息检索原理。
•检索原理图
文献存储过程
文献
主题分析 主题概念
情报工 作人员
用检索语言对 文献进行描述
文献标识
检索工具(系统)
第四章 信息检索基础
4.1 信息检索的原理、系统和效果评价 4.2 信息检索的基本步骤 4.3 检索语言、标引方法和实例 4.4 数据库检索技术
4.1 信息检索的原理、系统和效果评价
4.1.1 信息检索的原理 4.1.2信息检索的原理
信息检索 信息检索(Information Retrieval),是指将信
•文摘著录格式示例
0900371 具有输出时延的网络控制系统 故障检测 [刊,中]/张捷,薄煜明,胡 维礼//控制工程.——2009,(3).—— 254-256
考虑一类具有长时延的网络控制系统, 假定其传感器到控制器之间存在输出时 延,对其进行故障检测研究。……。参4
•文摘型检索工具的特点与作用
帮助读者克服语言上的障碍,因为在一种检索工具 中,无论原始文献是什么语种,其文摘都被译为统一 的一种语言(一般为英语).
3.计算机信息检索系统
(1)计算机信息检索系统构成 计算机信息检索系统由计算机检索终端、通
信设施、数据库、检索软件及其他应用软件四大 部分构成,其中数据库是检索系统的核心部分。 (2)数据库的定义和构成 定义:根据ISO/DIS 5127号标准,数据库 (database)的定义为:“至少由一种文档组成, 并能满足某一特定目的或某一特定数据处理系统需 要的一种数据集合。”通俗地说,数据库就是在计 算机存贮设备上按一定方式存贮的相互关联的数据 集合,是计算机技术与情报检索技术相结合的产 物,是计算机信息检索的基础。
(2)题录
• 题录的含义
题录是描述文献外部特征的文献条目。文献的 外部特征包括题名、著者、出处、卷期、页码、 时间、文献类型、语种等著录项目。
题录的著录对象一般是单篇文献。
•题录著录格式示例
09000458 统一用户数据库设计及其应 用/解冲锋(北京研究院网络业务部宽 带 业 务 研 究 ) . 何 潇 刘 波 // 信 息 网 络.——2009,(4).——40-42
对文摘的阅读,在一定程度上起到代替原文作 用.科技人员阅读了著录较为详细的文摘之后,大体 上就掌握了原文内容要点,不必再阅读原文了。这一 点,对于那些难索取到原文的“难得文献”尤为重要, 也大大节省了科技人员查找和阅读文献的时间
确定相关性,即帮助读者判断所检索到的文献是否 合乎需要,从而决定原始文献的取舍.
(3)文摘
• 文摘的定义
不仅描述文献的外表特征,而且还揭示文献的内容特征, 是带有摘要内容的、扩展了的题录,它比题录多出文摘正 文(摘要)等。我国国家标准GB 3468-1983; 《检索期刊 编辑总则》说明定义:“除题录部分外还对文献内容作实 质性描述的文献条目称之为文摘”。
文摘是文献原文浓缩后的产物,是忠实于原文内容的简要 记录单元。揭示文献的内容特征,在文摘的编写中不能加 入编写人员的主观见解和任何解释性说明,也不能对原文 作任何修改。
构成:数据库主要由“文档、记录、字段”三个 层次构成。
文档(file):文档,也称文件,在逻辑上是由 大量性质相同的记录组成的集合,它是数据库中 数据组织的基本形式,包括顺排文档和倒排文档。
下面是倒排文档的记录排列示意图:
标识词
记录号
管理
1,3
计算机
1
企业
1,2,3
网络
2,3
……
……
记录(record):记录由若干个字段组成,它是机 器可存取的基本单位,是顺序记录在磁带上供计算 机去读的格式化数据,用于数据资源的交换与共享。 在书目数据库中,一个记录相当于一条文摘或题录。 EBSCO期刊文献书目信息记录示例。
技术设备。技术设备指能贮存信息的技术设备,如 输入装置、储存器、输出装置、通信设备等。
语言工具。语言工具指检索语言、标引规则、输入 和输出标准等。
作用于系统的人。包括信息加工、标引人员、录入 人员、检索人员、系统管理维修人员等。
2、印刷型信息检索系统的类型
•目录的含义
目录是图书、期刊等出版物外表特征的揭示和报道。它 以完整的出版物(如一本书、一种期刊)作为著录的基本 单位,所以也可以说它是按某种顺序编排的文献清单。是 指导阅读和科学管理文献的重要手段。