第3章 信息检索基本理论
第三章 信息检索基本知识
信息论的奠基人 申农在《通信的数学 理论》中把信息定义 为:“信息是用来消 除不确定的东西。”
控制论创始人
维纳在《信息控制论》 一书中指出:“信息是 人与外界相互作用过程 中相互交换的内容和名 称。”
―信息”的定义之所以呈现多样化,主要有三方 面的原因 : 第一,信息本身的复杂性。它是一个多元化、 多层次、多功能的综合物; 第二,信息科学是一门新兴学科,是一门“大” 学科,它有许多分支学科,它的内涵与外延 不很确切,而且随着社会、经济和科学技术 的发展处于不断发展之中; 第三,人们出于不同的研究目的或使用目的, 从不同的角度或层次出发,对“信息”必然 作出不同的理解与解释。
4.从信息观的角度理解,知识是人类通过信息 对自然界、生物界、人类社会运动规律的认识 和概括,是一种特定的人类信息,它是对信息 进行提炼、深化、抽象化、系统化的结果,是 信息中最有价值的部分。知识是信息的一部分。 知识必须要有充分、可靠的经验性证据, 并且要经过理性的合理加工。
(二)知识的特性 1.实践性 社会实践是一切知识产生的基础和检验知 识的标准,科学知识对实践有重大指导作用。 2.规律性 人们对事物的认识是一个无限的过程,人 们获得的知识在一定层面上揭示了事物及运动 过程的规律性。 3.渗透性 随着知识门类增多,各种知识可以相互渗透, 形成许多新的知识门类,形成科学知识的网状 结构体系。
四、文献 (一)文献的定义 1.国际标准化组织《文献情报术语国际标准》: 文献是存储、检索、利用或传递记录信息的过 程中,可作为一个单元处理的、在载体内、载 体上或依附载体而存储有信息或数据的载体。 2.国家标准《文献著录总则》:文献是记录有知 识的一切载体。 北大教授王子舟《图书馆学是什么》:是指专门 记录、传播有知识的一切载体。 南大教授沈固朝《信息检索(多媒体)教程》: 记录有人类精神信息的、且便于存贮或传递的 人工固态附载物
课题二信息检索基础理论-讲义
A.马克思主义、列宁主义、 毛泽东思想、邓小平 理论
2.哲学
B.哲学、宗教
3.社会科学 4.自然科学总论
C.社会科学总论 D.政治、 法律 E.军事 F.经济 G.文化、科学、 教育、体育 H.语言 I. 文学 J.艺术 K.历史、 地理
N.自然科学总论 O.数 理科学和化学 P.天文学、地球科学 Q. 生物科学 R.医药、卫生 S.农业科 学 T.工业技术 U.交通运输 V.航空、航 天 X.环境科学、安全科学
①必须具有必要的语义和语法规则;
②必须具有表达概念的唯一性;
③必须具有将检索标识和提问特征进行比较 和识别的方便性。
二、 检索语言的基本类型
检索语言按描述文献的有关特征,可分为描述文献外表特 征的语言和描述文献的内容特征的语言。
描述内容 特征语言
检索语言 的类型
描述外表 特征语言
主题语言 分类语言
④复分表
▪ 又称为辅助表,或附表。是对主表中列举的类目 进行细分,以辅助详表中的不足。通用复分表由 总论复分表、世界地区表、中国地区表、国际时 代表、中国时代表、世界种族与民族表、中国民 族表和通用时间、地点表组成,附在详表之后。
如《中国图书馆图书分类法》、《中国科学院图书 分类法》、《INSPEC叙词表》等都是检索语言, 其分类号或检索词就是检索语言的词语。
▪ 检索语言词义单一性,可以保证表达概念的唯一 性,进而保证了标引与检索的一致性。
▪ 检索语言作为标引人员与检索人员的共同语言
2.检索语言的特征
检索语言是连接信息用户、信息工作人 员及信息资源的非常重要的一环,因此具 有鲜明的特征。它必须满足以下三个基本 条件:
信息检索原理图*
存储 一次 分析 信息
第三章 文献信息检索基本原理及方法
标题词语言关键词语言单词语言叙词语言检索语言
主题语言 由于不同概念相交就会 形成一个新概念, 形成一个新概念,这个 新概念是组配前各概念的 下位概念。 电子” 下位概念。如:“电子”和 信息”组配产生电子信息。 “信息”组配产生电子信息。 同级词间不同概念并 组配结果,可提高查准率。 组配结果,可提高查准率。 列也会形成一个新概 念,这个新概念是组配 前各概念的上位概念。 前各概念的上位概念。 数字计算机” 如“数字计算机”和“模 拟计算机” 拟计算机”组培后得 到“计算机”这一新的 计算机” 是不同级词间的组配, 是不同级词间的组配,是用 上位概念。组配结果, 上位概念。组配结果, 时间、 时间、空间和学科范围某一 提高查全率。 提高查全率。 方面的属性进行限定的一种 概念关系。 建筑物” 概念关系。如:“建筑物”为 主体事物, 设计” 主体事物,“设计”为某个方 组配结果被限定为“ 面,组配结果被限定为“建 筑物设计”这个新概念, 筑物设计”这个新概念,组配 结果可使检索到的文献专指度 和查全率提高。 和查全率提高。
3.1.1 文献信息检索的基本含义 一、文献信息检索的基本含义
“检索”即“查找”之意。信息检索,是将信息按照一定的方式 检索”即“查找”之意。信息检索 信息检索,是将信息按照一定的方式 组织、存储起来,并针对用户的需要查找所需信息的过程。因此信 息检索包含了信息的存储和检索两个不可分的部分。我们通常所说 的信息检索是指狭义的信息检索,即从检索工具和检索系统中查找 所需信息的过程及其所采取的一系列方法和策略。
手工检索和计算机检索的关系:手检是基础,机检是发展方向。 手工检索和计算机检索的关系:手检是基础,机检是发展方向。
3.1.2 文献信息检索的类型 按检索要求划分: 按检索要求划分: 相关性检索——是系统不直接回答用户所提出的 相关性检索 技术问题本身,而是只提供与之相关的文献供用 户参考。 确定性检索——是以数据或事实为检索对象,系 确定性检索 统要直接问答用户提出的技术问题,即直接提供 用户需要的确切的数据或事实。
计算机信息检索基本原理及检索技术
局限性
处理复杂语言现象的能 力有限,对某些专业领 域和特定语言的处理效 果有待提高。
机器学习与信息检索
概念
机器学习是人工智能的一个分支,通过训练让计算机自动学习并改进 检索算法。
应用
利用机器学习算法对大量数据进行训练和学习,自动提取特征并分类, 提高信息检索的准确性和效率。
优点
能够自动优化和改进信息检索算法,提高检索效果。
结果评价是对检索结果进行评估,判 断其是否满足用户的信息需求。
信息检索系统
信息检索系统是实现信息检索 的工具或平台,它能够从各种 信息源中获取、存储、组织和
检索信息。
常见的信息检索系统包括图 书馆信息系统、搜索引擎系 统、学术论文数据库等。
信息检索系统的性能和效果取 决于其信息组织方式、索引技 术、检索算法等多个因素。
信息检索过程
信息检索过程包括信息需求分析、信息源选择、 信息检索策略制定、信息检索实施和结果评价 等步骤。
信息需求分析是信息检索的前提,需 要明确用户的信息需求和信息类型。
信息源选择是根据信息需求选择合适 的检索工具或数据库。
信息检索策略制定是根据信息源的特 点和信息需求制定相应的检索策略。
信息检索实施是执行检索策略,从信 息源中获取相关信息。
解决信息隐私保护的方法包括立法保护、技术手 段如加密和匿名化等。
信息检索技术的未来发展
01
信息检索技术的发展趋势包括智能化、语义化、移动化和社交化等。
02
智能化技术如机器学习和人工智能动信息检索向更深层次的知识层面发展。
04
移动化和社交化的趋势将使信息检索更加个性化和社交化,提高用户 参与度和满意度。
语义鸿沟问题
01 语义鸿沟是指用户与信息之间的理解差距,导致 用户难以找到所需内容。
信息检索基本理论(可编辑)
信息检索基本理论信息检索基本理论信息、知识、文献及其之间的关系信息源信息检索及分类信息检索原理信息检索语言信息检索技巧信息检索方法信息检索的策略与步骤源于拉丁字informatio 。
港台地区又译为资讯。
辞海1989 年版的解释为音讯、消息。
信息论创始人香农(non ): 信息是用于消除信宿对信源发出何种消息的不确定性的东西. 控制论的创始人维纳(N.Wiener ):信息是人们同外部世界进行交换的内容的名称。
信息既不是物质也不是能量国家标准对信息的定义:物质存在的一种方式,一般指数据、消息中所包含的意义,可以使消息中所描述的事件的不定性减少。
狭义:主体通过各种认知方法获得并经过收集、记录、处理后以某种形式存储起来的事实或数据。
信息的特性:物质性、传递性、可扩充性、共享性、价值不定性。
知识(knowledge )概念:是人类社会实践的总结,是人的主观世界对客观世界的如实反映。
分类:按载体分:隐性知识和显性知识。
按领域分:哲学知识,社会科学和自然科学。
按用途分:科学知识,技术知识和文化知识。
同信息的关系:将反映自然现象和社会现象的信息经过加工,上升为对自然和社会发展客观规律的认识。
文献(document) 国际标准化组织《文献情报术语国际标准》对文献的描述是:“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,摄制在感光片上,或录到唱片上,或存贮在磁盘上,这种附着在各种载体上的记录统称为文献”我国颁布的《中华人民共和国国家标准??文献著录总则》对文献定义为:“文献是记录有知识和信息的一切载体。
”三者的关系信息源(information sources )信息源概念源:“水流起头的地方”(《现代汉语词典》)信息源:信息的来源、出处。
广义的信息广义的信息源的概念“万物皆是信息源”狭义的信息狭义的信息源的概念信息源的类型按信息源产生的时间顺序来划分:先导信息源、即时信息源、滞后信息源。
信息检索的基本理论
随着互联网和大数据技术的快速发展,信息检索已经成为人 们获取信息、解决问题、辅助决策的重要手段。通过信息检 索,用户可以快速、准确地获取所需信息,提高工作和学习 效率。
信息检索的发展历程
手工检索阶段
计算机化检索阶段
早期的信息检索主要依赖手工方式,如图 书馆目录、卡片式索引等。
随着计算机技术的发展,信息检索开始采 用计算机进行自动化处理,如关键词匹配 、布尔逻辑运算等。
信息组织与存储原理
信息组织
01
按照信息的内容、形式、读者需求等特征,采用逻辑方法将信
息分门别类,组成有序的、优化的信息集合体。
信息存储
02
将经过加工整理的信息,按照一定的格式与顺序,存储在特定
的载体上,以便检索和利用。
信息组织与存储的关系
03
信息组织是信息存储的基础,只有经过良好组织的信息才能有
效地存储和检索。
关键词权重
根据关键词在文档中的重要性,赋予不同的权重,提高检索结果的排 序准确性。
布尔逻辑检索
逻辑运算符
使用布尔逻辑运算符(AND、OR、NOT)连接关键 词,实现更精确的检索。
检索式构建
根据查询需求,构建复杂的布尔逻辑检索式,提高检 索效率和准确性。
逻辑运算顺序
遵循布尔逻辑运算的优先级和结合性,确保检索式的 正确执行。
信息检索的基本理论
目 录
• 信息检索概述 • 信息检索的基本原理 • 信息检索的核心技术 • 信息检索的常用方法 • 信息检索的发展趋势与挑战
01 信息检索概述
信息检索的定义与意义
定义
信息检索是指从大量的、无序的、模糊的信息集合中,根据 用户的信息需求,采用一定的方法和技术,查找出满足用户 需求的相关信息,并按照一定的方式组织和呈现给用户的过 程。
文献检索第三章
第三章计算机信息检索计算机信息检索的发展计算机检索主要经历了以下四个阶段(1)脱机检索阶段(1954-1964年)早期应用系统,利用单台计算机,以磁带作为存储介质,进行的批量或定题检索。
已基本淘汰。
脱机检索(Offline Retrieval),即批处理检索,1946年世界上第一台电子计算机问世后,20世纪50年代初就有人开始研究其在信息检索领域的应用。
1954年,美国海军武器实验站图书馆在一台电子管计算机上建立了世界上第一个计算机检索系统。
(2)联机检索阶段(20世纪60年代-80年代)进入20世纪60年代,计算机检索进入了实用和全面发展阶段。
20世纪60年代末,数据通讯网络出现,大容量计算机分时系统和强功能检索软件研制成功,使脱机检索发展到联机检索并迅速得到了推广。
20世纪70-80年代,联机检索得到迅速发展,一些联机检索系统开始向公众提供商业性服务,如DIALOG、ESA、ORBIT、BRS等许多世界著名的联机检索系统相继投入商业性运营。
联机检索的优缺点:直接利用国内外大量规范化得专业数据库进行信息检索,迅速地查到相关信息。
有较高的查全率和查准率,但联机费用较高,而且需要熟练地检索技能。
(3)光盘检索阶段 1983年,出现了一种新的存储器,CD-ROM光盘。
光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),具有可随时修改检索策略而具有很高的查全率和查准率等优点,因而至今仍被世界各地广泛应用。
(4)网络化检索阶段进入20世纪90年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大联网。
网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有网络用户都非常具有挑战性。
计算机信息检索原理计算机信息检索是指人们在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息,然后再由终端设备显示和打印的过程。
第3章-搜索引擎及网络信息检索PPT课件
2021/3/12
8
3.1.3 搜索引擎的类型-根据搜索引擎的数据检索机制划分
1)主题型搜索引擎 • 主题型搜索引擎将不断收集到的网上页面及地址信
息以数据库的形式组织存贮。 • 查询时用户向其提问框中输入关键词,搜索引擎便
会从数据库中检索与之相匹配的相关记录,按一定 的排4
3.1.2 搜索引擎的优点和缺点
➢ 优点:网络的资源非常丰富,对于一个普通网民来 说在这浩如烟海的信息流中寻找对自己有用的信息 成为一件十分困难的事。搜索引擎的作用就在于整 合网络资源,为用户提供贴心的搜索服务,提高效 率。
➢ 缺点: • 质量参差不齐,信息的分类加工欠规范,各搜索 引擎在检索指令的输入格式与输入内容上存在差 异并难以兼容,缺乏通行易用的检索方法与技巧;
• 对资源不具有选择和价值判断的能力,排序结果不理想, 难以搜索根据用户访问而临时动态生成的网页,查全率 下降。
2021/3/12
6
3.1.3 搜索引擎的类型
1.根据搜索引擎的数据检索机制划分 2.按检索内容划分 3.按搜索引擎数据来源划分
2021/3/12
7
3.1.3 搜索引擎的类型
1.根据搜索引擎的数据检索机制划分 1)主题型搜索引擎 2)分类型搜索引擎 3)混合型搜索引擎
缺点:繁多而杂乱,没有清晰的层次结构。
2021/3/12
11
3.1.3 搜索引擎的类型-根据搜索引擎的数据检索机制划分
2)分类型搜索引擎 通过用户浏览层次类型目录来寻找所需信息。分类
一般按主题分类,并辅之以年代、地区等分类。 代表:Yahoo、搜狐、新浪网站 例如:新浪>分类目录>计算机与互联网> 硬件>行
2021/3/12
3.信息检索理论
1. 信息资源有用的、有序的信息集合。
有用性和有序性是信息资源的两个重要特征。
2. 信息资源的类型实物信息资源体载信息资源文献信息资源网络信息资源文献信息检索课涉及的检索对象:文献信息资源、网络信息资源3. 信息资源的级别信息资源是分级的,以文献信息资源为例,分为一次文献、二次文献和三次文献。
一次文献:论文、著作、教材、专著。
(原始文献)二次文献:是将众多分散无序的一次文献进行加工、整理,并对其主要的外部特征和内容特征进行压缩进而组织成的一个有序化的文献信息集合,其功能在于帮助读者查找一次文献。
二次文献一般也称检索工具,如图书的书目、论文的索引和磁盘、光盘、数据库的目录等都属于二次文献范围。
三次文献:述评、综述、学科总结、年鉴、手册、进展、指南等。
三次文献也称高次情报,获得一篇较高水平的综述或述评,可以使读者以最快的速度、最省力的方法掌握特定信息。
4. 信息获取流程一次文献二次文献三次文献5.信息检索定义信息检索又称信息存贮与检索,是指工作人员按一定方式将信息组织、存储起来,并针对用户需求找出所需信息的过程。
对信息用户来说,信息检索指信息的查找过程。
6.信息的定义信息不是事物本身,是事物的特征和状态。
7.文献定义“文献是记录有信息的一切载体,它以文字、图形、图象、符号、声频、视频为记录手段,将一定信息记录在物质载体上,形成的存储或传播信息的工具。
[10]”8.文献信息/网络信息的特征信息、载体(网址)、记录手段是文献信息三大特征。
9. 文献信息的检索路径检索路径一定要围绕信息、载体(网址)和记录手段这三大特征展开描述。
从文献信息特征出发,检索路径要覆盖DOI号、题名、关键词、主题词、分类号、文摘、正文、作者、作者单位、基金项目等特征。
从文献载体特征出发,检索路径要覆盖ISSN号、ISBN号、AN号、网址、刊名、年、卷、期、页、出版者、出版地等特征。
从记录手段出发,检索路径要覆盖、语言、文字、图形、图象、声音、视频等特征。
第三章信息检索的基本理论
第三章信息检索的基本理论目的要求了解信息检索系统的概念;了解手工信息检索系统的类型;熟悉手工信息检索系统的结构;掌握手工信息检索系统的著录格式和常用的手工信息检索系统的信息检索方法。
掌握计算机信息检索系统的构成和类型;掌握信息检索语言的基本类型;掌握信息检索原理。
第一节信息检索系统一、信息检索系统的概述信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。
简单地说,信息检索系统即信息的存贮和检索的系统。
广义:信息检索系统是包括了从信息采集到检索全过程的服务体系。
狭义:信息技术系统就是用户检索信息时所使用的检索工具。
信息检索系统具有输入功能、存贮功能、处理功能、输出功能及控制功能。
根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即:手工信息检索系统和计算机信息检索系统。
目前,信息检索系统已从传统的手工检索系统发展到计算机网络信息检索系统。
二、手工信息检索系统1、手工信息检索系统的类型书本式检索工具(期刊式检索工具、单卷式检索工具、附录式检索工具)和卡片式检索工具。
期刊式检索工具:指在一个题名之下,定期连续发行的一种检索工具。
它具有及时性、连续性和稳定性的特点。
例如各种文摘杂志、索引刊物、连续的馆藏目录等。
这种形式的检索工具,及时反映新出版、新发表、新入藏的文献信息,它随着新文献的不断出现而不断连续出版,保持与文献的平行发展关系。
因此科研工作者为了掌握和了解本学科的科研动态,定期查阅期刊式检索工具是一种非常有效的方法。
同时由于期刊式检索工具的连续性的特点,不少期刊式检索工具,每到一定时间累积后,对于回溯检索极为方便。
单卷式检索工具:这种检索工具多数是以一定的专题内容而编印的,选题一般具有独立的意义。
它专业性强,收集的文献比较集中,往往积累反映一个相当长时间的文献,并以特定范围的读者作为对象。
单卷式检索工具收录文献一般比较全面系统,排列组织比较切合专业研究的需要,因此,对于专题文献检索比较方便,使用价值较高。
【信息检索课件】信息检索的基本原理-大学课件-全文免费阅读
2/23/2020
10
Topic 你查寻信息的基本途径有哪些? 检索即是一种交流 , 它可以是内向的 , 也可以是外向的。
1、生存环境 2、同行同事
3、中介 4、技术
5、已记载的知识
2/23/2020
11
附录: 我国企业人员获取信息的方式
■ 信息经济日新月异 ,但西北地区的信息水平却很低。 ■ 孩子教育费用 、抚育费用逐年变化情况。 ■ 肚子饿了 , 想在兰州市找家饭店却无法弄清孰好孰坏。
2/23/2020
9
Topic 你在学习方面的信息需求的分布状况?
■ 类型上: 教科书 、专著 、工具书 、研究报告 、专利文献等; ■ 内容上: 专业文献 、课外读物(文学 、管理 、经济 、政治等)等;
标引Q ’ 标引D’
(借助于检 索语言)信
息处理中心σ
输出Ψ(q)
信息检索基本过程可定义为一个四维组 , 即S=(D,Q,T,δ)。D为
文献集合 ,Q为用户查询 ,T是标引集合 ,而δ为匹配函数 。δ:
D/×Q/→R,D/是标引的文献集合 ,Q/是标引的查询集合,R为函
数值集合 。每个具体的δ值就表示具体的文献d关于某次查询q 的
15.39 5.77 3.85 3.85 11.54
9.50 11.00 8.00 6.00 5.50
11.53 4.50 1.92 3.00
0
1.00
1.92 2.00
0
1.50
1.92 2.50
中
经济管 技术 理人员 人员
18.99 24.04
8.86 10.13 7.60
信息检索基本理论部分
(3)按信息加工的层次分: 按信息加工的层次分:
零次信息:未经出版发行或未经加工的最原始的 零次信息: 文献(零次文献)上所记录的信息。如,私人笔 文献(零次文献)上所记录的信息。 记所记载的信息等。 记所记载的信息等。 一次信息:一次文献所记载的信息。期刊上的 一次信息:一次文献所记载的信息。 所记载的信息 大部分论文所记载的信息就是一次信息。 大部分论文所记载的信息就是一次信息。 二次信息:二次文献所记载的信息就是二次信息。 二次信息:二次文献所记载的信息就是二次信息。 所记载的信息就是二次信息 书目、文摘、索引等都是二次文献。 书目、文摘、索引等都是二次文献。 三次信息:三次文献所记载的信息就是三次信息。 三次信息:三次文献所记载的信息就是三次信息。 所记载的信息就是三次信息 词典、手册、百科全书、年鉴、教科书、综述、 词典、手册、百科全书、年鉴、教科书、综述、 评述、预测、进展、动态等都是三次文献。 评述、预测、进展、动态等都是三次文献。
(4)可存储性:信息可以被记录在物质载体上保 可存储性: 存下来。信息在时间上的传递体现了可存储性。 存下来。信息在时间上的传递体现了可存储性。 (5)可扩散性:信息可以借助媒介迅速传播。 可扩散性:信息可以借助媒介迅速传播。 (6)可传递性:信息可以通过一定的方法在时间 可传递性:信息可以通过一定的方法在时间 上和空间上转移。时间上的传递表现为可存储性, 上和空间上转移。时间上的传递表现为可存储性, 空间上的转移表现为可扩散性。 空间上的转移表现为可扩散性。 (7)共享性:一个信息可以同时为多个用户使用。 共享性:一个信息可以同时为多个用户使用。
关于信息的其他表述
控制论创始人维纳:信息不是物质也不是能量,信息是物质 控制论创始人维纳:信息不是物质也不是能量, 的一种属性,是事物存在的方式或运动状态及其表达。 的一种属性,是事物存在的方式或运动状态及其表达。 信息论创始人申农:信息是指有新内容、新知识的消息,是 信息论创始人申农:信息是指有新内容、新知识的消息, 用来消除随机不定性的东西。(奖牌) 。(奖牌 用来消除随机不定性的东西。(奖牌) 《情报与文献工作词汇基本术语》(GB4894-85):信息 情报与文献工作词汇基本术语》 GB4894-85): ):信息 是物质存在的一种方式、形式或运动状态, 是物质存在的一种方式、形式或运动状态,也是事物的一种 普遍属性,一般指数据、消息中所包含的意义, 普遍属性,一般指数据、消息中所包含的意义,可以使消息 中所描述的事件的不定性减少。 中所描述的事件的不定性减少。
第三章文献信息检索的基本知识
第三章文献信息检索基本知识随着信息技术的发展,互联网的应用得到广泛普及,信息环境发生了相当大的变化,应用现代化技术手段获取各种信息、知识成为高等院校师生与广大科技工作者的一种必备知识和技能。
为此,首先就必须了解文献信息检索的基本知识。
第一节信息检索的基本原理一、信息检索的概念信息检索(Information Retrieval)全称为“信息存储与检索”(Information Storage and Retrieval),其概念有广义和狭义之分。
广义上认为,信息检索包括文献信息的存储和检索两个方面,即一个完整的信息检索系统由信息存储子系统和信息检索子系统两部分组成。
信息存储子系统:首先对一定数量的信息进行筛选,把能够描述文献信息的外部特征和内部特征进行加工、整理,使之有序化,形成信息特征标识集合,然后将之存储在某种载体上,编制成为检索工具或建立一个数据库。
信息检索子系统:根据信息用户的特定需求,对用户需求进行主题分析,利用一定的检索方法和检索技术,对存储子系统中的特征标识进行比对,把需要的文献线索或知识信息从系统中查找出来的过程,即信息检索。
这就是通常人们所说的信息检索过程,也就是狭义上的信息检索。
信息存储与信息检索是意义不同却又相互联系、相互依存、不可分割的两个过程。
信息存储是为了检索,信息检索又必须先有信息存储。
如果没有存储,检索就无法实现;没有检索,信息存储也就变得没有意义。
所以说存储是检索的前提和基础,检索是存储的目的。
信息检索系统的工作原理如图3-1所示。
图3-1 信息检索系统的工作原理二、 信息检索的类型信息检索可以按不同的划分标准划分为不同的类型。
(一)、 根据检索内容划分根据检索信息内容不同可划分为文献信息检索、事实信息检索和数据信息检索。
1、文献信息检索(document retrieval ):是以文献(包括目录、索引、文摘等二次文献或全文)为检索对象,查找有关文献的出处和收藏处等信息,都属于文献信息检索范畴。
《信息检索基础知识》课件
03
信息检索系统
信息检索系统的构成
信息检索系统由信息源、信息组织与 检索方式、信息检索工具、用户界面
和信息利用等部分构成。
信息源是信息检索系统的物质基础, 包括各种类型的文献、网页、社交媒
体等。
信息组织与检索方式是信息检索系统 的核心,通过关键词、分类、主题等 方式对信息进行组织和检索。
信息检索工具是信息检索系统的手段 ,包括搜索引擎、数据库、图书馆等 。
05
信息检索的未来发展
信息检索技术的发展趋势
语义理解技术
随着自然语言处理技术的不断进步,信息检 索将更加注重对用户查询的语义理解,以提 高检索的准确性和相关性。
个性化检索
个性化检索技术将更加成熟,能够根据用户 的兴趣、偏好和行为习惯,为用户提供更加 精准和个性化的检索结果。
多模态检索
多模态检索技术将实现文本、图像、音频和 视频等多种媒体信息的融合检索,满足用户 对多媒体信息检索的需求。
自然语言处理
自然语言处理是信息检索中不可或缺的技术之一,它利用计算机对自然语言文本进行分析和处理,以 实现自然语言文本的自动识别和机器理解。
自然语言处理技术包括分词、词性标注、句法分析、语义分析等,这些技术能够将自然语言文本转换为 计算机可识别的格式,以便进行后续的信息检索和文本挖掘。
自然语言处理技术的应用范围广泛,例如在搜索引擎中实现自动纠错、自动完成、智能推荐等功能,以 及在智能客服中实现自动问答、智能回复等功能。
源。
网络信息检索阶段
随着计算机技术的发展,人们开始利用计算 机进行信息检索,出现了各种基于计算机技 术的检索工具和数据库。
智能信息检索阶段
随着人工智能技术的发展,智能信息检索逐 渐成为新的发展趋势,它能够更加智能地理 解用户需求,提供更加精准的信息服务。
第三章 信息检索的基本原理与方法
用户接口(userinterface),是面向系统用户的人 机接口程序。它承担用户与系统之间的交流功能,
是信息系统中不可缺少的模块。通常由用户模型、 信息显示、命令语言和反馈机制等部分构成。 用
户模型是系统建立的用户认知模型,即有关组成系
统、人本身及外部世界的各部分的图像。命令语言
是指系统提供给用户的检索命令集,包括基本命令 (如数据库选择、选词、组配、结果输出、求助等) 和功能扩展命令(如截词、位置运算、限制检索、保
以一定数量的内容标识(如分类号、主题词、关键词 需要提供的检索功能和服务而定。如果只需提供定
等),作为存储与检索的依据。这是分析、揭示文献 题(SDI)服务,那么,建立能支持顺序检索的顺排文
主题特征,并使之显性化的过程。标引作业通常与 档数据库即可。若需要支持回溯检索,则需建立各
文献编目和文摘工作一起进行,然后把标引结果和 种倒排档和索引文档,
安徽工业大学图书馆信息检索教研室
3.1.1 信息检索的概念
• 信息检索有广义和狭义的之分。
•
广义的信息检索全称为“信息存储与检索”
(information storage and retrieval ),是指
将信息按一定的方式组织和存储起来,并根据用
户的需要找出有关信息的过程。
•
狭义的信息检索仅指信息的查询,即从信息
法等)
安徽工业大学图书馆信息检索教研室
信息存储
信息源
主题分析
存储标识
概念转换
目录文摘索引编制
信息集合
安徽工业大学图书馆信息检索教研室
• ★★存储过程就是按照检索语言(主题词表或分类表) 及其使用原则对原始文献信息进行处理,形成文献 信息特征标识,为检索提供经过整序(即形成检索途 径)的文献信息集合的过程。
第三章 信息检索基本方法
3.2.3 截词检索
通常用“ *”表示无限阶段,用“?”表示有限阶 段。 无限截词符“*”,代表零至无数多个字母; computer* computer;computered ;computering; 有限截词符“?”,只能代表一个字母; teen? teens 例如: *chemi* chemical、chemist、chemistry、 electrochemistry、electrochemical、 physicochemical、thermochemistry
引文检索语言就是根据上述原理, 以引文为标识标引或检索文献,而 引文标识的全体就构成了引文检索 语言。 例如著名的《科学引文索引》 (SCI)、《社会科学引文索引》 (SSCI)、《艺术与人文科学引文索 引》(A&HCI)就是使用的这种引文 检索语言。
2.根据组配方式划分
先组式语言 事先用固定关系组配好,并编制在词表中, 标引人员和用户使用时必须根据词表选用 组配好的主题标识进行操作。例如体系分 类法和标题词法都属于此类。
(n)算符near:
(n)要求被连接的检索词必须紧密相连,词之间除 允许有空格、标点、连字符外,不得夹单词或字 母,词序不限; (Nn)表示两个检索词之间最多可以夹N个词(N为 自然数1、2、3…),且词序任意。 例如:information(n)retrieval
information retrieval 、 retrieval- information, economic(2n) recovery economic recovery 、 recovery from economic troubles
• •
•
引文途径
两种操作方法: 一是利用检索工具如SCI,通过被引用 文献入手,查找引用文献; 二是通过引用文献(来源文献)入手, 直接利用文献结尾所附的参考文献, 查找被引用文献。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
◇ 20世纪90年代,网络检索、多媒体检索以惊人的速 度迅速崛起,1992年,因特网向全世界的社会公众开 放,并步入商业应用时代。
◇ 1994年,网上出现了第一个web搜索引擎,1998年, 仅仅四年之后,网上的搜索引擎数量已达400个之多。
文献1:篇名(title): A Model of multimedia information retrieval 主题(subject): information retrieval, multimedia computer applications
文献2:篇名(title): The Information retrieval in chemistry WWW server 主题(subject): chemistry, educational materials
脱机检索 联机检索
计算机 磁带数据库
终端
计算机磁盘、磁带 数据库
通讯系统(卫星) 终端
光盘检索 网络检索
光盘数据库 (单驱、塔网、镜像)
通讯系统
网络计算机(联机、光盘 多媒体、超媒体) 数据库
用户 终端
终端 终端
我国计算机信息检索的发展过程(四个阶段):
引进开发国外磁带、开展定题服务(SDI):我国计算机检 索最初通过商业途径和交换方式从国外引进文献磁带,进行 定题检索和联机检索服务起步的。截至1992年,先后引进各 类文献磁带65种,自建数据库36个,纵容量达到1700万条。
◇ 1951年,世界上出现了最早的计算机检索系统,还 主要是单机检索。
◇ 20世纪60年代起,开始出现了联机信息检索系统;
◇ 20世纪70年代,随着卫星技术和通信技术的发展, 联机信息检索突破了地域的限制,走向全球化,出现 了很多著名的联机检索系统,如Dialog、Orbit等, 开始向全世界提供商业化的联机信息检索服务。
开发国际联机检索终端:1980年我国建筑技术开发中心及9 部委在香港租用一台国际终端,和美国DIALOG和ORBIT联 机。83年中情所在邮电部支持下建设了第一台终端机经卫星 信道街道意大利分组交换中心。至92年,已有联机终端约130 个,分布于各个城市。
自建数据库:随着国外磁带的引进和定题服务的开展,许 多单位开始对引进的磁带进行开发建设工作,至90年代 中后期,我国各类文献数据库的生产已经趋于饱和,各 种事实型数据库和数值型数据库不断增加,图像数据库 开始受到重视。
第3章 信息检索基本理论
第一节 信息检索概述 第二节 信息检索语言 第三节 信息检索工具
第一节 信息检索概述
一、信息检索
信息检索:是指将信息
(主要指文献信息)按一定
的方式组织和存储起来,并
根据用户的需要找出相关信
息的过程。 信息检索
存储 检索
存储:是对信息进行著录、 标引、整序,编制检索工 检具索和:建是立指检面索向系信统息的需过求程。 而进行高度选择性的查找 过程。
特征化 表示
选择与匹配
ቤተ መጻሕፍቲ ባይዱ
需求集合
文献存储过程
检索原理图
文献
主题分析 主题概念
情报工 作人员
用检索语言对 主题进行描述
文献标识
检索工具(系统)
检索过程
检索需求
检索者
主题分析
主题概念
用检索语言对 主题进行描述
检索表达式
(提问标识)
是否匹配 是
否 输出结果为零
得到检索结果
第二节 信息检索语言
一、检索语言的含义 二、检索语言的类型
二、信息检索的类型(根据不同的检索对象):
(1)数据检索:检索的结果是数据。如某种材料的电阻; 某变压器的参数;化学分子式、数据图表等(手册), 某地方 GDP增长情况(年鉴)
(2)事实检索:检索的结果是事实结论。查询某一事物 (事件)的性质、定义、原理以及发生的时间、地点过程等。 如某产品是哪个厂家生产,哪个牌子的最好;第一颗人造卫 星是什么时候升空的(年鉴)
文献1:A Model of multimedia information retrieval 文献2:The Information retrieval in chemistry WWW server 文献3:ERIC resources
在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语言 对其进行标引,标引结果为:
微型计算机和国际联机网信息存取的发展:微机以其方便 、便宜体积小等优势迅速应用于信息管理领域。微机+ 光盘被誉为存储器的革命;接着的Internet以其更快的 速度迅速发展,起来,其方便的检索大有取代传统信息 检索渠道的趋势。
四、信息检索的基本原理: 对信息集合与需求集合的匹配与选择
特征化 表示
信息集合
文献3:篇名(title): ERIC resources 主题(subject): educational materials
(3)文献检索:检索的结果是文献资料。查找相关文献的 内容、出处、收藏单位等。如系统地查找水压伺服控制阀原 理方面的相关文献(论文)
三、信息检索的发展
1.脱机检索(20世纪50年代) 2.联机检索(60年代末.70年代初) 3.光盘检索(80年代) 4.网络检索 (90年代)
◇ 19世纪前期,由于科学团体的涌现,集体研究效率的 提高,文献量逐渐增多,导致了一种社会分工的出现: 即对所有发表的文献,及时地进行收集、加工和整理, 并提供一定的手段,方便人们查找文献——信息检索 工作便由此开始了。 ◇ 19世纪末20世纪初,出现了覆盖各种专业领域的多 种检索工具,其中有一些后来成为世界闻名、享有很 高声誉的检索工具,如美国的《工程索引EI》和《化 学文摘CA》以及英国的《科学文摘SA》 。
人与人之间的通信活动:人类语言 (communication)
人与计算机对话:需要有计算机语言 人与检索系统对话:来实施检索
检索语言(retrieval language)。
一、检索语言的含义
检索语言:把文献的存储与检索联系起来, 把标引人员和检索人员沟通起来的约定人工 语言。
例如:有三篇文献篇名如下: