[宝典]第2讲 信息检索概述
第二讲 信息检索基础知识
![第二讲 信息检索基础知识](https://img.taocdn.com/s3/m/fc1c1cb0c77da26925c5b0ef.png)
1.1 信息检索的概念
广义信息检索
是将信息按一定的 方式进行加工、组 织并贮存起来,再 根据信息用户的需 要找出有关的信息 过程。它的全过程 又叫信息存储与检 索。
信息检索
狭义信息检索
指用户根据需要 ,借助于检索工 具,从信息集合 中找出所需要信 息的过程。本书 所介绍的信息检 索就是狭义信息 检索 。
1.2 信息检索的原理
存
储 一次 分析 信息
过 信息
特征
程
检 索 信息 过 需求 程
分析 检索 提问
标引 信息特征 输入 检
检 索
标识
(检索项)
索检
工 具 输出
索
语
和结
言 标引
检索提问 检索 系
标识
统
果
(检索词)
1.3 信息检索的类型
按信息检索的内容划分
▪ 数据信息检索(Data information Retrieval) ▪ 事实信息检索 (Fact information Retrieval) ▪ 文献信息检索 (Document information Retrieval)
青岛工学院图书馆http://10.10.58.103/
三、信息检索技术
检索技术,是指利用光盘数据库、联机 数据库、网络数据库、搜索引擎等进行信息 检索,采用的相关技术,主要包括布尔检索、 截词检索、字段检索、词位置检索、加权检 索等
检索方式
▪ 1、命令式检索:用逻辑运算符、位置算符及其他检索 符号,把不同的检索词连接起来进行检索的一个种方式。 适用于专业人员。
主题语言又分为标题词语言、单元词语言、叙词
语言和关键词语言,前两种语言目前使用较少。 1)叙词语言:叙词是为了适应计算机检索的需
第2章--信息检索PPT课件
![第2章--信息检索PPT课件](https://img.taocdn.com/s3/m/d08fd17177232f60dccca102.png)
信息(information)
是物质存在的一种方式,一般指数据、消息中
所包 含的意义。
普遍性、差异性、特征性 可传递性、可存储性
医学文献信息的作用
记录、保存、传递医学信息 科研和临床实践借鉴、交流的重要载体 评价科研水平与成果的主要依据 推动促进科研发展的资源动力
第一节 信息检索基础
信息 存储 收集 选择 著录 加工 标引 加工 存储 标识
存储与检 索系统进 行匹配
检索 语言
信息 检索 分析 需求 检索 提高 提供 标识
输出
检索 标识
信息检索原理示意图
信息的检索过程
用户利用检索工具获取所需信息的过程。
用户在分析待检内容范围的基础上,将检索需求
转换成检索提问标识,利用相应的检索系统,查
文献检索特殊意义
一是确定有无类似的研究成果,是否要立项?
二是参考其他文献,理清思路,搞清楚要做的研
究是什么?
三是取长补短,推陈出新,设立新论题,取得新
成果。
文献检索在课程设计、毕业设计、开题立项、成
果查新方面都具有重要作用。
第一节 信息检索基础
二、信息检索原理
信息检索系统由文献的存储和检索两个部分组成。
LOGO
第二章 信息检索
掌握信息检索的概念;
掌握信息检索的原理; 了解信息检索的类型,以及信息检索类型的几种 划分方法; 掌握检索语言的种类,及检索语言的作用; 掌握信息检索的方法、途径与步骤。
第一节 信息检索基础 一、信息检索概念
二、信息检索原理 三、信息检索的类型 第二节 信息检索语言 一、检索语言的定义和作用 二、检索语言的种类 第三节 信息检索的方法、途径与步骤 一、信息检索方法 二、信息检索途径 三、信息检索步骤与策略 四、检索效果的评价
第2讲信息检索概论
![第2讲信息检索概论](https://img.taocdn.com/s3/m/6547da95dd88d0d233d46aab.png)
是用分类号来表达各种概念的, 分类检索语言是用分类号来表达各种概念的,并将各种 概念按学科性质进行分类和系统排列。 概念按学科性质进行分类和系统排列。 目前,国内外常用的分类法《中国图书馆分类法》 目前,国内外常用的分类法《中国图书馆分类法》 中图法)、 中国科学院图书分类法》 科图法)、 )、《 (中图法)、《中国科学院图书分类法》(科图法)、 美国国会图书馆图书分类法》 LC) 《美国国会图书馆图书分类法》(LC)等都是以体系分类 法为主。 法为主。 是用词语来表达各种概念的, 主题检索语言是用词语来表达各种概念的,并将各种概 念按字顺排列。 念按字顺排列。 主题检索语言包括标题词语言 单元词(又称元词 标题词语言、 又称元词) 主题检索语言包括标题词语言、单元词 又称元词 语 言、叙词语言和关键词语言
例题】使用——检索中国专利:CN03250961.8苗间 检索中国专利: 【例题】使用 检索中国专利 CN03250961.8苗间 除草机构密封传动箱。 除草机构密封传动箱。 A.维普中文科技期刊数据库 B.图书馆馆藏查询 A.维普中文科技期刊数据库 B.图书馆馆藏查询 C.中国人民大学报刊全文数据库D.中国国家知识产权 中国人民大学报刊全文数据库D. C.中国人民大学报刊全文数据库D.中国国家知识产权 大 局专利数据库 E.中国国家科技图书文献中心 中国国家科技图书文献中心(NSTL) E.中国国家科技图书文献中心(NSTL)
图2-2 EI的一例文摘 的一例文摘
3、索引型检索工具
索引一般是附在专著或年鉴、 索引一般是附在专著或年鉴、百科全书等工具书 之后以及收录内容较多的二次文献之后,按主题词、 之后以及收录内容较多的二次文献之后,按主题词、人 地名、事件、概念等内容要项编排, 名、地名、事件、概念等内容要项编排,按其内容可分 为主题索引、分类索引、关键词索引、引文索引。 为主题索引、分类索引、关键词索引、引文索引。
《信息检索》 第2讲 信息检索的基本知识1
![《信息检索》 第2讲 信息检索的基本知识1](https://img.taocdn.com/s3/m/5dd05efbc8d376eeaeaa31ee.png)
国家或地区,是大范围内查寻特定文献的有用工具;
专科书目收录某一领域内的所有类型的出版物,包
括图书和报刊文章,兼有索引的功能。
26
2012-6-10
一本书目可以是描述性的,提供查证诸如著者姓名、
作品全名、出版时间、版本、价格等项目;
可以是评论性的,对出版物的使用价值提出看法,
发挥指导阅读的作用;
24
2012-6-10
书目(Bibliographies)
书目是一批相关文献的记录,其基本功能是反映某
一地区、某一时期、某一领域中出版物的信息。
由于书目通报的书刊出版和在版情况不受馆藏限制,
因而是馆藏目录或联合目录的补充工具。
25
2012-6-10
书目可以分为综合性书目和专业性书目
综合性大型书目收录范围不限于某一学科、主题、
对于需要较多回溯性资料的问题,检索人员就要确
定查找年代的上限和下限,如果是“近期文献”, 那么是近3年的,还是限于去年?
当查不到某一特定文献时,时间的差错是应考虑的
一个主要原因。
工具书的材料收录范围很讲究时间性,传记、书目、
年鉴、索引尤其如此。
17
2012-6-10
选择检索工具
工具书的类型,可按用途分为两大类14种小类:
这样,将专门解决某类“欲知”信息的检索工具与
问题中的叙词分类相匹配,就可选出能提供答案的 最适合的工具书。
12
2012-6-10
例子
例“阿瑟· 珀金斯现在的住址”;按叙词分类可译
成“(已知)人名(欲知)地址”,于是很快就同专查 人物地址的工具书挂上号(如履历型传记工具书)。 确定具体的工具书后,已知信息还可作为检索点来 查阅有关的条目。
第二讲信息检索基础(二).
![第二讲信息检索基础(二).](https://img.taocdn.com/s3/m/1018911383c4bb4cf7ecd1d2.png)
同一事物的简称、全称、音译等, 如:日本语与日语、互联网与因特网、中央电视台与CCTV等。
标题词:标题词语言采用标准化处理的名词术语作为标识,来表达
。
文献所论述或涉及的事物主题,并将全部标识按字顺排序
叙词:主要通过叙词表来加以规范的人工受 控词语,故又称为
受控词(controlled terms)。 • 主要的叙词表 《汉语主题词表》(简称《汉表》); 《INSPEC thesaurus》; 《Ei Engineering Information Thesaurus》
自然科学 NO 自数 然理 科化 学 总 论
P 地天 球文 科学 学、
QR S T U V X 生 医 农工 交 航 环 物 药 业业 通 空 境 科 、 科技 运 、 科 学 卫 学术 输 航 学 天 生
综 合 Z 综 合 性 图 书
TK 动 力 工 程
TL TM TN TP TQ TS 算自 化 轻 原 电 学无 子 工 、线 动 学 工 能 技 电电 化 工 业 技 术 讯、 计 业 、 手 术 科技文献检索—信息检索基础 技电 工 术子 业
科技文献检索—信息检索基础
非规范化语言与规范化语言的比较
非规范化语言(自然语言),没有词表的约束和复杂规则的限
制,检索者可以使用在文献中出现的任何一个有实际意义的词进 行检索,所以较受控语言使用方便。 规范化语言对同义词、近义词、一词多义、一义多词加以规范统 一,显示多种形式的相关关系,因而,查准率和查全率较高。 例:查关于大学教育系的文章。 用关键词语言:原文中使用什么就抽取什么如:education department/education schoool/school of education , 用主题语言语言:则使用主题词表将这一类文章统一规范为 school of education。检索时,结果将包括所有关于大学教育 系的文章。
第二章 信息检索的基本知识
![第二章 信息检索的基本知识](https://img.taocdn.com/s3/m/59d68a02de80d4d8d15a4f83.png)
O
数理化 ……………………… … 一级类目 O1 数学 ……………………… … 二级类目 …… O3 力学 ……………………… … 二级类目 O31 理论力学 ……………… … 三级类目 O311 运动学 ……………… … 四级类目 .1 质点运动……… … 五级类目 …… O4 物理学 ………………… … 二级类目
文 献 源
文献 的选 分析 择与 收集
检索工具
文献 特征
标识
数据库
匹配 输出
用 户
信 分析 息 需 求
检索 提问
标 识 语 言
标识
检索提 问式
检 索 结 果
反 馈
从这个图中,我们可以看出两条主线。一条主线是文献检索,通过分析自身 的文献需求,提出检索请求。另一条主线是数据库的建设,通过获取文献源, 对文献进行分类标引入库,建成可检索的数据库。当检索请求与数据库相匹配 后,就返回检索结果,得到需要的文献。
2.按检索方式分
按检索方式分为手工检索(手检)和计算机检索 (机检)两种方式。 (1)手工检索:即用人工来直接查找所需信息的方式,多 利用各种检索工具的印刷版来实现,如印刷型的目录、题 录、文摘、索引等。手检直观,不需要辅助没备,但速度 慢,漏检严重,查全率受信息资源储备数量的限制。 (2)计算机检索:就是将大量的文献资料或数据进行加 工整理,按一定格式存储在机读载体上,建成机读数据库, 利用计算机对数据库进行检索的信息检索方式。与手工检 索相比,计算机检索速度快、效率高、查全率高,不受时 空限制,检索结果输出方式多样等。但查准率与网络及数 据库质量的高低直接相关。
内容特征 标题词 主题语言 关键词 叙词 描述文献外表特征的检索语言,例如篇名、著者姓名、文 献号等作为文献标识与检索依据直接明了,使用时较为简单。 而文献内容特征的语言,也就是分类语言和主题语言的原理和 使用方法是下面主要介绍的内容。
最新第2章信息检索基本知识ppt课件
![最新第2章信息检索基本知识ppt课件](https://img.taocdn.com/s3/m/e50d7d36c1c708a1294a4449.png)
布尔逻辑运算符优先级
• 布尔运算符优先级比较
–有括号时:括号内的先执行; –无括号时:NOT > AND > OR
• 例:检索“唐宋诗歌”的有关信息。 – 关键词:唐、宋、诗歌; – 检索表达式:
• (唐 OR 宋)AND 诗歌; • 唐 AND 诗歌 OR 宋 AND 诗歌; – 错误表达式: • 唐 OR 宋AND诗歌; • 唐 AND 宋AND诗歌; • 唐 OR 宋OR诗歌; • 唐AND 宋OR诗歌;
3、事实检索
是以具体事项为检索内容的信息检索。
(二)按是否使用检索工具划分 1、直接检索
就是指利用一次文献进行检索,这是以前比较常用的一 种查找方法。所花时间多和精力大,检出文献少。
2、间接检索
就是指利用各种检索工具获得文献线索,再根据线索去 查找原始文献线索的方法。
(三)按信息检索手段划分 1、传统信息检索
一、检索工具的功能
1、报道功能 2、存储功能 3、检索功能
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。 2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类录 2、文摘 3、索引
目索文录引摘:::是把是按一一照种种某或著种多录明种文白文献 题易献录懂中和的具内顺有容序检摘编索要排意的义检文的索献特 工清征具单分。或别清著册录,、通排常序以并一注 如个明:完出人大整处复的以印资出供料版查单检位的或工收具 藏书单。位索为引著的录基的本组基织本单单 元位是。条目,每个条目一般 如由:序《全号国、新书标目识》或索引词、 注释《社、科出新书处目等》 若干环节
2、三者提供的资料不同: 目录提供某一方面较成熟系统的知识,索引、文摘提供相对分散 的资料线索。
信息检索基本知识
![信息检索基本知识](https://img.taocdn.com/s3/m/d1ca444ba45177232e60a201.png)
琼州学院 胡爱民
Logo
检索结果
急性胰腺炎、急性重症胰腺、急性胆源性 胰腺炎、急性出血坏死型胰腺炎等急性胰腺炎
琼州学院 胡爱民
Logo
使用MEDLINE(06/7-06/10)查找免疫相关 的文献结果
琼州学院 胡爱民
Logo
应用举例(二)
“?”的应用
例如:拉米?定:可检出含拉米夫定和拉米呋定
定的文章; Protein?:可检出含 Proteins 和 Protein的所有文章
狭义的信息检索是指根据用户的需求,利用检索 工具或检索系统,查找出符合用户特定需要信息 的过程。
琼州学院 胡爱民
Logo
2.类型
检索手段
手工检索
计算机检索
联机检索 光盘检索 网络检索
琼州学院 胡爱民
8
Logo
第二节
信息检索原理
一、信息检索工具
定义:又称信息检索系统,是指累积文献 信息并提供检索途径的工具。 类型:
A
B
例如:用CBM查找1978年以来有关艾滋病的文献
检索式为:艾滋病 OR 爱滋病 OR AIDS OR 获得性免疫缺陷综合征
琼州学院 胡爱民
Logo
例1:用CBM查找1978年以来有关艾滋病的文献
AIDS
5574篇
爱滋病
469篇
艾滋病
19869篇 22834篇
艾滋病 OR 爱滋病 OR AIDS OR 获得性免疫缺陷综合征
琼州学院 胡爱民
数据库处 理
中国 图书馆 分类法
字段名
格式规 范 医学 主题词表 (MeSH)
琼州学院 胡爱民
Logo
两大外文保障中心
外文文献
信息检索---名词解释
![信息检索---名词解释](https://img.taocdn.com/s3/m/6d2cab3a8e9951e79b8927ae.png)
一、名词解释信息检索:信息检索最普通的理解就是信息查找。
它是将信息按一定的方式组织起来,并根据信息用户的需求查找出有关的信息的过程和技术。
信息检索又叫做信息存储与检索(information storage and retri)。
信息检索可以分为事实检索、数据检索、文献检索。
特性检索:也称强相关性检索,强调向用户提供高度对口的信息。
强调检索的准确性,对检索结果的数量不作要求。
族性检索:也成弱相关性检索,强调向用户提供系统、完整的信息。
注重检索的全面性,要求检索出一段时间期限内有关特定主题的所有信息,对准确性要求较低。
特种文献:特种文献是一种不以书刊形式出版的文献,一般不公开发行,它包括专利文献、会议资料、科技报告、技术标淮、学位论文、政府出版物、产品样本及其说明书等。
其特点是内容涉及面广、种类多、数量大、报道快、参考价值高。
OPAC:联机图书馆公共检索目录,有开放的公共查询目录演化而来,是20世纪70年代末美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
参考工具书:是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。
年鉴:是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。
手册:是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。
名录:是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。
搜索引擎:就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。
图书:论述或介绍某一领域知识的出版物。
期刊:期刊一般是指名称固定、开本一致的定期或不定期连续出版物。
第二讲 第二章 信息检索原理74.ppt.Convertor
![第二讲 第二章 信息检索原理74.ppt.Convertor](https://img.taocdn.com/s3/m/da3d3bcc5fbfc77da269b1da.png)
第2章信息检索原理2.1 信息检索的基本概念2.1.1信息检索的定义和类型1.信息检索的定义检索的含义“检索就是查找”,这仅仅是一种狭义的解释。
从广义的角度讲,检索包括“存贮”和“查找”两个过程。
没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。
“检索”(Retrieval)一词是一个外来词,来源于英语“Information Retrieval”(信息检索)第2章信息检索原理信息检索是指从任何信息集合中查出所需信息的活动、过程与方法。
广义的信息检索还包括信息存贮,两者又往往合并称为"信息存贮与检索"(Information storage and retrieval)。
第2章信息检索原理1.2.3文献的内部特征和外部特征文献的内容特征:就是可以从某种角度反映文献内容的特征。
文献的内部特征包括文献的题目、摘要、由著者或图书情报人员给出的主题词及其分类号。
文献的外部特征:是与内容特征关系不是十分密切的一些特征,包括文献的作者姓名、作者所在的工作单位名称,期刊刊名、会议录名称、专利说明书的专利号和科技报告的报告号等。
这些特征通常在文献的封面或扉页出现。
第2章信息检索原理2.2.1信息检索的一般原理无论是手工检索,还计算机检索,各种检索系统的检索原理基本相同。
简单地讲,就是检索提问标识与存贮在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。
存贮过程就是按照检索语言(主题词表或分类表)及其使用原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。
信息检索同样包括存储和检索两个过程。
第2章信息检索原理(1)信息检索根据检索对象不同,可分为:文献检索、数据检索、事实检索A.文献检索(Document Retrieval)。
文献检索是以文献为检索对象的信息检索。
信息检索概述
![信息检索概述](https://img.taocdn.com/s3/m/73da50d00975f46527d3e189.png)
信息检索技术
这里主要介绍几种在光盘检索、联机检索和网 络检索等各类机检系统中常用的检索技术。但由于 不同的机检系统使用不同的检索软件,所支持的检 索技术不同,采用的检索算符也不同,因此实际检 索时,应注意查看所用检索系统的说明。
布尔逻辑检索
截词检索
位置检索
限制检索
要多思考多练习201322信息检索基础知识信息检索基础知识中文信息检索工具中文信息检索工具国外信息检索国外信息检索caca国外信息检索国外信息检索eiei专利文献检索专利文献检索计算机和网络信息检索计算机和网络信息检索201322科技信息的应用201322中国国家标准情报与文献工作词汇基本术语gbt48941985中定义
信息资源分类具有多方面的作用.其中最主要 用于信息资源组织和揭示,包括文献分类排架 和编制分类检索工具两个方面。
2020/1/1
23
信息资源分类一般具有以下特征;
其一,按照信息资源内容特征的相互关系加以 组织。
其二,一般是从一定的角度出发组织信息资源 的。主题内容之间的联系是多方面的、多维的。 分类法作为一种从内容角度揭示信息资源的方法, 一般只能有选择地揭示其主要联系。
2020/1/1
15
2.信息资源分类
按其自身的性质可划分为四个层次的信息资源:
第一层次信息资源,即原始信息资源。其特征是未 经加工的直接的信息资源。属于0次信息。包括宇宙 、自然界、人类社会、个人在自身运动和从事社会 活动中所发出的所有信息。
第二层次信息资源,是对处于自然状态的信息进行 整理加工、控制转化、使其固化、量化、社会化, 然后再进行传递的信息资源,如政府文件、商务资 料、图书期刊、音像产品等。这些信息多以文献形 式出现。包括一次信息和二次信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
26
2021/1/20
信息检索系统开发与设计 第一章
1.3.1 信息检索发展分期
1.1 .1 信息检索中用户任务
l 检索 retrieval
– 用户将其信息需求和问题翻译成检索系统要求的提 问式(query),系统匹配后,提交相关文献。
l 浏览 browsing
– 使用交互式界面翻阅整个文献集合,以找出感兴趣 的相关文献。
6
2021/1/20
信息检索系统开发与设计 第一章
1.1 .1 信息检索中用户任务
文本 数据库
图1-3 检索处理过程
2021/1/20
信息检索系统开发与设计 第一章
13
1. 2 .1 信息检索处理过程
l 文本数据库由数据库管理者模块建立
– 确定使用的信息条目范围 – 文本操作处理 – 定义文本的逻辑视图, 建立索引
14
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .1 信息检索处理过程
– 标引作业通常与文献编目和文摘工作一起进行,然 后把标引结果和其他描述事项填入工作单,交录入 员去录入计算机中。
19
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 建库子系统
– 任务是建立和维护可直接用于计算机检索的数据库。 – 作业内容主要包括数据录入、错误检查与处理、数
28
2021/1/20
信息检索系统开发与设计 第一章
1.3.2 信息检索发展趋势
l IR面临的问题和挑战
– 相关性信息的获取; – 更快速的提问响应; – 基于用户行为的新检索系统开发和设计;
29
2021/1/20
信息检索系统开发与设计 第一章
1.4 信息检索学科研究范围
l 信息检索的研究范围包括一切与信息存储检索有关的 系统、过程、理论和方法。
l 图书馆中的信息检索为例
– 第一代:卡片目录自动化系统 OPAC online public access catalogue
– 第二代:增加按主题、关键词、复杂查询 – 第三代:图形界面、数字化、超文本、开放系统框
架、基于Web
27
2021/1/20
信息检索系统开发与设计 第一章
1.3.2 信息检索发展趋势
l 一切可供存贮和检索利用的信息类型,如文献、数据、 事实、知识、声音、图形等;各种细心你间作系统及 其运行过程,如信息采集、标引、组织、存贮、处理、 匹配、输出、传送等;各种过程中使用的方法,以及 在信息检索实践和研究的基础上形成的各种理论和假 设,均包括在这个范围内。
30
2021/1/20
信息检索系统开发与设计 第一章
l Web对信息检索系统的巨大影响
– Low cost : 是最便宜的存取各类信息源的系统,因 而吸引更多的用户;
– Great access: 数字通信技术的进步提供了更强的 接入能力,无论是本地还是远程;
– Publishing freedom: 人类历史上第一次,能够自由 地发布和获取大量信息。
2021/1/20
信息检索系统开发与设计 第一章
1.4.1 信息检索的研究对象
l 用户研究与培训
– 研究用户的心理、需求类型与特点、用户查询信息的行为特征等,然后建立 响应的用户模型,作为系统设计以及制定系统营销策略的依据。
– 用户培训是用户研究的继续,是与用户建立机密联系和发展新用户的一种非 常有效的措施,需要研究各种方式的效果及强化培训效果的各种手段。
21
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 用户接口子系统
– System-user interface,是面向系统用户的一种人---机接口。它承担 用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接 系统(软硬件)。
– 用户模型:是系统建立的用户认知模型,可以用来增强人、机接口 的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工 程学因素。
信息检索系统开发与设计 第一章
文献
着重空格 标点等 处理
停用词 处理
名词 集合
词根 处理
自动或 手工标引
标引 词
结构识别
文
结
全
标
本
构
文
引
结
本词构来自图1-2 文献的逻辑2021/1/20
信息检索系统开发与设计 第一章
9
1.1 .2 文献的逻辑表示
l 传统: 一个集合中的文献常常通过标引词或关键词 的集合来表示。
l 系统效益研究
32
2021/1/20
信息检索系统开发与设计 第一章
1.4.2 相关学科及领域
l 计算机科学 l 数学 l 语言学 l 人工智能 l 认知科学
33
2021/1/20
信息检索系统开发与设计 第一章
22
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 提问处理子系统
– 负责处理用户输入的检索词或提问式,并将它们与数据库中 存贮的数据进行比较运算,然后把运算结果输出给用户。
– 该模块主要由检索程序构成:
l 接收提问 l 提问校验:包括语法检查、格式检查和用词检查。 l 提问加工:指对源提问式进行解释性或编译性的加工,生成便
据格式转换、生成并定期更新各种文档。
20
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 词表管理子系统
– 功能是管理维护系统中已有的主题词表,使它与标 引、建库等子系统相连接,支持用户的各种词汇查 询操作,从提问、对话或其它文本中采集词汇、信 息,以及输出各种形式的词汇数据或词表产品(从 个别词目、词间关系、词频数据到整部词表)。
于机器处理的目标提问式。 l 检索,即从数据库中读入一批记录,与提问式进行比较,把满
足要求的记录记入输出文档。
23
2021/1/20
信息检索系统开发与设计 第一章
l 1硬.件2部.分3 信息检索系统的物理构成
– 主计算机 – 外围设备 – 数据处理或传送相关设备
l 软件部分
– 系统软件 – 应用软件:数据库管理系统,建库程序,数据输入输出程序,自动标引
l 传统检索系统:数据检索或信息检索 l 超文本系统:快速浏览 l 电子图书馆与Web搜索引擎系统:检索与浏览
的结合。
7
2021/1/20
信息检索系统开发与设计 第一章
1.1 .2 文献的逻辑表示
l 全文本 —— 标引词的集合 l 目的:降低文献表示的复杂性,和计算机处理
的难度。
8
2021/1/20
– 信息源选择采集子系统 – 标引子系统 – 建库子系统 – 词表管理子系统 – 用户接口子系统 – 提问处理子系统
17
2021/1/20
信息检索系统开发与设计 第一章
1. 2 .2 信息检索系统的逻辑构成
l 信息源选择采集子系统
– 信息源是检索系统的信息或数据来源,目前,信息 检索系统 中的数据主要来自各种公开文献,如一次文献中的期刊、图 书、研究报告、会议论文、专利文献、政府出版物、学位论 文、二次文献中的文摘、索引和目录,三次文献中的百科全 书、专科词典,名录、指南、手册等,有些系统还收录各种 机构的内部资料,如实验记录、测试或观测结果、工程设计 资料、统计资料等。
程序,文件管理程序,词表管理程序,检索程序,记帐统计程序等
l 数据库
– 磁媒体数据库 – 光盘数据库 – 多媒体数据库
24
2021/1/20
信息检索系统开发与设计 第一章
1.3 信息检索简史与趋势
l 信息检索发展分期 l 信息检索发展趋势
25
2021/1/20
信息检索系统开发与设计 第一章
1.3.1 信息检索发展分期
l 自动标引、自动分类和自动摘录
– 这是探索如何教会计算机去“理解”信息内容,自动识别和提取出文献中的 有用信息和检索标识,自动生成主题标识和非系系统或文摘。
– 是技术难度非常大、诱惑力很强的领域,吸引了众多研究者,并取得了许多 可喜的成果。
l 相关设备
– 包括对信息检索所需的各种设备的研究,如计算机系统、危机与终端设备、 输入输出设备、存贮设备、通讯设施等。
1.4.1 信息检索的研究对象
l 信息检索理论
– 主要包括检索语言与标引理论,信息检索的数学模型,知识表示理论,“相 关性”理论以及有关的哲学问题。
l 信息检索系统
– 主要研究信息检索系统的结构、功能、演变,它的设计开发技术、管理维护 技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关系。
[宝典]第2讲 信息检索概述
本章主要内容
l 信息检索基本原理 l 信息检索系统 l 信息检索发展历史与趋势 l 信息检索学科研究范围
2
2021/1/20
信息检索系统开发与设计 第一章
1.1 .1 信息检索中用户任务
检索 浏览
数据库
图 1-1 信息检索中用户任务
5
2021/1/20
信息检索系统开发与设计 第一章
l 现代: 用文献的所有词集合以及结构来表示成为可 能,检索系统采用文献的全文本(full-text view) 视图逻辑表示。
10
2021/1/20
信息检索系统开发与设计 第一章