第二章 信息检索基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一般说来,一个计算机信息检索系 统应由三部分构成:计算机硬件、计算 机软件、数据库。目前计算机信息检索 主要有联机信息检索、光盘信息检索、 网络信息检索等。
3 信息检索发展历史
手工信息检索阶段 机械信息检索阶段 计算机信息检索系统阶段
2014-5-26
37
手工信息检索 信息检索直接发源于文摘索引工作和 参考咨询工作。文摘工作的历史可以追溯到远 古时代。
这个阶段的特点是联机数据库集中管理, 具有完备的数据库联机检索功能,但其数据通 信能力较差。
第三阶段:光盘检索阶段。
光盘检索阶段始于20世纪80年代中期。 1985年世界上第一个CD-ROM数据库BIBLIFILE 的问世,是光盘检索系统实用化的标志。
这个阶段比较特殊。在发达国家,光盘检 索是联机检索的支持和补充,但在通信技术不 太发达的国家,由于它本身的优点,确实是用 户获取信息的一个十分重要的手段。
信息整序可分为形式整序和内容整 序两类。它们是根据代表信息外在属性 的标识(如著者姓名、题名、序号等) 和内在属性的标识(如分类号、主题词 等)排列信息的。
如以信息的著者姓名为标识,可以 把所有信息按照著者姓名的字顺排列起 来。用户只要知道著者姓名,就可以按 著者姓名字顺的信息序列中(著者索引 )查到所需信息。
多媒体信息检索是指根据用户的要 求,对文本、图形、图像、音频、视频 等多媒体信息进行识别和获取所需信息 的过程。
但多媒体信息检索系统并不是简单 地对多种媒体进行检索,它必须既能对 以文本信息为代表的连续媒体的内容进 行检索,
也能对以图像、声音为代表的连续媒 体的内容进行检索。目前,从涉及的信 ຫໍສະໝຸດ Baidu角度看,可分为基于文本和基于内容 的两种多媒体信息检索方式。
第一阶段:脱机检索阶段。
20世纪50-60年代是脱机检索的试验和实 用化阶段。批式检索是这个阶段信息检索的主 要方式,
著名的脱机检索系统有美国国家医学图书 馆的MEDLARS,美国化学文摘社发行的《化学 题录》机读磁带版等。这一阶段的数据存取与 数据通信能力都比较差。
第二阶段:联机检索阶段。
Information Retrieval
第一章 信息检索基础
2014-5-26
2
一信息检索概述
1 信息检索原理 广义 狭义
2014-5-26
3
所谓信息检索,广义地说,是指将信息 按照一定的方式组织和存储起来,并能根据信 息用户的需要指出其中相关信息的过程,因此 它的全称又叫“信息存储与检索”。
(3)信息特征标识与检索提 问标识的匹配
实际上就是将标识员对信息内容的 表达(信息特征标识)与检索者对信息 需要的表达(检索提问标识)进行相符 性比较的过程。信息检索就是通过信息 特征标识与检索提问标识的匹配来实现 的
为了实现这一匹配,标引员的标引 用语和检索者的检索用语必须采用一种 共同的语言,这就是检索语言。
这些特点导致了信息处理从传统模式向 新型模式的转变,如体系结构从终端主机方式 到客户、服务器结构方式,网络环境从局域网 到Internet等开放网络,
应用接口从封闭界面到WWW等,信息结 构从结构化到非结构化,系统功能从单纯信息 检索到综合信息管理和服务等。
这些变化必将促使信息检索技术的不断发 展,以满足人们对提高信息利用能力的需要。 信息检索发展到今天,已经呈现联机检索、光 盘检索和网络检索三者并存的局面。
4 信息检索发展趋势
信息检索智能化 智能化是信息检索未来的主要发展方向。 智能检索是基于自然语言的检索形式,机器根 据用户所提供的以自然语言表述的检索要求进 行分析,而后形成检索策略进行搜索。
2014-5-26
66
近年来,Internet上不断涌现的人工智能 产品,如智能搜索引擎、智能浏览器、智能代 理、知识共享智能体等,它们将提高网络信息 检索的智能化程度,促进智能信息检索的发展
信息检索多语种化 多语种信息检索将依然是未来网络信息检索 的研究热点,现在对多语种信息检索的支持主 要体现在预先设定检索语言,
其检索结果也限制在预先设定的语言中 。而使用某一种语言直接进行多语种检索,提 供多语种的匹配结果将是多语种信息检索的下 一个方向。
这种单一检索界面的检索将在后台有一个多 语种词库,对用户提交某一语种的检索词自动 在词库中查找对应其他语种的检索词,再提交 给搜索引擎,以多语种检索结果输出给用户。 这种多语种、多信息检索需要机器翻译技术的 支持,并且需要对多语种检索得出的输出结果 相关度或重要性排序进行研究。
5 信息检索的意义
二 信息检索语言
2014-5-26
80
1 检索语言概述
检索语言沟通了信息的存储和检索 两个过程,是标引员和检索者双方思想 的桥梁,是检索工具或检索系统的重要 组成部分。
2 信息检索类型
检索对象的形式 文献检索、数据检索、事实检索、多 媒体检索
文献检索是以文献(包括文摘、题 录或全文)为检索对象的信息检索。文 献检索是信息检索的主要形式,文献检 索是一种相关性检索,即不直接解答用 户所提出的技术问题本身。
2014-5-26
38
文摘和索引工作,(都是二次文献)从编 辑、出版和基本目的几个方面来看有许多共性 。两者之间主要差别在于包含的情报内容。
索引刊物只提供文献资料出处,文摘刊物 除此之外,还提供专业内容。文摘是重要的, 但从利用方面来说,不见得它就一定比索引好
在大多数情况下,没有文摘的索引刊物往 往具有很好的及时性。这与文摘所能提供的对 文献内容的揭示具有几乎同等的重要意义。这 就是为什么在同一专业领域内,文摘和索引工 作往往是长期共存的原因所在。
20世纪60-80年代是联机检索试验和实 用化阶段。1960年美国麻省理工学院(MIT) 开始实施有关联机检索系统设计的“技术情报 计划”(TIP),系统发展公司(SDC)也在它 开发的全文检索系统protosynthex上进行了首 次联机检索演示,
该公司后来研制成功的联机信息检索软件 OBIT是联机检索阶段的正式开始。著名的联机 检索系统还有DIALOG系统(属于美国洛克希 德公司,1988年被Knight-Ridder公司购并)等 。
检索手段
手工信息检索、计算机信息检索
手工信息检索即通过手工进行的信 息检索,它主要利用各种印刷型检索工 具,如书本式目录、索引、文摘及参考 工具书等等来进行信息检索与查询。
2014-5-26
30
检寻图书资料的一种工具。将书刊 中的内容或项目分类摘录,标明页数, 按一定次序排列,附在一书之后,或单 独编印成册,以便读者查阅。旧称通检 或备检。也称引得。如:《十三经索引 》;《二十四史纪传人名索引》;《古 今人物别名索引》。
信息检索可视化 信息检索中的可视化,是将数据库中不可见 的语义关系用图像形式可视化显示,并表达用 户检索过程。
可视化信息检索包含两个方面:一个是 检索过程的可视化,另一个是检索结果的可视 化。检索过程的可视化是指用户在检索过程中 各检索对象之间的关系以可视化的形式展现在 用户面前,用户顺着可视化的检索画面一步一 步地发现检索结果。
根据研究文摘历史的专家弗西斯·威蒂( Francis J. Witty)介绍,一种用途类似于文摘 的工具首先出现在公元前两千年美索不达米亚 人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西 汉刘向、刘歆父子整理编撰的《别录》和《七 略》。古代使用文摘的人有学者、政治家,还 有教皇和僧侣。
信息检索专业化 信息检索是指面向某一特定专业或学科领域 ,提供高质量的专业信息的检索。专业化信息 检索需求的出现主要是因为网络信息资源越来 越丰富,
而综合性检索系统比如搜索引擎查找专业信 息越来越困难,效率比较低,往往不能检索到 高质量的专业信息。发展专业化检索将是未来 的一个研究热点。
专业化的信息检索将只涉及某一学科、 某一领域的信息,信息相对集中,且其编制通 常有本专业的人员参与,因此它不仅可以提高 检索速度,还可以提高专指度,加大检索深度 和检索力度,从而提高检全率和检准率。
第四阶段:网络检索阶段。
网络信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲高 能粒子协会分别推出了因特网上的检索工具 WAIS、Gropher和WWW。
目前,WWW因其集文本、图像、声音等 多媒体信息于一体的巨大优点,已占信息服务 的主导地位。
在该阶段,系统大多采用分布式的网络化 管理,其信息资源的主要特点是:数字形式表 达、多媒体和多载体、内容覆盖广、分布无序 、难以规范化和结构化、内容特征抽取复杂、 用户界面要求高等。
信息检索个性化 个性化是指各网站注重内容的特色化和注重 个性化的服务内容。个性化服务的实质在于提 供真正适应用户需要的产品。
事实上,网上已经开始出现专门收录某 一领域信息的网站,尤其是在一些热门领域, 如StockSite(http://www.stocksite.com)提供股 市分析文章、股票分析工具、公司研究文章及 与商业和金融相关的新闻。
但事实信息检索过程中所得到的 事实、概念、思想、知识等非数值性信 息和一些数值性信息须进行分析、推理 ,才能得到最终的答案,
因此要求检索系统必须有一定的逻 辑推理能力和自然语言理解功能。例如 ,要想得到中国发明专利历年的申请案 中,国外来华申请历年所占的百分比是 多少这一事实信息,就需要对历年的数 据进行统计,然后进行比较分析,才能 得出具体答案。
2014-5-26
18
数据检索以具有数量性质,并以数 值形式表示的数据为检索目的和对象, 检索的结果是经过测试、评价过的各种 数据。
数据文件组织方式不同,数据检索 的技术方法亦不同。对于顺序结构文件 ,常见方法有顺序检索、分块查找法、 两分检索等。
对于随机结构文件,常采用直接地 址法、杂凑(hash)法等。地理信息系 统中空间数据检索常涉及目标空间分布 范围(行政区域、地理范围或空间关系 等)及目标属性类型(地形高度、坡度 、土地利用现状等)两个方面的综合条 件。
光电信息检索系统:使用缩微照相记录 二次文献,以胶卷或胶片边缘部分若干黑白小 方块的不同组合做检索标志,利用光电检索元 件查找文献的检索系统。
计算机信息检索 起源于20世纪50年代初,1954年美国海 军兵器中心图书馆利用IBM701机开发计算机检 索系统,它标志着计算机信息检索阶段的开始 ,计算机信息检索可以分成四个发展阶段。
机械信息检索阶段分为 机电信息检索系统:使用诸如打孔机、验 孔机、分类机等机电设备记录二次文献,用电 刷作为检索元件的信息检索系统。
电刷在电机旋转部分与静止部分之间传导 电流的主要部件之一。具有良好的滑动接触特 性(如摩擦系数、耐磨性等),对电阻率和接触 电阻等也有特殊要求,通常以石墨为主要原材 料。
这种方式不需要更多的设备,不受 时间、地点限制,检索者只要有手工检 索工具即可。
计算机检索是通过计算机来模拟人 的手工检索过程,由计算机来处理检索 者的检索提问,将检索者输入检索系统 的检索提问(即检索标识)
按检索者预先制定的检索策略与系 统文档(机读数据库)中的存贮标识进 行类比、匹配运算,通过“人机对话” 检索出所需要的信息。
2014-5-26
4
狭义地说,大多数人讲到信息检索时, 一般只涉及取,即主要关注如何从存储的信息 集合中快速获取各种需要的信息。
(1)信息替代
对信息进行替代的过程,实际上是对 信息的外部特征(包括题名、著者、出 处等)和内容特征进行描述的过程,这 项工作被称为著录。
(2)信息整序
就是把众多的替代信息按照代表信 息特征的标记进行排列的过程。具体地 说就是对信息进行标引,给出信息标识 ,并编制各种类型的索引的过程。
因此,数据信息检索是一种确定性 检索(系统要直接回答用户提出的技术 问题,即直接提供用户所需要的确切的 数据或事实)。例如,查找各种物质的 物理化学常数、各种统计数据和工程数 据等属于数据检索的范畴。
事实检索以事项为检索的目的和 对象,检索的结果是有关某一事物的具 体答案,因此,事实信息检索是一种确 定性检索。