信息检索概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)光盘检索(CD-ROM Retrieval)
(4)网络检索(Internet Retrieval)
1.2.1信息检索系统的概念
信息检索过程的实现要依靠特定的系统,这个系统就是信息检索系统。系统是由两个或两个以上既相互区别又互相影响的各种要素构成的统一整体,信息检索系统的构成包括六个要素:
(1)目标
联机检索系统也称国际联机检索系统,通常采用相对封闭的客户机/服务器模式,属于典型的主从式结构。如图1-3所示,联机检索系统通常由联机检索中心、通信设施、检索终端3个主要部分组成。
联机检索系统的特点是:
①检索范围广,数据库数量多,几乎涉及到各个学科领域,世界上公开出版发行文献的90%都可以通过几种主要的联机检索系统查到。
因此文档信息检索过程实际上涉及文档集的逻辑表示、用户查询表示、相似性匹配及其排序三个重要的处理。
信息检索模型主要从两个方面抽象地研究信息检索方法:一是确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式;二是确定在模型中如何定义和计算文档和检索式之间的关系。
检索模型的重要作用主要体现在以下几个方面:更精确地描述出文档与文档、文档与查询间的相关关系,使之能比较和计算;安排更合理、更便于检索的文档存储形式;在此基础上设计出合理的检索方
(5)方法
(6)人员
由此可见,信息检索系统由若干个相互作用的部分构成,各部分的功能互异,设计的目的也各不相同,但它们之间相互联系,共同实现系统的目标。狭义地讲,这个目标就是检索信息;广义地讲,则是提升用户的知识水平。通常认为,信息检索系统的任务是告知用户他所需要的信息在哪里。也就是说,信息检索系统并不告诉用户他所询问的主题(即不改变用户的知识结构),它只是告诉用户这一主题是否存在于数据库中,相关的文献都存在哪里。
②检索内容新,数据库更新及时,基本上是同步,能够检索到最新信息。
③检索功能强,一个联机检索系统中的所有数据库通常使用统一的检索命令,检索途径多、检索效率高、检索质量好。
④数据库质量高,都是经过严格加工、处理和组织的,通常是各个领域中核心的和权威的数据库。
⑤检索较复杂,专业性太强,一般用户不容易掌握检索指令、规则和方法,通常依赖于专业检索人员。
第二节经典模型
信息检索的经典模型认为,每篇文档可以用一组有代表性的关键词即标引词集合来描述,标引词(index term)是文档中的词,其语义可以帮助理解文档的主题;因此,标引词常用于编制索引和概括文档的内容。对于文档中的标引词集合来说,在描述文档内容时它们的作用是不尽相同的,因而应当明确标引词与文档内容的密切程度。
⑥数据更新慢,周期较长,时效性差。
⑦数据量有限,受到光盘容量的限制,通常局限于专业领域,范围不够广泛。
(3)网络检索系统的物理结构
全文索引引擎是名副其实的搜索引擎网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果
⑥检索费用高,要求熟练掌握检索技巧和经验,普通用户难以承受。
⑦人机界面比较单一、呆板。
(2)光盘检索系统的物理结构
光盘检索系统有两种类型:单机光盘检索系统和光盘网络检索系统。
单机光盘检索系统比较简单,通常由计算机、光盘驱动器、光盘数据库等硬件设备组成,自成一体,系统结构简单,数据量少,利用率低,一次只能供一个用户检索,通常供单用户、单机使用。
信息检索的基本原理可以用下图表示:
从上图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中。
1.1.2信息检索的原理
从由此可见,信息存储和信息检索的直接交汇处是至关重要的,由此形成了信息检索的一致性匹配作用机理,如图1-2所示。
信息检索的一致性匹配作用机理包括5个机理:
(1)提取机理
(2)表示机理
(3)比较机理
(4)判断机理
(5)选择机理
1.1.3信息检索的类型
(一)按照信息检索的对象性质划分
(1)文献检索
(2)数值检索
(3)事实检索
(二)按照计算机检索技术划分
(1)脱机检索(Off-line Retrieval)
(2)联机检索(On-line Retrieval)
③超文本浏览,检索结果是完全可以直接阅读的Web页面,可以非线性地随时从一个页面跳到另一个页面。
④界面最友好,屏蔽了各个局域网之间的各种物理差异(如硬件系统、软件平台、地理位置、存储方式、通信协议等),极大地提高了系统的透明度,用户使用通用的图形窗口检索界面,即可访问和检索各种异构系统的数据库,在通过Web浏览器访问过程中,无需关心一些技术细节。
⑤操作最简便,良好的交互式作业、多种导航和编辑功能、及时获得在线帮助和指导以及符合大多数用户检索习惯的用户接口使得检索简单易行,不必经过太多的培训即可操作。
⑥检索效率不高,网络信息缺乏规范和统一管理,动态性强,重复率、冗余度高,无用信息较多,查准率差。
1.2.4信息检索系统的逻辑结构
系统的逻辑结构主要是指该系统所包括的子系统或功能模块及其相互之间的逻辑关系。不管信息检索系统的物理结构如何,它们的逻辑结构大体上都是相同或相似的,只有组成部分多与少的区别。如前所述,信息检索系统的两大基本功能是存储和检索,这两大基本功能可以分解为6个子系统或功能模块,它们共同构成了信息检索系统逻辑结构。这6个子系统是采选子系统、词语子系统、标引子系统、查询子系统、交互子系统和匹配子系统。如图1-9所示。
(3)F是一种机制,用于构建文档表示,查询及它们之间关系的模型;
(4)R(qi, dj)是排序函数,该函数输出一个与查询qi∈Q和文档表示dj∈D有关的实数,这样就在文档之间根据查询qi定义了一个顺序。
基于经典布尔模型的信息检索模型中,文档和查询用标引词集合来表示,都是建立在集合理论的基础之上,因此,我们称该类模型为集合理论模型,包括模糊集合论模型、扩展布尔模型和粗糙集模型等。
1.3.1信息检索的研究内容
概括起来,信息检索的研究内容包括以下几个方面:
(1)信息检索理论研究
(2)信息检索方法研究
(3)信息检索技术研究
(4)信息检索语言研究
(5)信息检索系统研究
(6)信息检索服务研究
(7)信息检索评价研究。
与信息检索关系比较密切的相关学科和领域如下:
(1)计算机科学与技术。
(2)数学。
第一章绪论
1.1.1信息检索的概念
“信息检索”(Information Retrieval,IR,我国早期译为“情报检索”)一词最早出现于1952年,由美国学者穆尔斯(C.W.Mooers)提出,从1961年开始在学术界和实践领域中得到广泛的应用。
信息检索这一概念首先假设包含相关信息的文献或记录已经按照某种有助于检索的顺序组织起来。信息检索就是对信息项进行表示、存储、组织和存取的全过程。对信息项的表示和组织应该能够为用户提供其感兴趣信息的方便存取。遗憾的是,对用户信息需求进行全面而准确的描述不是一件轻而易举的事情。
用ki表示标引词,dj表示文档,wi,j≥0为二元组(ki, dj)的权值(weight),该权值可以用来衡量描述文档语义内容的标引词的重要性。用t表示系统中标引词的数目,K={k1, k2, ... , kt}是所有标引词的集合,wi,j>0是文档dj中的标引词ki的权值,对于没有出现在文档文本中的标引词,其权值wi,j =0。文档dj可以用标引词向量dj来表示:dj= (w1,j, w2,j,…, wt,j)。此外,函数gi用以返回任何t维向量中标引词ki的权值,即gi (dj) = wi,j。其中,标引词的权重通常被认为是互相独立的。
文档表示反映文档在系统中的存储形式描述,可用一组关键词或标引词表示;查询表示反映对用户信息需求的描述;匹配函数用于将经过处理的文档表示和查询表示放入系统中进行匹配,以过滤输出结果。
第二章信息检索模型
信息检索系统的实现首先要对文档集进行索引和归档,以支持信息检索。检索式代表用户的信息需求。检索系统分析查询与文档表示,进行相似性匹配,排序返回查询结果。
②检索费用低,一次购买、多次使用,不涉及远程通信,分摊成本低,用户心理上没有费用的压力。
③操作界面友好,帮助信息、功能键、窗口式对话框、鼠标控制等,简单易学,直接面向最终用户,不需要对用户进行专门的培训。
④输出灵活,可以有拷盘、打印、套录建库以及网上传输等多种输出形式。
⑤融多种媒体为一身,结合激光技术、计算机技术和多媒体技术,将文字、声音、图像、视频等多种媒体信息存储在一起。
传统的信息检索模型(又称经典信息检索模型)包括布尔模型、向量空间模型和概率模型。
信息检索模型到底是什么?其描述如下:
信息检索模型是一个四元组/D,Q,F,R(qi, dj)/:
(1)D是文档集中的一组文档逻辑视图(表示),称为文档的表示;
(2)Q是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询;
(3)系统科学。
(4)语言学。
(5)认知科学。
概括地讲,可以把信息检索当前正在研究的主要课题和未来发展趋势归纳如下:
(1)跨语言信息检索。
(2)多媒体信息检索。
(3)信息检索可视化。
(4)信息检索智能化。
(5)信息检索个性化。
(6)信息检索多样化
任何检索策略都包含3个部分:文档表示、查询表示和匹配函数。
网络检索系统的特点是:
①检索空间无限,检索范围覆盖了全球性、开放性Internet所能延伸到的世界各地,用户不必知道某种资源的具体地址。
②检索内容极其丰富,包括网上所有领域、各种类型、各种媒体(文本、图像、声音、视频、动画等)的信息资源,如Web、FTP、Telnet、Usenet、Gopher等。
基于经典向量模型的信息检索模型中,文档和查询用t维空间的向量来表示,都是建立在代数理论的基础之上,则称该类模型为代数模型,包括广义向量模型、潜语义标引模型和神经网络模型等。
基于经典概率模型的信息检索模型中,用于构建文档和查询模型的机制是基于概率论的,则称该类模型为概率模型,包括推理网络模型和信任度网络模型等。
布尔检索模型是最早提出的一个信息检索模型,它具有简单、易理解、易实现等优点,故得到广泛的应用。1967年后,布尔检索正式被大型文档检索系统采用,并渐成为各种商业性联机检索系统的标准检索模式,服务信息情报界30多年,直到现在,大多数商用检索系统仍采用布尔检索。
尽管布尔模型有着种种的优点,但是它的缺点仍然是明显的,它存在的主要缺陷有以下几点:
1.2.2信息检索系统的类型
(1)书本式检索系统。
(2)卡片式检索系统。
(3)机械式检索系统。
(4)缩微式检索系统。
(5)计算机检索系统。
(6)网络检索系统。
1.2.3信息检索系统的物理结构
(1)联机检索系统的物理结构
所谓联机检索,是指用户利用终端设备,通过通信网络或通信线路与分布在世界各地的检索系统中心的中央计算机连接,通过人机对话的方式,运用特定的检索指令和检索策略,访问中央数据库,从中检索出所需信息的过程。
(1)布尔逻辑式的构造不易全面反映用户的需求。
(2)匹配标准存在某些不合理的地方。
(3)检索结果不能按照用户定义的重要性排序输出
2.2.2向量模型
光盘网络检索系统可以分为面向特定范围对象的局域网的系统和依托Internet的面向所有用户开放的系统,其实质是将光盘资源上网,允许局域网、广域网甚至Internet上的众多用户在同一时间、不同地点同时访问一个或多个光盘数据库。其局域网系统的物理结构如图1-4所示。
光盘检索系统的特点是:
①方便快捷,不受通信线路和网络等因素的影响和限制,可以随时启动使用。
2.2.1布尔模型
布尔模型(Boolen Model)是基于集合理论和布尔代数的一种简单的检索模型,它假定标引词在文档中要么出现,要么不出现。因此,标引词的权值全部被设为二值数据,wi,j∈{0, 1},查询q由连接词not、and、or连接起来的多个标引词所组成,如“奥运会”、“奥运会”and“中国”、“奥运会”and(“中国”or(not“体操”))等,通过对标引词与用户给出的检索式进行逻辑比较来检索文本。
相关文档
最新文档