网络信息检索概述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 基于概念的信息检索系统
基于概念的信息检索是通过对文献中的原文信息进行语 义上的自然语言处理,析取各种概念信息,并由此形成 一个知识库。然后,根据对用户提问的理解,检索知识 库中相关的信息,以提供直接的回答。
(1)概念信息检索的特性
概念信息检索具有分析和理解自然语言的能力。无论是 向知识库的自然语言输入,还是对系统的自然语言提问, 概念信息检索都可以通过分析和理解,得到自然语言原 文的内容。
(1)设计思想
一般是基于引导浏览的检索系统。其设计思想是:屏幕 上的窗口与数据库中的卡片相对应,卡片是数据库中的 基本信息单元,即节点。卡片间通过链路即数据库中的 指针相连接,在窗口中则以高亮度的关键字为标志。
超文本系统结构模型主要采用Combell、Goodman及 Dexter模型。其中Combell与Goodman模型都具有表现层、 抽象机制和数据库层三层结构,而Dexter模型的结构则 为运行层、表现描述层、存储层、锚定点机制及内部组 件层五层。从描述超文本信息的组织结构来看,可分为 基于图论的模型、基于网论的模型、基于逻辑模型、基 于集论的模型。
网络信息检索
第 二 章
上海理工大学电子商务研究所 设计制作:王锡俊
第二章 网络信息检索系统
2.1 网络信息检索概述
2.2 World Wide Web(WWW)检索系统
2.3 常用中英文搜索引擎及检索策略
2.4 网上多媒体信息检索系统
2.5 经济信息检索系统
2.6 互联网科技信息资源检索类型
2.1 网络信息检索概述
概念信息检索可以对输入的原文根据其概念内容进行组 织和安排,而不是根据关键词检索。概念信息检索可以 进行语义层次上的自然语言处理,以析取相关的概念信 息和范畴知识;然后,通过记忆机制将它们存储到知识 库中,以备检索之用。
概念信息检索的记忆机制能够自动补充与更新。同时, 存储在知识库中的概念信息和范畴知识也能得到补充与 更新,且补充与更新的新信息与新知识能恰当地归类到 相应的范畴之中。 概念信息检索具有使用自然语言回答用户提问的能力。 这种能力包括从自然语言原文的概念内容中析取检索要 点,通过记忆机制检查某个特别的范畴,以获取必需的 背景知识,以及通过对知识库中存储的其它概念信息进 行分析和理解,并回答用户的提问。
还有由McCune和Tong研制的Rubric系统,是用来检索与 恐怖行为概念有关的文献。 美国通用电器公司人工智能研究室的Ran 1987年建立的 SCICOR系统、美国卡内基梅隆大学机器翻译中心1991 年完成的FER RET系统。
3. 超文本信息检索系统
以超文本网络为基础的文献检索系统。正文信息是以节 点而不是以字符串作为信息的基本单元,节点间通过链 进行连接。在检索文献时,节点间的多种链接关系可以 动态地选择性激发,从而可根据思维联想或新信息的需 要,通过链从一个节点跳到另一个节点,由此形成随着 人们思维和需要的流动而构成的数据链,体现出一种完 全不同于过去顺序检索方式的联想式检索。
1. 计算机检索系统的发展过程
第一阶段,1971年以前,开始建立计算机信息检索系统, 并取得了一定的进展。这一阶段的数据存取与数据通信 能力都比较差。 第二阶段,1971年以后,产生并发展了联机情报检索系 统。这一阶段的特点是联机数据库集中管理,具有完备 的数据库联机检索功能,但其数据通信能力较差。 第三阶段,20世纪80年代以后,出现了以Internet为标志 的网络信息检索系统。系统大多采用分布式的网络化管 理,其信息资源的主要特点是:数字形式表达、多媒体 和多载体、内容覆盖面广、分布无序、难于规范化和结 构化、内容特征抽取复杂、用户界面要求高等。
(2)概念信息检索系统的结构
概念信息检索系统的结构一般分为: 记忆机制部分。存储原文内容或概念,能自动更新。 语言分析机制部分。运用自然语言处理技术,从语义层 次上分析和理解文本内容及用户提问内容。 知识库部分。通过分析机制和记忆机制,获取关于检索 和推理的知识。 人机接口部分。输入原文内容及用户提问,输出自然语 言形式的检索结果。
2.1.1 计算机检索特点 2.1.2 网络信息检索工具及原理 2.1.3 网络信息检索工具的发展趋势
Biblioteka Baidu.1.1 计算机检索特点
随着计算机技术、高密度海量存储器技术和现代通信技 术的发展,计算机检索系统已经成为世界上最先进的信 息检索系统。它具有检索速度快、检索范围广而全面、 检索途径多、质量高、检索内容新等特点。由于计算机 具有上述特点,所以它广泛应用于信息管理中,如情报 信息管理、图书馆资料管理、档案馆文件管理等方面。 计算机信息检索系统能存储大量的信息,并对信息条目 进行分类、编目或编制索引;还可以根据用户要求从已 存储的信息库中调取出特定的信息,并提供插入、修改 和删除某些信息的能力。
(2)超文本系统结构与模型
(3)应用系统
目前已建立了多个基于超文本的信息检索系统,如 AltaVista、WebCrawler、Yahoo!、 Lycos、Open Text、 Infoseek等著名的网络检索系统。这些系统检索速度快, 数据资料新,具备多种查询方式,极大地方便了用户使 用Internet,提高了全文检索的查全率。
第四阶段,进入21世纪后,随着连续性语音识别技术的 不断发展,计算机信息检索系统跨入一个新的阶段。在 前三个阶段的基础上,信息检索技术正向两个新的方向 发展:一是传统信息检索向全文文本、多媒体等新型信 息检索发展,在深度上应能对提问的内容进行分析和理 解,提高查准率,探索自动抽词、自动索引、自动检索、 自动文摘、自动分类、自动翻译等解决方案,提高管理 和组织信息的能力;二是信息资源的网络化和分布化, 主要面对Internet中浩瀚无垠的资源,提高查全率。
(3)应用系统
CyFr系统。CyFr系统是Schank、Kolodner和DeJong于 1981年根据概念信息检索理论建立的系统,用于处理与 美国前国务卿范斯(Vance)有关的新闻。 Researcher系统。由Lebowitz于1983年在哥伦比亚大学研 制,用于阅读和理解用自然语言形式输入的专利文献摘 要。