第05章 检索模式扩展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5章 检索模式扩展
5.1 引言 5.2 并行式检索 5.3 分布式检索 5.4 集群式检索 5.5 异构数据库检索 5.6 跨语言检索 5.7 可视化检索 5.8 语义检索
Information Retrieval and Processing
5.3 分布式检索
5.2.1 分布式检索原理 5.2.2 分布式检索处理技术 5.3.3 分布式检索中的数据集选择
Information Retrieval and Processing
5.1 引言
海量数字化信息 数据库的跨平台、跨模式、跨系统 语言的多样性 检索界面的人性化、个性化 自然语言所蕴含的丰富语义
Information Retrieval and Processing
5.1 引来自百度文库(续)
Information Retrieval and Processing
5.3.2 分布式检索处理技术(续)
(2)把接收来的提问翻译成检索软件可识 别的语言,即检索提问式。
(3)确定哪些信息资源包含与检索提问式 最相关的信息。
(4)利用检索提问式对确定的资源进行检 索。
(5)收集相应的检索结果。 (6)对检索结果进行整理。 (7)把整理好的结果提供给用户。
Information Retrieval and Processing
5.2.2 并行检索技术(续)
2. 并行检索软件技术
程序的相关性
数据相关——数据相关说明的是语句之间的有序 关系。主要有流相关、反相关、输出相关、I/O 相关和求知相关等。
控制相关——控制相关是指语句执行次序在运行 前不能确定。它一般是由转移指令引起的,只有
Information Retrieval and Processing
5.2.2 并行检索技术(续)
网络互连
将计算机子系统互连在一起或构造多处理机或多 计算机时可使用静态或动态拓扑结构的网络。
静态网络由点——点直接相连而成,这种连接方 式在程序执行过程中不会改变,常用来实现集中 式系统的子系统之间或分布式系统的多个计算结 点之间的固定连接。
Information Retrieval and Processing
5.2.2 并行检索技术(续)
3. 并行检索策略
数据并行——在SIMD计算机系统中,并行性 一般只体现为数据并行,即计算机内包含一 组处理单元,每一个处理单元存储一个或多 个数据元素。当机器执行顺序程序时,可对 应于全部或部分的内部处理单元所存的数据 同时操作。
Information Retrieval and Processing
5.3.1 分布式检索原理
分布式检索主要是指在分布式的环境中, 利用分布式计算和移动代理等技术从大 量的、异构的信息资源中检索出对用户 有用的信息的过程。
目前大多数分布式检索系统都是由多个
代理服务器组成的多级代理的分布式检
利用MIMD(Multiple Instruction Stream Multiple Data Stream,多指令 流多数据流)结构对多个查询的处理并 行化,即每个处理器处理不同的查询, 每个查询的处理之间相互独立,最多只 对共享内存内的部分代码或公有数据实 行共享。
Information Retrieval and Processing
查询间的并行处理过程
查询
代 理 结果
查询 1
结果 1 查询 2 结果 2 查询 3 结果 3
搜索程序 1 搜索程序 2 搜索程序 3
Information Retrieval and Processing
2. 单个查询内部的并行处理
指对单个查询的计算量进行分割,划分 成多个子任务,并分配到多个处理器上 的搜索进程去执行,也称之为进程级并 行检索。
Information Retrieval and Processing
5.2.2 并行检索技术(续)
软件的并行性主要是由程序的控制相关和数据相 关决定的。在并行性开发时往往把程序划分成许 多程序段——颗粒。颗粒的规模也称为粒度,它 是衡量软件进程所含计算量的尺度,一般用细、 中、粗来描述。划分的粒度越细,各子系统间的 通信时延也越低,并行性就越高,但系统开销也 越大。
各种检索模式彼此并不是孤立的,最初是两三 种检索模式结合,然后是多种检索模式结合, 未来将形成新型的智能信息检索。
Information Retrieval and Processing
第5章 检索模式扩展
5.1 引言 5.2 并行式检索 5.3 分布式检索 5.4 集群式检索 5.5 异构数据库检索 5.6 跨语言检索 5.7 可视化检索 5.8 语义检索
将单个查询分成多个子任务的方法通常 有两种:
数据集分割
查询项分割
Information Retrieval and Processing
查询内部的并行处理过程
查询
代 理 结果
子查询 1 子结果 1 子查询 2 子结果 2 子查询 3 子结果 3
搜索程序 1 搜索程序 2 搜索程序 3
Information Retrieval and Processing
5.2 并行式检索(续)
在信息检索领域,并行信息检索则为有 效加快检索速度提供了新的途径。
由计算能力较强的并行机实现全文数据 库检索,表现出改进响应时间、适应大 规模数据库、提高超级算法性能、降低 查找成本4个方面的优势。
Information Retrieval and Processing
Information Retrieval and Processing
基于多级代理的分布式检索系统
用户
检索代理系统(总代理系统)
检索代理系统(子代理1)
子代理2
(可以有多层代理系统)
……
子代理n
……
子代理(最低层) 搜索引擎系统(也可以有多个)
……
数据库1
数据库2
……
数据库n
Information Retrieval and Processing
索系统。
Information Retrieval and Processing
5.3.1 分布式检索原理(续)
一个简单的分布式检索系统由多个数据 集服务器(Collection Servers)和一个 或 多 个 代 理 处 理 器 ( broker ) 两 个 部 分 组成。在由一个代理处理器的检索系统 中 , 用 户 向 broker 提 交 检 索 提 问 式 , broker用该检索提问式检索数据集服务 器的子集而完成信息的查找。
Information Retrieval and Processing
5.2.2 并行检索技术(续)
功能并行(或称控制并行)——在MIMD计 算机或分布式计算机系统中,既可以采用数 据并行,也可以实现功能并行。此时的数据 并行可理解为数据库中的各数据集分存于多 台处理机或计算机中,可同时对各自存储的 数据集执行相同的操作。功能并行是将一个 程序划分为若干个段,每一段由一台处理机 或计算机执行,而多段程序并行执行需考虑 段间同步、通信等许多复杂问题。 Information Retrieval and Processing
Information Retrieval and Processing
第5章 检索模式扩展
5.1 引言 5.2 并行式检索 5.3 分布式检索 5.4 集群式检索 5.5 异构数据库检索 5.6 跨语言检索 5.7 可视化检索 5.8 语义检索
Information Retrieval and Processing
Information Retrieval and Processing
5.2.2 并行检索技术(续)
动态网络是用开关通道实现的,它可动态地改变 结构,使之与用户程序中的通信要求匹配。动态 网络包括总线、交叉开关和多级网络,常用于共 享存储型多处理机中。
消息在网络上的传递主要通过寻径来实现。常见 的寻径方式是存储转发寻径和虫蚀寻径等。
Information Retrieval and Processing
5.3.3 分布式检索中的数据集选择
数据集选择(Collection Selection)是 指怎样选择最合适的信息资源库的子集, 并保证这些子集可能包含与检索提问式 相关的文献的数量最多。
将数据集选择方法分为五类:朴素法、 粗略法、定性方法、定量方法和基于学 习的方法。
信息检索与处理
Information Retrieval and Processing
第5章 检索模式扩展
Information Retrieval and Processing
第5章 检索模式扩展
5.1 引言 5.2 并行式检索 5.3 分布式检索 5.4 集群式检索 5.5 异构数据库检索 5.6 跨语言检索 5.7 可视化检索 5.8 语义检索
5.3.2 分布式检索处理技术
解决分布式检索的技术很多,如用于分 布式数据库设计与实现的分布式对象组 件模型(DCOM)和公共对象请求代理 构架(CORBA)、用于解决分布式环境 下数据库之间异构问题的Z39.50协议、 P2P网络结构技术等。
分布式环境下代理技术的检索功能包括
(1)从用户或代理服务器那里接受提问。
Information Retrieval and Processing
5.2.2 并行检索技术(续)
在程序执行到一定的语句时才能判断出语句的相 关性。控制相关常使正在开发的并行性中止,为 了开发更多的并行性,必须用编译技术克服控制 相关。
资源相关——资源相关与系统进行的工作无关, 而与并行事件利用整数部件、浮点部件、寄存器 和存储区等共享资源时发生的冲突有关。
信息的表达方式 信息的存储介质 信息的组织方式 信息的通信方式 信息的显示方式
Information Retrieval and Processing
5.1 引言(续)
传统的单一检索模式正在逐渐演变,扩展为并 行式检索、分布式检索、集群式检索、异构数 据库检索、跨语言检索、可视化检索和语义检 索等。
Information Retrieval and Processing
5.3.1 分布式检索原理(续)
子集中的每个信息库服务器反馈给 broker一个按相关度由大到小排列的信 息 列 表 。 最 后 , broker 对 所 有 的 结 果 列 表进行整合形成新的信息列表反馈给用 户。见下页图。
并行检索模型
查询词和文献列表
查询
用户 入口结点
结果
(分块信息) 数据库
处理结 点1
处理结 点2
处理结 点3
处理结 点4
数据库
数据库
数据库
数据库
Information Retrieval and Processing
5.2.2 并行检索技术
1. 并行检索硬件技术
处理机 存储器 流水线
信息检索系统可以采取任务并行、数据 并行及其混合方式的策略。
Information Retrieval and Processing
5.2.1 并行检索原理(续)
1. 多个查询之间的并行处理 2. 单个查询内部的并行处理
Information Retrieval and Processing
1. 多个查询之间的并行处理
Information Retrieval and Processing
5.3.2 分布式检索处理技术(续)
智能代理可以在用户没有明确具体要求 的情况下,根据用户需要,代替用户进 行各种复杂的工作,如信息查询、筛选、 谈判、管理等,并能推测用户的意图, 自主制定、调整和执行工作计划。
移动代理可以完成代理的上述多项功能, 成为目前分布式检索中常用的技术手段。
5.4 集群式检索
5.4.1 集群式检索概述 5.4.2 集群式检索技术
Information Retrieval and Processing
5.2 并行式检索
5.2.1 并行检索原理 5.2.2 并行检索技术
Information Retrieval and Processing
5.2.1 并行检索原理
并行检索主要依赖并行处理技术,即把 计算机任务划分成更小的部分,然后用 多个处理器并行执行子任务,每个处理 器处理同一个问题的不同部分。