基于云计算的信息检索

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于云计算的信息检索技术

一.概念介绍

1.云计算

(1).云计算的定义

目前,云计算没有统一的定义,当前云计算的定义主要包括如下几种。

1)维基百科:云计算将IT相关的能力以服务的方式提供给用户,允许用户在不了解提供服务的技术、没有相关知识以及设备操作能力的情况下,通过Internet获取需要的服务。

2)中国云计算网:云计算是分布式计算(Distributed Computing)、并行计算(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些科学概念的商业实现。

3)云是一个包含大量可用虚拟资源(例如硬件、开发平台以及I/O服务)的资源池。这些虚拟资源可以根据不同的负载动态地重新配置,以达到更优化的资源利用率。这种资源池通常由基础设施提供商按照服务等级协议(ServiceLevel Agreement,SLA)采用用时付费(Pay-Per-Use,PPU)的模式开发管理。对比上述定义,可以发现,文献[6]和文献[8]中给出的定义的相似之处在于它们都提到了云计算提供服务。

从云计算用户的角度给出定义:即用户在不了解具体实现的情况下通过Internet获取服务。

(2)云计算技术具有以下特点。

1)云计算系统提供的是服务。服务的实现机制对用户透明,用户无需了解云计算的具体机制,就可以获得需要的服务。

2)用冗余方式提供可靠性。云计算系统由大量商用计算机组成集群向用户提供数据处理服务。随着计算机数量的增加,系统出现错误的概率大大增加。在没有专用的硬件可靠性部件的支持下,采用软件的方式,即数据冗余和分布式存储来保证数据的可靠性。

3)高可用性。通过集成海量存储和高性能的计算能力,云能提供较高的服务质量。云计算系统可以自动检测失效节点,并将失效节点排除,不影响系统的正

常运行。

4)高层次的编程模型。云计算系统提供高层次的编程模型。用户通过简单学习,就可以编写自己的云计算程序,在“云”系统上执行,满足自己的需求。现在云计算系统主要采用Map—Reduce模型.

5)经济性。组建一个采用大量的商业机组成的集群相对于同样性能的超级计算机花费的资金要少很多。

6)服务多样性。用户可以支付不同的费用,以获得不同级别的服务等。

(3)结论:

为了更好地定义云计算,必须从云计算的服务使用者,服务提供者,组织方式,内部实现机制等方面同时定义。根据现有定义的不足,本文定义云计算为:“云计算是由网格计算发展而来的,前台采用用时付费的方式通过Internet向用户提供服务。云系统后台由大量的集群使用虚拟机的方式,通过高速互联网络互连,组成大型的虚拟资源池。这些虚拟资源可自主管理和配置。用数据冗余的方式保证虚拟资源的高可用性。并具有分布式存储和计算、高扩展性、高可用性、用户友好性等特征。”

(4)云计算基本模型

在图1中的基本模型中,用户通过用户接口从云计算服务目录中选择一项自己需要的服务,请求被送给系统管理单元,并查找提高服务所需要的资源,然后调用Provisioning Tool 从“云”中提取出所需的资源,雕刻出一朵特定的“云朵”来提供服务。其中Monitoring and metering为可选单元,监视“云”的使用情况,保存资源与特定用户的归属关系,Servers “云”里面是由服务器互连构成的一张大网,由系统管理工具进行管理,可进行并行计算,通过虚拟技术实现最大化资源的利用并提供服务给用户。

2 .基于云计算的检索

1.介绍与原理

云计算作为商业服务模式不仅影响了整个IT行业。同时给信息检索带来了巨大的影响,通过云计算平台,将本来的一个单个的服务器连成了一个云,每个服务器变成了云中一个个节点。从而组成了一个检索成本低、信息资源利用率高、速度快的信息检索系统。云计算技术给信息检索带来的影响主要表现在以下几个方面。

(1)存储方式

云计算采用的是一种叫做云存储的存储模式,云存储将网络中各类存储设备

通过应用软件集合起来协同工作,对外提供数据存储和业务访问功能的一个系统。云存储主要是由4层组成:存储层、基础管理层、应用接口层、访问层。云存储

改变了过去的存储模式,由过去独自存储模式转变为由数据中心集中管理。过去的数据大多存放在各个数据信息提供者自己的服务器上,而云存储提供商采用集中的数据中心向用户提供数据存储服务。由一朵朵的存储云连成了成片的存储云群,用户可以通过终端软件对数据进行访问使用,而不用知道这些数据是如何进行存储,存储到哪,这也构成了数据源异构的现象,将使得信息检索系统在对数据检索的时候出现迷路的现象。

(2)检索模式

传统的信息检索多采用的是集中串行式检索,使得检索系统的覆盖面限.只能完成某一个领域或某一方面的信息检索.采用的串行检索也使得检索效率低下,一旦检索过程中某一环节出错,将影响整个检索过程。云将全球的数据集中放人了存在于云中的各个服务器中.如云数据中心、云存储。信息检索不再是单个的服务器或在单机上进行检索,而是需要面对多个存储服务器。是一朵朵的云。这就不能再采用传统的集中串行检索,而需要对以前的检索模式进行相应的改进。云计算采用的是分布式并行计算方式,这种分布式系统是由地域上分散、相对独立但相互联系和制约的种部分(子系统),通过网络互联构成的完成特定功能的整体,是一种松耦合的MIMD系统在分布环境下的一种形式。系统中每一个分布节点都可以是一台并行的计算机.这些计算机没有主次之分,处于同一平等地位。是一种异构结构。并行计算是同一时间调用多个处理器来并发执行计算,解决了目前中央处理器(CPU)运行速度接近上限的问题,大大提高了运算的速度。能对大规模的海量数据进行运算处理。基于云计算的信息检索系统中,当用户提出查询要求,并将提问式提交给检索代理,检索代理将检索提问式发送给了存在于云中的各个服务器,并对各个节点上的存储服务器中的数据信息进行分析排序.得出相关度排在前列的服务器.并对这些存储服务器进行并行分布式检索,将检索结果重新整合按相关度进行排序后传到用户检索界面呈现在用户面前.大大提高了检索能力和检索速度。

2. 基于云计算的信息检索的特点

(1)成本低廉。基于云计算的信息检索系统将数据管理的任务都交给了专门的数据管理中心集中管理,减少了硬件软件的投入,降低了相应的投入成本。

(2)可利用资源多。由于各个检索提供者可能将数据都放到了统一的数据中心。通过相互问的合作可以进行资源共享,使检索的数据源成倍地增加,可以利用的资源也相应增多。

(3)检索速度快。由于云计算采用的是分布式和并行技术,新技术解决了由于计算机中央处理器(CPU)速度提高的瓶颈,大大提高了信息检索的速度。

相关文档
最新文档