Web缓存技术概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Web缓存技术概述
[日期:2006-05-31] 来源:作者:[字体:大中小]
王世克吴集金士尧
摘要WWW是互联网上最受欢迎的应用之一,其快速增长导致网络拥塞和服务器超载,缓存技术被认为是减轻服务器负载、降低网络拥塞,减少客户访问延迟的有效途径之一。本文首先描述了Web缓存系统的基本要素及理想属性,然后介绍目前围绕Web缓存技术已经开展的研究,最后讨论Web缓存技术需要进一步研究的问题。
关键字WWW 缓存技术代理
1 引言
WWW是互联网上最受欢迎的应用之一,其快速增长造成网络拥塞和服务器超载,导致客户访问延迟增大,WWW服务质量问题日益显现出来。缓存技术被认为是减轻服务器负载、降低网络拥塞、增强WWW可扩展性的有效途径之一,其基本思想是利用客户访问的时间局部性(Temporal Locality)原理,将客户访问过的内容在Cache中存放一个副本,当该内容下次被访问时,不必连接到驻留网站,而是由Cache中保留的副本提供。
Web内容可以缓存在客户端、代理服务器以及服务器端。研究表明,缓存技术可以显著地提高WWW性能[1][2],它可以带来以下好处:
(1)减少网络流量,从而减轻网络拥塞;
(2)降低客户访问延迟,其主要原因有:①缓存在代理服务器中的内容,客户可以直接从代理获取而不是从远程服务器获取,从而减小了传输延迟;②没有被缓存的内容由于网络拥塞及服务器负载的减轻而可以较快地被客户获取;
(3)由于客户的部分请求内容可以从代理处获取,从而减轻了远程服务器负载;
(4)如果由于远程服务器故障或网络故障造成远程服务器无法响应客户请求,客户可以从代理中获取缓存的内容副本,使得WWW服务的鲁棒性(Robustness)得到了加强。Web缓存系统也会带来以下问题:
(1)客户通过代理获取的可能是过时的内容;
(2)如果发生缓存失效,客户的访问延迟由于额外的代理处理开销而增加。因此在设计W eb缓存系统时,应力求做到Cache命中率最大化和失效代价最小化;
(3)代理可能成为瓶颈。因此应为一个代理设定一个服务客户数量上限及一个服务效率下限,使得一个代理系统的效率至少同客户直接和远程服务器相连的效率一样。
目前,围绕Web缓存系统及其最优化问题已经开展了广泛而深入的研究,这些研究工作主要是围绕代理的作用展开的。
2 Web缓存系统的理想特性
一个理想的Web缓存系统应具有以下特性:
(1)快捷性:缓存系统应该能够有效地降低客户的访问延迟;
(2)鲁棒性:鲁棒性意味着可用性,客户希望Web服务随时可用;
(3)透明性:缓存系统对客户应是透明的,客户得到的结果仅仅是快速的响应和良好的可用性;
(4)可扩展性:Web缓存系统应能够随着网络规模和密度的不断增长而很好地进行扩展;(5)高效性:Web缓存系统给网络带来的开销越小越好;
(6)适应性:缓存系统能够适应客户请求和网络环境的动态变化,这涉及到缓存管理、缓存路由、代理配置等,对于获得理想的缓存性能至关重要;
(7)稳定性:Web缓存系统采用的方案不应给网络带来不稳定;
(8)负载均衡:一个理想的缓存方案应能够将负载均匀地分发到整个网络,以避免某一个代理或服务器成为瓶颈或Hot spot点,而造成系统一部分甚至整个系统性能下降;
(9)异构处理能力:随着网络规模和覆盖域的不断增大,网络将跨越一系列不同的硬件和软件体系结构。Web缓存系统应能够适应不同的网络体系结构;
(10)简单性:简单的方案容易实现且易被普遍接受,一个理想的Web缓存方案配置起来应简单易行。
围绕上述特性,一个Web缓存系统必须解决好以下问题:
(1)缓存体系结构:缓存代理在网络中如何组织和配置;
(2)代理合作:代理间如何合作,相互合作的代理可以提高命中率而改善缓存系统的性能;(3)缓存路由:当一处缓存代理失效时,如何将请求向其它缓存代理转发;
(4)缓存替换算法:当缓存空间不够时,缓存内容如何替换;
(5)缓存一致性:即缓存内容的时效性问题,如何防止缓存的内容过时;
(6)内容预取:代理如何决定从服务器或其它代理处进行内容预取以减少客户的访问延迟;(7)负载平衡:如何解决网络中的“Hot spot”现象;
(8)缓存内容:什么样的内容可以被缓存。
在设计Web缓存系统时,必须涉及上述问题。
3 Web缓存方案概述
3.1 Web缓存体系结构
一个Web缓存系统的性能取决于其客户群的大小,客户群越大,缓存的内容被再次请求的可能性就越高。相互合作的Cache组可能会提高命中率而提高缓存系统的性能,因此缓存系统的体系结构应确保代理间能够有效地进行合作。典型的缓存体系结构有以下几种:层次式、分布式和混合式。
图1 Web缓存系统体系结构图
3.1.1 层次式缓存体系结构
Harvest项目[3]首先提出了层次式Web缓存体系结构。在层次式缓存体系结构中,Cache
在网络呈多级配置,如图1(a)所示。为简单起见,假定有四级:底层Cache、局域层C ache、区域层Cache、广域层Cache。底层是客户/浏览器Cache,当客户端Cache不能满足客户的请求时,该请求被转发到局域层Cache,如果仍然得不到满足,则该请求被转发到区域层Cache直至广域层Cache。如果该请求在各级Cache中都得不到满足,则请求最终被转发到服务器。然后服务器对该请求的响应自顶向下地发送给客户,在沿途的每一个中间层Cache中留下一个副本。请求相同内容的其它请求则自下而上地进行转发,直到在某一级Cache中得到满足。
层次式缓存体系结构带宽效率高,点击率较高的Web内容可以快速高效地分布到网络中。但该体系结构也存在一些不足[4]:
(1)建立层次式缓存体系结构,缓存服务器必须配置在网络中关键的访问点上,缓存服务器间需相互合作;
(2)每一级Cache都会带来额外的延迟;
(3)高层Cache可能会成为瓶颈并带来较长的排队延迟;
(4)同一个内容的多个副本被保存在不同的Cache中,整个系统Cache空间利用率不高。
3.1.2 分布式缓存体系结构
针对层次式缓存结构的上述缺陷,一些研究者提出了分布式缓存体系结构,在这种结构中,只有低层Cache,如图1(b)所示。文献[5]中的分布式Web缓存结构中,没有超出局域层的中间Cache层,Cache之间相互协作以处理失效。为了确定将客户请求转发给哪一个局