随机过程在网络研究上的一些应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机过程在网络研究上的一些应用
叶绍志 024833 无研06
我所在的实验室的研究内容分成四大块:网络体系结构,网络信息服务,网络安全,组播与网络多媒体。下面我一个一个介绍随机过程在该方面的应用。这里所提到的网络,都是指互联网(Internet),而非广义上的网络。
一、网络体系结构
这个方向主要研究的是,各种网络协议。
比如路由协议,路由问题本质上是要寻求一个大网上面寻径的方式。有很多的模型来描述,比如寻求最小生成树的解。寻找最优路由(至少是尽可能的优)的行为,可以看作是在一个大的随机图上面的行走问题。现在在高速网络上路由器尤其是核心路由器,负载本身已经很重了,如果再对日益增大的路由表作大量的计算,显然是不合适的,更何况网络的情况瞬息万变,基本上从一个节点(比如一个自治域)是无法知道整个网络的所有细节的,这就使得传统的作连通图上面的最短寻径或者加权最短寻径问题的基于一个相对确定或者规律性强的模型和方法,比较难于移植。当然难于移植的原因,很大一方面是我们现在对互联网的认识还非常欠缺,如果我们对这个图的性质了解不够深入,就比较难于提出一个好的解决方案。随机图论在互联网路由上面的应用逐渐增多,但是进展和收效都甚缓,如果在互联网本身的内在特征研究上面没有进一步的结果,那么恐怕这样的状况会持续。或者在整个图上面增加更多的假设性的限制,但是全局性的问题始终过于复杂而仅能用比较粗糙的模型描述。这个时候,统计的方法就显得格外重要,一方面希望从中获取规律性的特征,一方面希望以统计的办法绕过比较困难的精确论证和求解。但是局部统计,乃至不完全统计的结论所作的模型意义到底有多大呢?这其中有很多的东西需要随机过程的工具来处理。
在路由协议方面,今年毕业的罗佳增师兄做的“边界网关协议(BGP)慢收敛特性的分析与改进”的课题,就涉及到相应的图理论,主要是研究在BGP协议(即域间路由协议)上面,路由消息更新的速度以及对此提出的优化方案。但是他的工作没有深入到加权有向图的模型上,仅仅是对静态的连通图模型作了研究和考察。即便如此,他的工作仍然取得了非常好的成果[1]。如果在此基础上面,考虑到图的动态变化,将使得所设计的模型更加切合实际,当然这个分析的难度也上去了(也许这就是他没有做的原因吧)。估计这可能可以作为这个课题的后续工作。
同时现在开始热起来的Overlay(所谓层叠网络)上面的研究逐渐增多。这方面的研究基本上都是要寻求一个图论上的解决。尤其是自组织的overlay,涉及到的测量和网络自组织,随机过程在上面的应用还只是起步阶段。现在这方面的工作正在展开。从单纯的设计一个应用,到寻求一个“优”的解。简单的说,overlay可以认为是一种虚拟网络,他架设在真实的网络之上,但是用户之间是端到端(P2P)的行为,这也是互联网最初设计的时候的一个基本思想。大量的散布在各处的节点之间如何通讯就成为首当其冲的问题。基本上现在的思路都是将
“环境”类似,或者“邻近”的节点“聚”为一个大的节点,也就是说在这些点与其他“大节点”通讯的时候,只需要使用所在的“大节点”中的一个代表来作测量,测量两个“大节点”之间的距离,即可。因为要在任意两个节点之间作测量所需的开销过大,所以就使用这样的办法。至于这个“代表”如何选,测量什么的“距离”,如何根据“距离”寻径,就相应而生各种各样的overlay,上面的文章就可以做很多了。现在这方面的工作乃至和这方面接近的工作有著名的napster(Mp3的共享)/Gnutella/Freenet(被中国封掉了, )/KaZaA(这是一种Fasttrack的实现,在美国的流量统计中,已经有赶超Web流量的趋势)/eDonkey (一种将大文件分割成很多小片段在网络上面共享的)。中国这方面的普及还比较慢,我在欧洲的同学说他们那里没有ftp,使用盗版软件都用这种P2P的工具获取,基本上什么都能弄到,☺。
举一个简单的例子,考察一个图上面各点之间的连接状况,在这一时刻,做一次测量,得到一个带权(这个权可以认为是线路的某种关心的性能指标,比如延时等)的图(随机图理论中应当称之为生成子图),然后下一时刻就根据这个计算来指引各点之间的通讯。但是这就改变了原来图上的通讯情况(比如,改变了原先的拥塞情况),于是又一次测量获得的生成子图就和“刚才”获得的那个图有所不同了,这样形成一个反馈系统,这个过程具有一定的马尔科夫性,是否存在极限分布和收敛的速度都是我们所关心的。而且如果将整个网络看作一个整体,首先显然是有层次的,一层一层聚起来,这种局部的变化对全局的影响,或者全局是怎么变化的,都是每一个在overlay上面做工作的研究人员所关心的。
传输控制或者流量工程,这也是这个研究方向的一个重点(我不是做这个方向的,不知道热不热),主要是QoS,研究网络的传输情况,这个时候传统的排队论在上面有很多的描述,但是现实情况因为载波监听冲突检测的机制,使得泊松的条件不成立,可以采取一些折衷的办法,如半马尔科夫模型或者emc模型等等。
当然除了QoS,还有涉及更加本质的tcp协议本身性质的工作,比如今年毕业的吕国涵师兄做的就是“TCP拥塞控制机制的建模”,就是使用随机过程方法推导模型,整篇论文就是在用随机过程的方法推导模型。
问题的背景如上图所示,tcp在启动的时候首先是慢启动,窗口大小逐渐增加,一旦发生丢包,立刻将窗口大小减半,快速重发丢失的数据包,同时进入到线性增长状态,称之为线增倍减过程。这就是tcp的拥塞控制机制。因为丢包的发生是随机的,这就可以看作一个随机过程。在吕国涵师兄的论文中将TCP拥塞控制机制中最关键的控制量(TCP拥塞控制窗口)随时间变化的过程用半马尔可夫随机过程来描述。研究了该随机过程的稳态概率分布,并利用Little公式得到了TCP的平均发送速率。然后用网络实测表明该模型与实际有很好的近似。
另一方面,他还使用流模型对该机制数学建模:流模型使用相邻丢包事件间的时间间隔来描述网络丢包,用随机点过程来描述这一系列事件的发生。目前的研究主要集中在不同点过程对TCP性能的影响。他的论文研究了一种新的点过程――丢包事件到达率与TCP窗口大小成正比的Poisson过程。通过数学推导得到了该丢包模型下TCP拥塞控制窗口的各阶矩和概率密度函数。然后分析表明,这种丢包模型和前面半马尔可夫模型所使用的I.I.D丢包模型实际描述了同一种网络丢包过程。具体的分析可以参考他的硕士论文。
体系结构这个研究方向是研究网络的tcp/ip这一层面上的东西,属于(在我们实验室)比较底层的方向,下面涉及的就接近应用层上的东西。
二、网络信息服务
这个题目下面主要是基于网页对象的各种研究。
早期在我们实验室信息服务主要是指搜索引擎,现在逐渐有新的课题。
Web是互联网上面最重要的应用,网页与网页之间,站点与站点之间的纷繁复杂的联系,呈现一定的马尔科夫性。很典型的行为,用户访问某一个页面,然后点击这个页面上面的某一个连接,到下一个页面,这个时候你如何到达下一页面,仅与你当前所处的页面有关,如果考虑用户行为的倾向性,那么相当于在当前页面上的每一个到下一页面的链接被点击的概率呈一定的分布,这个分布就是对我们研究至关重要的用户行为特征。
搜索引擎在用户提交一个查询词之后,将迅速的从海量的网页中匹配出成千上万的含有这个词的网页,那么对这些网页进行排序,将最可能符合用户要求的网页放在最前面就是一个高命中率的搜索引擎要做的工作。排序就涉及一个网页权重和结果相似度的问题。结果相似度问题,可以认为是一种模式匹配,具有一定的马尔科夫性,尤其是在多个关键词检索的时候,使用向量机的模型来处理状态转换过程,和语音识别的办法接近。
同时相应于Web技术,相应而生的还有中文技术,比如网页的自动分类,尤其是中文网页的分类技术,我们实验室在这方面从1995年开始一直有人做这方面的工作,从最初张俐师姐[2]做的简单的利用中文字间的相关信息、词频以及WWW页面的标记等信息,提取网页特征,在分类准则函数中引入加权的词频参数进行分类判别的方法,到后面崔伟东师兄作的基于支持向量机的序列最小最优算法,乃至后面的陈光英、解冲锋、杨文峰师兄和刘辉师姐作的都是关于网页中文技术方面的工作。在自动分类上面,涉及到训练的问题,最初是采用最大后验概率的办法来解决的,后来崔伟东师兄开始SVM方面的应用研究,首次将SVM应用到了中文文本分类上面,获得巨大成功[3]。而SVM中有一个我们非