外文翻译

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

南京理工大学泰州科技学院

毕业设计(论文)外文资料翻译

学院(系):计算机科学与技术系

专业:计算机科学与技术

姓名:蒋亦樟

学号: 06040116

外文出处:IEEE TRANSACTIONS ON KNOWLEDGE AND

DATA ENGINEERING,VOL. 17, NO. 11,

NOVEMBER 2005 附件: 1.外文资料翻译译文;2.外文原文。

附件1:外文资料翻译译文

发现频繁的情节并学习隐性的马尔可夫模型:一个正规的链接

摘要

本篇文章主要是基于建立在两个正常的情节之间的一个正规的链接的基础上进行阐述的,在分析以前未链接的数据流的方式上:本文将在计算机科学的框架内对于频繁的情节进行挖掘并且统计出相关的数据从而生成模型。本文介绍了一个特殊的离散的隐马尔可夫模型,将其称作情节产生马尔可夫模型,并且将其他的情节与这独一无二的EGH结合起来进行实验。实验证明在给予的任意两个情节下,EGH 最有可能产生一个情节的数据序列,这个实验所需要的序列是包含在这个情节下的不重叠的数据事件中的。然后通过一个有效的算法从而计算出这一系列的频繁的情节。通过大量的模拟实验,能够使得实验的结果显示出这种算法既有效又比当前的频繁情节的挖掘更加快速。当然这种在频繁情节和EGHS之间的结合已经被证明并且用来评估这种频繁情节,同时实验也证明了这个思想是可以用来提高频繁情节集挖掘的效率的。

检索关键词:时态数据挖掘,序列数据,频繁发作,隐马尔可夫模型,统计学意义。

1.引言

数据集与时间依赖性经常被运用到商业,工程和科学的方案中。多年来,许多数据挖掘的分析都是基于这些数据的[1],[2],[3],[4],[5],[6]。在这之后,进行的分析的方法一般大致可以分为两种:即模式识别和学习生成模型。

通过挖掘模型能够挖掘到一些有趣的或者是频繁出现的经常受到关注的时态

数据 [1],[2],[5]。为获得频繁情节模式中的主要内容需通过寻求表达模式来完成,然而快速的挖掘算法对于数据挖掘技术来讲是既有效又有用的。这种模式挖掘一般是通过暂时的有序的事件序列的属性价值[1],[2],[6]或者是各种紧密结构的时间序列[7],[8],[9]来完成的。

学习生成模型是另一种重要的时间序列分析的方法。隐马尔可夫模型是由一系列丰富的类模式组成的,它的广泛应用主要依靠对于时间序列的描述。许多类似的马尔可夫模型已经在各种各样的领域中得到了应用 [3],[10],[11],[12],[13],[14]。

总体而言,模式识别技术往往被应用到更为有用的数据统计及挖掘规则当中。大多使用这种计数类型的参数,都被归纳为计算机科学的观点。另一方面,它将模型作为其技术的基础,使用随机方法构成统计框架。这些技术提供了一种原则性的方法来生成描述/建模的统计数据,从而管理产生的数据。对于数据挖而言,这两种方法都很重要,应该用来相互补充[15]。本文也是出于这种考虑进行描述的。

从而将建立两个模式之间的框架作为发现频繁情节的基础并与生成一类HMM模型进行连接。目前定义了一个指定的HMM模型以及对应的这一类特有的HMM的集合。实验证明了,任意的两个集合,都与频繁情节产生的HMM有关,并且其更有可能产生一些有效的数据,反之亦然。这使得实验能够严格地将频繁情节与HMM模型联系起来。据实验所知,以一个正式的连接为例,它将产生一些具有特殊意义的结果。例如,实验表明,它能为实验提供一种方法,并用它来测试那些经常发现的事件,在某种意义上来说,这是统计学的范畴。通过一个合理的频率的阈值设置,就能够获得使阈值自动计算的方法,从而得到需要挖掘的数据。

本篇文章的第二个贡献是对于一个频繁情节的集合,即新的频率进行测量。通过考虑一个不重叠出现的情节,从而获得此频繁情节的一系列相应的算法。正是这种新的频率计数的算法使得将正式连接中的频繁情节的发现与HMM的学习连接起来变成了可能。此外,它也大大加快了频繁情节的发现过程。实验通过一些仿真模拟也说明了这一切。

本文的其余部分安排如下。第2节对于在事件流中的频繁情节作了简要的概述。第3节着重讲了新的频率测量和计算的方法。第4节的主要贡献在于阐述如何实现情节和HMM模型之间的链接。第5节中,讨论了这一正式链接的结果。第6和第7的结论即为仿真实验的结果。

2.在事件流中的频繁情节

这一章节简要的介绍了挖掘频繁情节的框架[1]。这些数据来源于一系列的事件<(E1,t1),(E2,t2),…>,其中Ei代表了时间类型并且其中ti表示第i个事件的发生

时间为t。其中Ei的取值来源于一个有限的事件类型集合。例如,以下的一个事件顺序就包含了八个事件:

<(A,1),(B,3),(D,4),(C,6),(E,12),(A,14),(B,15),(C,17)>。

这一情节是一个有序元组的事件类型。(在[1]中的类型相当于串行事件)例如,(A->B->C)是一个3个节点的情节。一个出现在事件序列中的情节,如果这些情节在

队列中的时间都有一个相同的时间顺序,就把它作为特殊的情节模式对待。在这个例子(1)中,这些事件{(A,1),(B,3),(C,6)}包含了这一情节的发生顺序(A->B->C),然而{(A,14),(B,3),(C,6)}并不能表示这一情节。

如果甲事件是一个子情节,那么它将与事件具有相同的顺序序列。例如,两个节点的(A->B),(A->C),以及(B->C)都是三个节点的(A->B->C)的子情节,而(B->A)并不是它的子情节。

对于出现频率很高的情节可以用多种方式来定义它。一个正确的频繁情节必须证明它的任何一个子情节至少在这个情节中频繁出现过。一个频繁的情节可以将其定义为是其频率超过用户指定阈值的情节,即超过阈值的情节即为频繁情节。在[1]中用来挖掘频繁情节的过程是与Apriori算法基于同一个原理基础的 [2]。这一方法能够说明如果N个节点的情节频繁出现,那么N-1个节点作为其N个节点的子情节必然是频繁的。同时用相同的方法来产生候选情节(通过数据挖掘算法来生成候选情节)并省略掉其中的一些细节。

计算这一事件集合的候选集的频率是计算频繁情节至关重要的一步。在[1]中,一些至少出现一次的情节被定义成一系列的窗口。最近,有研究人员[16]提出该窗口的宽度可以通过指定事件之间允许的最大时间间隔来自动调整。对于基于窗口计数的方法是不能立刻准确地对产生的频率(即那些情节发生的数量)有一个直观的感受的。另一种计算[1]中频繁情节的方法是基于最小发生时间的。在此窗口中的最小发生的情节,其中的子窗口包含了这个发生的情节。该方法在对[1]进行最小发生统计时并不是很有效率(与内存所需要的数据长度有关)。相比之下,由内存所需要的基于窗口的计数是唯一的n个有序节点的情节的方法。不过,通过仿真模拟显示要统计出[1]中出现的最小发生的情节通常需要迭代30至40次才可获得。

在下一节中,本文通过限制某些准确的已经被定义的情节的类型作为频繁情节的新的定义。此处提出的关于频繁情节的计数方法是基于窗口的并且具有相同的空间复杂度(事实上,需要少量的缓存),统计结果显示这种方法运行的非常快。

3. 频率计数

从直觉上来讲,一个情节的出现总次数可以被看作是它频繁出现的最大自然选择的次数。根据建议,在[1]中的情节发生的顺序可以使用有限状态自动机来表示。例如,对于这一事件(A->B->C)项,将事件类型为A的事件看作是自动机上的”A”状态,然后等待转移到事件类型B上,将B作为A的下一个状态,如此循环下去。

相关文档
最新文档