一种基于Rough集的时间序列数据挖掘策略
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2001年12月系统工程理论与实践第12期 文章编号:100026788(2001)1220022208
一种基于Rough集的时间序列数据挖掘策略
马志锋1,邢汉承2,郑晓妹3
(1.深圳中兴通讯股份有限公司上海第二研究所,上海200233;2.东南大学计算机科学与工程系,江苏南京210096;
3.南京航空航天大学计算机科学与工程系,江苏南京210016)
摘要: 阐述了基于Rough集的时间序列数据的挖掘策略,重点讨论了时间序列数据中的时序与非
时序信息的获取问题.实践证明,Rough集理论作为一种处理模糊和不确定性问题的有效工具,对于
时间序列数据的挖掘同样也是有效的.文章强调了时间序列数据中的多方面信息,包括原始数据及其
变化量、变化率所提供的信息.
关键词: 数据挖掘;Rough集;时间序列数据
中图分类号: T P18 文献标识码: A α
T i m e Series D ata M in ing Strategy Based on Rough Set M A Zh i2feng1,X I N G H an2cheng2,ZH EN G X iao2m ei3
(1.Shangh i N o.2R esearch In stitu te,ZT E Co rpo rati on,Shanghai200233,Ch ina;2.Sou theast U n iversity,N an jing210096,Ch ina;3.N an jing U n iversity of A eronau tics and A stronau tics,N an jing 210016,Ch ina)
Abstract T h is paper p ropo ses ti m e series data m in ing strategy based on a rough set.It
m ain ly discu sses the acqu isiti on of ti m e2dependen t and ti m e2independen t info rm ati on
from ti m e series data.P ractice p roves that rough set theo ry,as an effective too l to deal
w ith vagueness and uncertain ty,is also effective to the ti m e series data m in ing.
D ifferen t info rm ati on,such as info rm ati on from o riginal data,variati on and varian t
rati o of data,is emphasized in the m in ing p rocess of ti m e series data.
Keywords data m in ing;rough sets;ti m e series data
1 引言
随着当今数据采集和存储技术的不断发展,数据库中存储的数据量急剧增加,数据库的规模也因此变得越来越庞大.人们发现自己已不再是缺少信息,而是被信息海洋所淹没.如何分析数据并从中挖掘出有用的知识是一项既费时又难于进行的工作.通常,对于特定领域的数据挖掘(data m in ing)需要有一定的背景领域知识,并在此基础上采用某种有效工具从数据集中获取更多的隐含的、先前未知的并具有潜在价值的知识.这种挖掘在工业过程控制、医疗诊断、股票分析、水文气象等领域尤显重要,因为这些领域的数据有一个共同的特点,即它们都记录了某个领域的时间序列(ti m e series)信息,且信息量特别巨大,如果没有合适的挖掘手段则势必给以后的决策和新数据的预测带来困难.信息系统中时间序列数据的出现使得有必要针对这一特殊数据类型的挖掘给出相应的策略,以便发现在某段时间内连续记录的某属性序列值的变化规律,以及它的变化给其它属性值所带来的影响.
2 数据挖掘新方法:Rough集理论方法
Rough集(Rough Set,R S)理论是一种新型的处理不完整性和不确定性问题的数学工具,能根据人们α收稿日期:2000204214
对所获取数据的已有认识,有效地分析和处理各种不完备信息,从中发现隐含的知识并揭示出其中的潜在规律.该理论是由波兰华沙理工大学著名逻辑学家Z Paw lak 于1982年首次提出的[1].此后,在Z Paw lak 本人和其他研究者们的共同努力下,对R S 理论进行了丰富和完善,于1991年出版了第一部关于R S 的专著[2],系统全面地阐述了有关概念及其应用情况,从而奠定了R S 理论的数学基础.近些年来,随着R S 理论的研究深入,它已被广泛地应用于数据库中的知识发现、智能控制、机器学习、决策分析、专家系统以及模式识别等众多领域[3~7].
2.1 RS 基本概念
R S 理论认为知识是一种将对象进行分类能力的体现
.领域知识即是为描述论域中各对象而设置的属性的取值之间的不分明性(indiscern ib ility ),例如,在医疗诊断数据库中的“体温”属性可取值“正常”、“发
烧”、“37℃”、“40℃”、“41℃”等,根据医疗常识有“正常”与“37℃”和“发烧”与“40℃”、“41℃”为不可区分.这里不分明关系可以是由相似关系(si m ilarity relati on )来描述的,与传统R S 理论中的等价关系(equ ivalence
relati on )有所不同[3]
,前者满足自反性(reflex ive )、
对称性(symm etric ),而后者则满足自反性、对称性、传递性(tran sitive ).通过数据采集所获取的数据是关于论域中各对象的区别信息,人们对于对象的认识即表现
为能够将它们划分为不同的类别,R S 理论就是采用确定的方法在无需先验知识的前提下如实地提取经验数据间的相互依赖关系,从而最终得到智能决策规则.由此可见不分明关系乃是R S 理论的最基本的概念,它体现了知识的颗粒状态.这里值得一提的是,R S 理论与目前研究较多的Fuzzy Sets 理论对于不确定事物的描述既有相似之处,又是相互补充、相互区别的.模糊性在某种程度上属于自然语言的范畴,更富有语义的可适应性,表示集合具有某种平滑的边界,粗糙性则是集合中元素的不分明性.若借用图象处理中的概念来直观地形容便是,R S 为图象象素的大小,而Fuzzy Sets 则指象素中多个灰度级别的存在.
R S 方法的基本思想是从信息系统(info rm ati on system )或决策表(decisi on tab le )中的数据提取出简洁易懂且有效的决策规则,规则常被用作对未知新对象的预测和辅助决策.假设给定一个信息系统IS =〈U ,
A ,V ,Θ〉,其中U ≠ 为有限的论域集合,A 为IS 中的属性集合,V =∪a ∈A
V a 为属性值的集合,Θ确定了一个
信息函数U ×A →V ,它将属性的值分配到信息表中各行的相应属性中.D T =〈U ,A ∪{d },V ,Θ〉为一种特殊形式的信息表,称作决策表,其中d |A 为决策属性,相应地A 为条件属性.若X ΑU 为所要分辨的概念,R 为U 上的不分明关系,则二元组(U ,R )构成了一个近似空间(app rox i m ati on space ).[x ]R 表示U 中
根据R 的认识,所有与x 不分明的对象的集合,称作x 的不分明类,其中x ∈U 为U 中的一个对象.R S 理论中的模糊性事实上是一种基于边界的概念,即一个模糊的概念具有模糊的不可被明确划分的边界.为刻划这种模糊性,每个不精确概念由一对称为下近似集与上近似集的精确概念来描述.R -X ={x ∈U [x ]R ΑX }=∪{[x ]R [x ]R ΑX }称为集合X 关于R 的下近似集(low er app rox i m ati on ),R -X 包含了所有可确切分类到X 的对象.R +X ={x ∈U [x ]R ∩X ≠ }=∪{[x ]R x ∈X }定义为X 关于R 的上近似集(upper app rox i m ati on ),它包括了所有那些可能属于X 的对象
.上近似与下近似的差就是概念X 的边界区域,它由不能肯定分类到X 或其补集中的所有对象组成.显然若边界非空,则集合X 就是一个模糊概念.R S 理论中还有两个极其重要的概念,这就是约简(reduct )和核(co re ).约简是IS 或D T 中,在保证正确分类的前提下去除多余属性后的最小条件属性集,计算约简是一个典型的N P 完全问题,其复杂性随对象的增多而呈指数级增长.核为影响分类的重要属性,所有不可缺少的(indispen sab le )属性构成了核,也就是说核是由所有约简的交集所组成的.
2.2 基于RS 的数据挖掘
数据挖掘是数据库中知识发现(know ledge discovery in databases ,KDD )的一个重要步骤[7~9],它的处理过程如图1可分为:数据选择、数据的净化和预处理、数据约简与映射、数据挖掘任务与算法选择、对发现模式的解释.R S 理论的核心是提供了一套严格的数学方法,对于具有噪声、不完全或者不精确的数据在无需任何附加信息的条件下对其进行约简以及发现数据之间的依赖关系,因此可以认为,基于R S 的KDD 系统与其它方法相对比具有其独特的优势.
近些年来,随着R S 理论在国际范围内的深入研究,它在KDD 中的应用也取得了较大的进展,基于R S 3
2第12期一种基于Rough 集的时间序列数据挖掘策略