基于时序的不同事物同属性的关联规则挖掘_王果
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第19卷第2期江苏技术师范学院学报JOURNAL OF JIANGSU TEACHERS UNIVERSITY OF TECHNOLOGY Vo l.19,No.2Apr.,2013
2013年4月0引言
目前,大多数文章主要介绍基于时序逻辑的同事物同属性的关联规则挖掘,描述同一事物的某属性连续变化的关联程度,笔者在此研究基础上进行了扩展,研究了基于时序逻辑的不同事物同属性的关联
规则挖掘,即从时间序列数据中挖掘出关联规则,用以对时间序列的发展趋势进行预测。
传统的关联规则主要是揭示多个事物的同一属性在相同的时间点上的相互关联性,以股票为例,传统的关联规则挖掘方法挖掘出的关联规则类似于“A股票涨,B股票涨C股票涨(30%,80%)”的规则,这样的关联规则项与项之间没有体现时间上的差别,也就无法对时间序列的发展趋势进行预测。基于时序逻辑的不同事物同属性的关联规则挖掘方法挖掘出来的关联规则体现了不同事物的同属性在不同的时间点上的不同状态之间的关联程度,这样,就可以得到类似于“如果A股票在第一天上涨,B股票在第二天下跌C股票在第三天上涨(30%,80%)”的关联规则[1]。
1基本概念及问题描述
研究不同事物同属性的情况,故设U ={<t 1,U 1>,<t 2,U 2>,…,<t n ,U n >}是具有时间属性的,按照U i (1≤i ≤n )发生时间的递增顺序排列的时间序列集合,其中U i (1≤i ≤n
)表示的是不同事物的单属性在对应时间t i 上的属性值的集合,记U i =(x 1,x 2,…,x m ),其中x i (1≤i ≤m
)表示的是某一事物的单属性值,这里讨论的x i 均为实数。t i 为U i 发生的时间,且t i <t i +1。
通过研究U 的子时间序列中的频繁出现的关联规则来对时间序列集U 的发展趋势进行预测。首先把时间序列集U 转换成时间序列集U ’,U ’={<t 1,U 1’>,<t 2,U 2’>,…,<t n ,U n ’>},U ’是具有时间属性的,按照U i ’(1≤i ≤n )发生时间的递增顺序排列的时间序列集合,t i 为U i ’发生的时间,且t i <t i +1。集合U i ’={1w ,收稿日期:2013-03-12
作者简介:王果(1982-),女,河南郑州人,工程师,主要从事数据挖掘、智能信息处理方面的研究。
基于时序的不同事物同属性的关联规则挖掘
王果1,吴良峥2,骆晓艳1
(1.广州中医药大学医学信息工程学院,广东广州510006;
2.中国能源建设集团广东省电力设计研究院计经咨询部,广东广州510006)
摘要:基于时序的关联规则挖掘算法的研究一直都是人们关注的课题,提出了一种基于时序逻辑的不同事物
同属性的关联规则挖掘。传统的关联规则主要是揭示了多个事物的同一属性在相同的时间点上的相互关联性,这样的关联规则的项与项之间没有体现时间上的差别,也就无法对时间序列的发展趋势进行预测。实验表明这
种方法对于不同事物同属性预测具有现实意义。
关键词:数据挖掘;关联规则;时序逻辑
中图分类号:TP311.13文献标识码:A文章编号:1674-8522(2013)02-0020-04
第2期王果吴良峥骆晓艳:基于时序的不同事物同属性的关联规则挖掘21
2w,…,mw}(1≤i≤n),表示的是不同事物的单属性在对应时间t i上的属性状态的集合。其中1,2,…,m表示m个不同事物的ID号;w表示在t i时刻这m个事物的某个属性的状态(上升或者下降)。这里用’->’表示上升状态,’<-’表示下降状态,即w=’->’或者w=’<-’;如U i’={1->,2<-,…,m->}(1≤i≤n),表示的就是在t i时刻,1事物的状态是上升,2事物的状态是下降,…,m事物的状态是上升。这里主要研究的是时间序列集合U’[2]。
上升和下降的状态是通过以每天的属性值与前一天的属性值相比较,来决定某事物的某个属性是上升还是下降,如果出现既不上升也不下降,即持平状态,要根据持平状态的前一个状态来定,也就是说如果持平状态之前的状态是上升的,那么把持平状态归为上升状态;相反,如果持平状态之前的状态是下降的,那么就把持平状态归为下降状态。如果持平状态出现在序列的开始,那么就按照持平状态的后一个状态来定,后一个状态如果是上升的,前面的持平状态归为上升状态;如果后一个状态是下降的,前面的持平状态就归为下降状态[3]。
2基于时序的股票预测算法
2.1算法思想
利用关联规则中的前件和后件的时间差进行预测,提出了基于时序逻辑的不同事物同属性的关联规则挖掘算法,该算法在产生了频繁1-属性状态集后,分别利用频繁1-属性状态集中的元素建立时序关联信息树,将划分后的各个子时间序列内的频繁模式信息映射到时序关联信息树中,来挖掘符合条件的关联规则。
定义1令时间序列S1={<t1,s1>,<t2,s2>,…,<t n,s n>},S2={<t1,s1>,<t2,s2>,…,<t m,s m>}(m>n),且S1,S2哿U’,其中时间序列S1的前n项和时间序列S2的前n项是相同的,则当m≥n+1时,称时间序列S1是时间序列S2的前件;若存在属性状态xw∈sm,则在时间序列集U’中,称时间序列S1是属性状态xw的前件;当t m-t1+1≤k时,则称时间序列S1是以属性状态xw为尾记录的长度为k的子时间序列的前件[4]。
根据定义1得到,如果属性状态xw在时间序列U’中出现了m次,那么在U’中共存在m个以属性状态xw为尾记录的长度为k的子时间序列,也就是说存在m个时间序列属于属性状态xw的前件。关联规则是有规则前项和规则后项2个部分组成,本文主要是针对特定的规则进行挖掘的,首先固定规则后项,然后挖掘出与之有时间关系的规则前项。也就是说根据用户的实际需要,挖掘特定的时序关联规则,如挖掘出来“哪种模式会导致股票A的下跌”。为了使挖掘出来的时序关联规则具有预测意义,主要研究时序模式M和时序模式M的导出模式的频繁模式,也就是说挖掘出来的关联规则的前项和后项必须是频繁出现的,而且规则前项在固定的规则后项的时间序列的前件中的出现频率要大于给定支持度的阈值。下面给出时序关联信息树的构建算法T1算法[5]。
2.2T1算法
输入:时间序列集合U’={<t1,U1’>,<t2,U2’>,…,<tn,Un’>};待挖掘的子时间序列的长度k;支持度阈值s%。
输出:由频繁1-属性状态集中的元素建立的时序关联信息树。
T1[求频繁1-属性状态集C1]扫描时间序列集U’,以单个属性的状态构成频繁1-属性状态集C1,C1={pw︳1≤p≤m,w=’->’或者w=’<-’,且pw≥n×s%};
T2[初始化]置T1w,T2w,…,Tpw为空;
T3[循环]置h=1;当h<n+1时,则循环执行步骤T4;否则执行步骤T5;
T4[得到对应th上的频繁属性状态集]C1h=C1∩Uh’;h++;
T5[循环]置i=n;当i>k-1时,循环执行步骤T6-T16;否则执行步骤T18;
T6[循环]对于每一个pw∈C1i,循环执行步骤T7-T15;
T7[变量i减1]j=i-1;