数据挖掘之动态数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
动态数据挖掘是针对动态数据库和实时数据库进行知识提取的数据挖掘技术。随着信息技术的进一步发展,对知识新颖性的需求越来越强,采用传统的静态数据挖掘技术来分析不断产生的信息无法满足现实应用的要求,对实际应用数据源在其运行的同时进行动态数据挖掘得到相关知识显得日益重要。动态数据挖掘(DDM)由于信息时效性越来越短,为了能充分把握新颖性的信息,对实际应用数据源(数据库、序列数据或流式数据等)在其运行的同时进行数据动态提取并加以分析来得到相关知识。数据挖掘目前已广泛应用于现代社会的各行各业,但是大多都是针对历史数据进行分析与处理,人们追求的不再只是发现历史数据中隐藏的规律来解决实际问题,而是想在竞争激烈的社会中即时获取有用的信息,这对于传统的针对静态的历史数据进行挖掘的静态数据挖掘是不能很好实现这种需求的;设计一种针对当前数据动态分析处理的一种信息处理技术具有很大的现实意义。结合动态数据挖掘来研究多维数据的动态预测问题在现实应用中具有广阔的实践意义。动态数据挖掘不仅仅限于数据预测方面,对其应用领域探讨也具有很大的现实意义。深入分析了以往数据处理技术的发展现状之后给出了一种在动态数据源运行过程中结合历史数据、当前数据以及即将到来的数据进行数据分析与处理的动态数据挖掘技术:运用滑动窗口技术动态的获取数据,通过动态数据窗口动态处理数据,运用未来数据测试动态数据挖掘的性能。相关工作有持续数据挖掘、流式数据挖掘、移动数据流挖掘和Web在线数据挖掘。
关键词: 动态数据挖掘; 体系结构; 动态数据采集; 动态数据处理; 滑动窗口;
问题分析
DDM的问题
关键是如何选取当前数据集,如何保持与历史数据平滑过渡,以及如何平滑地获取后续数据集。(现在current,过去old,将来new)
DDM vs DM
传统的数据挖掘主要是基于历史数据集进行挖掘,提取出隐藏在其中的知识,而动态数据挖掘是集过去现在与未来于一体的知识提取的过程,动态处理各实时数据。
动态数据挖掘的体系机构保证新旧数据的平滑以及数据的及时或实时获取,运用动态数据窗口进行数据的实时动态处理;支持自动更新处理;数据挖掘与挖掘评价是紧密结合的两个过程,采用后续数据集中数据对挖掘结果进行评价,评价结果不符合要求则修正挖掘过程或重新挖掘以适应应用环境的改变。
核心技术:滑动窗口技术;动态数据窗口;评价
动态数据挖掘过程
1. 动态数据采集
∙时间关联性强 -- 滑动窗口,某时刻的历史快照
∙时间关联性不太强或者离散数据 -- 数据库SQL语句 WHERE time between T - 2 and T ( T为当前时间)
2. 动态数据处理
包括消除噪声、缺失数据处理、类型转换、特征提取以及数据降维处理等。
考虑到边界数据可能被忽略,结合重叠窗口技术,采用动态数据窗口,让重叠部分的数据(边界数据) 重复计算。
3. 数据挖掘
∙时间性要求不强:只是为了获取新颖的知识,可用传统的挖掘算法
∙时间性要求较强:效率要高
合理的挖掘布局算法, 即什么时候启动挖掘。
挖掘过程处理数据与未处理数据以及目标数据集之间的数据平滑问题:K标号法(初始标号为0,每参与一次挖掘过程则将TDi的标号值加1,直到标号变为K( K ∈ N ) , 在每次启动挖掘时只使用标号值小于K的数据。)
4. 挖掘测试
问题解答
随着科学研究与工程应用领域的不断扩大,多维度动态数据处理与分析已成为目前信息处理、动态数据建模及可视化建模中重要的研究课题。由于实际中往往会因各种因素造成信息数据缺失、信息对象机理知识不完整或多维空间中部分特征量损失等带来信息不完整,因此,进行多维度动态数据处理技术以及利用不完整信息建模的研究具有重要的理论和实际应用价值。采用数据挖掘和非线性系统建模技术,针对多维度动态数据的特性,研究非线性动态系统中具有空间和过程特征的数据挖掘模型和挖掘算法,以及基于软测量技术的不完整信息数据的完整性、一致性处理方法,实现多维度动态数据的有效挖掘、不完整信息建模和非线性动态系统演化规律的模拟。论文提出了一种较为完整的多维度动态数据挖掘系统理论架构,构造了多维度动态信息表示模型,建立了基于支持向量回归机的时间序列挖掘模型、连续输入/出的过程神经网络挖掘模型、多聚合过程神经网络挖掘模型及径向基过程神经网络挖掘模型等四种智能动态数据挖掘模型,构建了基于多元统计方法、克里格插值方法、数据过滤技术的不完整信息数据的补齐算法、网格化及数据过滤算法,采用相空间重构技术构建智能挖掘模型的训练样本集,并提出了量子粒子群算法结合梯度下降的神经网络训练算法,有效实现了对神经网络初始权值、阈值和隐含层节点数的优化。由挖掘模型实现不完整信息建模,最终达到满意的应用结果提出了一种新的数据挖掘形式——动态数据挖掘(DDM),寻求在不断更替产生的动态数据信息中找出能被应用的知识。给出动态数据挖掘的体系结构,并分析了动态数据挖掘实现过程,运用滑动窗口与动态数据窗口动态采集与处理动态新增数据,同时运用后续数据进行挖掘结果评价,用K标号法平滑地使用动态目标数据集进行数据挖掘,得出了一个动态数据挖掘测试算法。
动态数据窗口随着信息技术的进一步发展, 对知识的新颖性要求越来越强。我们处在每天都有大量新鲜信息产生的社会中, 如果采用原来的针对静态数据源(如数据仓库)进行知识提取的数据挖掘技术来分析这些不断产生的信息可能无法满足现实应用要求, 因为传统的数据挖掘可能挖掘到的是过时或失效的知识。社会在不断进步, 时代在不断改变, 信息的时效性变得越来越短。为了能充分把握新颖性的信息, 对实际应用数据源( 数据库、序列数据或流式数据等) 在其运行的同时进行数据动态提取并加以分析来得到相关知识是十分必要的。这方面的工作有持续数据挖掘、流式数据挖掘和W eb在线数据挖掘。当然实际生活中还有许多
与时间关系不大且不涉及W eb在线的各种应用, 针对这些应用数据源进行动态实时挖掘也是十分必要的。为此, 本文提出了一种动态数据挖掘方法, 给出了动态数据挖掘的体系机构, 并分析了动态数据挖掘过程。
1动态数据挖掘问题
在实际应用数据源运行过程中动态提取数据用于知识发现时, 关键的是如何选取当前数据集, 如何保持与历史数据平滑过渡, 以及如何平滑地获取后续数据集。所以动态数据挖掘是集过去、现在与未来于一体的动态的过程, 下面给出一些相关定义: 给定实际运行数据源, 将其称为动态数据源( Dynam icDa ta Source, DDS), DDS中的数据记为di ( i为数据标志号, i=1,2,3…… ) 。
定义1 设当前时间点为T, 存在数( R+ ), DDS 中在T 时刻以前生成的所有
di 组成的数据集合称为历史数据集, 记为Do ld。
定义2设当前时间点为T, 存在数, DDS 中在T 时刻到T 时刻生成的所有di组成的数据集合称为当前数据集, 记为Dc urrent。
定义3 设当前时间点为T, 存在数为正有理数, DDS 中在T时刻以后生成的所有di组成的数据集合称为称为后续数据集, 记为Dnew。
定义4 在DDS中运用当前数据集Dcurrent与历史数据集Do ld 结合后续数据集Dnew 进行分析, 提取出其中有意义的、新颖的、关键的知识与规则的过程称为动态数据挖掘( Dynam icDa taM in ing, DDM )。
从以上定义可以看出, 动态数据挖掘与传统从以上定义可以看出, 动态数据挖掘与传统的基于数据仓库的数据挖掘有很大的不同, 传统的数据挖掘主要是基于历史数据集进行挖掘, 提取出隐藏在其中的知识, 而动态数据挖掘是集过去现在与未来于一体的知识提取的过程。为了便于进一步研究动态数据挖掘问题, 下面就动态数据挖掘的体系结构进行分析。动态数据挖掘主要体现在它能动态地从DDS中提取数据进行分析, 找出其中的知识与规则, 从而更加及时新颖地为企事业单位或各管理部门提供决策方案, 其实现过程大致可分为动态数据采集、数据处理、数据挖掘、挖掘评价几个过程。
动态数据挖掘关键是要解决后续数据集D new的动态采集以及动态处理问题, 本文提出一种基于滑动窗口的动态数据采集方法, 来保证新旧数据的平滑以及数据的及时或实时获取, 运用动态数据窗口进行数据的实时动态处理; 由于动态数据挖掘在运行过程中, DDS 也在运行, 即后续数据集D new在不断增加, 鉴于此, 在数据处理以及后续的数据挖掘过程中必须要有较高的处理效率并且能支持自动更新处理; 数据挖掘与挖掘评价是紧密结合的两个过程, 采用后续数据集中数据对挖掘结果进行评价, 评价结果不符合要求则修正挖掘过程或重新挖掘以适应应用环境的改变, 尤其在对事务进行统计分析或趋势预测分析时显得尤为重要。
图1动态数据挖掘体系结构