数据挖掘研究的现状与发展趋势_郑继刚
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘研究的现状与发展趋势
郑继刚,王边疆
(保山学院数学系,云南保山678000)
影响其空间分布的因素之间的关系;预测型的模
型用来根据给定的一些属性预测某些属性,如分类模
型和回归模型等.
目前,主要在空间数据挖掘的体系结构和挖掘过
程做了大量研究,包括面向对象的空间数据库的数据
挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类
挖掘、挖掘空间数据的偏离和演变规则、基于多专题
地图的挖掘、交叉概化、基于时空数据的概化、并行数
据挖掘、统计分析与数据挖掘的协同和遥感影像的挖
掘等,主要采用了基于统计学和概率论、集合论、机器
学习、仿生物学、地球信息学的研究方法.
4.2多媒体数据挖掘
多媒体数据,包括图形、图像、文本、文档、超文
本、声音、视频和音频数据等,数据类型复杂.随着信
息技术的进步,人们所接触的数据形式越来越丰富,
多媒体数据的大量涌现,形成了很多海量的多媒体数
据库[8].这些数据大多是非结构化数据、异构数据,
特征向量通常是数十维甚至数百维,转化为结构数据
和降维成了多媒体数据挖掘的关键技术.
有研究者提出了多媒体数据挖掘的系统原型
MDMP,将多媒体数据的建模表示、存储和检索等多
媒体数据库技术与数据挖掘技术有机地结合在一起,
采用多媒体图像数据的相似性搜索、多维分析、关联
规则挖掘、分类与聚类分析等挖掘方法,广泛地应用
于医学影像诊断分析、卫星图片分析、地下矿藏预测
等各种领域.
4.3时序数据挖掘
时序数据挖掘通过研究信息的时间特性,深入洞
悉事物进化的机制,揭示其内在规律(如波动的周期、
振幅、趋势的种类等),成为获得知识的有效途径.关
键问题是要是寻找一种合适的序列表示方式,基于点
距离和关键点是常用的算法,但都不能完整表示出序
列的动态属性.时序数据挖掘的主要技术有趋势分析
和相似搜索,在宏观的经济预测、市场营销、客流量分
析、太阳黑子数、月降水量、河流流量、股票价格波动
等众多领域得到了应用.
国内对于时序数据的研究比较少,使用的方法和
技术主要有人工神经网络技术,利用它预测和处理混
沌观测时间序列能达到较高的精度[9].此外还有通
过对时序数据进行离散傅立叶变换将其从时域空间
变换到频域空间,将时序数据映射为多维空间的点,
在此基础上,有学者提出一种新的基于距离的离群数
据挖掘算法[10].
4.4Web数据挖掘
随着Internet/Web技术的快速普及和迅猛发展,
使各种信息可以在网络上获得,但是它是巨大的、分
布广泛的、全球性多样的和动态变化的.面对如此大
量的Web数据,如何在这个全球最大的数据集合中
发现有用信息成为Web数据挖掘研究的热点.当前,
Web数据挖掘可分为四类,即Web内容挖掘、Web结
构挖掘、Web使用记录挖掘和Web用户性质挖掘.
4.5不确定数据挖掘
传统的数据挖掘技术处理位置已经被精确给定
的对象,然而在实际应用领域,由于测量仪器的局限
性会造成测量值的不准确,数据的不确定性是不可避
免的.数据的不确定性主要可以分为存在的不确定性
和值的不确定性两大类,存在的不确定性指的是不确
定对象或元组的存在与否,如关系数据库的某个元组
和一个概率相关联表示这个元组存在的可信度,值的
不确定指的是一个元组的存在是确定的,但它的值是
不确定的.
现在对不确定数据挖掘的研究已成为热点,在聚
类分析、关联规则、空间挖掘等方面都有突破,经典的
K-means算法扩展到了UK-means算法,Apriori算法扩展到了UApriori算法等.
5数据挖掘面临的问题
数据挖掘任务、数据挖掘方法、用户交互、性能和
各种数据类型的多样性,给数据挖掘提出了许多挑战
性的课题.数据挖掘语言的设计,高效而有用的数据
挖掘方法和系统的开发,交互和集成的数据挖掘环境
的建立,以及应用数据挖掘技术解决大型应用问题,
都是目前数据挖掘、系统、研究人员和应用开发人员
所面临的主要问题[11].
5.1挖掘方法和用户交互问题
这反映所挖掘的知识类型、在多粒度上挖掘知识
的能力、知识的使用、特定的挖掘和知识可视化.如,
数据库中挖掘不同类型的知识;多个抽象层的交互知
识挖掘;结合背景知识;数据挖掘查询语言和特定的
数据挖掘;数据挖掘结果的表示和可视化;处理噪声
和不完全数据;模式评估即兴趣度问题.
5.2性能问题
主要包括数据挖掘算法的有效性、可伸缩性和并
行处理等性能问题.如,数据挖掘算法的有效性和可
伸缩性;并行、分布式和增量挖掘算法.
5.3关于数据库类型的多样性问题
如,关系的和复杂的数据类型的处理;由异种数
47红河学院学报2009.2/数学
表1数据挖掘研究的进化历程
进化阶段支持技术产品厂家产品特点
数据搜集
(20世纪60年代)计算机、磁带和磁盘IBM、CDC提供历史性的、静态的数据信息数据访问
(20年代80世纪)
关系数据库、
结构化查询语言、ODBC
Oracle、Sybase、
Informix、IBM、Microsoft
在记录级提供历史
性的、动态的数据信息
数据仓库、决策支持
(20世纪90年代)
联机分析处理、
多维数据库、数据仓库
Pilot、Comshare、Arbor、
Cognos、Microstrategy
在各种层次上提供
回溯的、动态的数据信息
数据挖掘
(正在流行)
高级算法、多处理器计算机、
海量数据库
Pilot、Lockheed、
IBM、SGI、其它初创公司提供预测性的信息
3数据挖掘研究的现状与成果
在国外,数据挖掘技术已被广泛的应用于各个领
域,其中一些典型应用如加州理工学院喷气推进实验
室与天文科学家合作开发的SKICAT系统,能够帮助
天文学家发现遥远的类星体,是人工智能技术在天文
学和空间科学上的第一批成功应用之一;生物学研究
中用数据挖掘技术对DNA进行分析;利用数据挖掘
技术识别顾客的购买行为模式,对客户进行了分析;
对银行或保险公司经常发生的诈骗行为进行预测;
IBM公司开发的AS(AdvancedScout)系统针对NBA
的比赛数据,帮助教练优化战术组合等[5].