数据挖掘的系统构成与发展趋势
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘的系统构成与发展趋势
作者:崔永君
来源:《硅谷》2009年第03期
[摘要]随着人们认识和管理水平的提高,对客观世界的描述愈来愈全面,存储的数据量愈来愈大,然而,对数据库中数据的开发应用主要是检索查询,效率很低,此外,相当数量的数据具有很强的时效性,数据的价值随着时间的推移而迅速降低,决策者迫切需要从海量数据库中提取有价值知识的工具。就数据挖掘的功能、应用及发展问题进行分析。
[关键词]数据挖掘系统发展趋势
中图分类号:TP3文献标识码;A文章编号:1671-7597(2009)0210057-01
数据挖掘一词是在1989年8月于美国底特律市召开的第十一届国际联合人工智能学术会议上正式形成的。从1995年开始,每年主办一次KDD国际学术会议,将KDD和数据挖掘方面的研究推向了高潮,从此数据挖掘一词开始流行。快速增长的海量数据收集存放在若干大型数据库中,如果没有强有力的工具来帮助,其结果是重要的决策不是基于数据库中丰富的信息,而是基于决策者的直觉。为此,决策者追切需要从海量数据库中提取有价值知识的工具,数据挖掘技术正是为满足上述要求而产生的。
一、数据挖掘的定义与构成
数据挖掘(Data Mining),又称信息发掘(Knowledge Discovery),是用自动或半自动化的方法在数据中找到潜在的,有价值的信息和规则。数据挖掘技术来源于数据库,统计和人工智能。数据挖掘系统的构成主要有以下方面:
(1)数据库、数据仓库和其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。(2)数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。(3)知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。(4)数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。(5)模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阀值过
滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。(6)图形用户界面:本模块在用户和挖掘系统之间通信,允许用户和系统交互,制定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。
二、数据挖掘的应用
数据挖掘技术的潜在应用是十分广泛的,从政府管理决策、商业经营、科学研究和工业企业决策支持等各个领域都可以找到数据挖掘技术的用武之地。下面列举出目前开展得比较活跃的数据挖掘的应用方向:
(1)市场营销:预测顾客的购买行为;划分顾客群体。(2)银行业:侦测信用卡的欺诈行为;客户信誉分析。(3)生产、销售和零售业:预测销售额;决定库存量:批发点分布的规划、调度。(4)制造:预测机器故障:发掘影响生产能力的关键因素。经纪业和安全交易:预测债券价格的变化;预报股票价格升降;决定交易的最佳时刻。(5)保险业:分析决定医疗保险额的主要因素;预测顾客保险的模式。 (6)计算机硬件和软件:监测磁盘驱动故障;估计潜在的安全漏洞。(7)政府和防卫:估计军事装备转移的成本;预测资源的消耗;评估军事战略。 (8)医药:验证药物的治疗机理:医药公司划分出哪部分大夫会再次购买某类药品。(9)交通:航空公司可以根据历史资料寻找乘客的旅行模式,改进航线的设置。(10)电信:电话公司评估哪一类客户会在短期内转向别的公司或其它服务项目,从而限制对这部分客户的广告投入。 (11)公司经营管理:评价客户信誉;评估部门业绩;评估员工业绩:监测子公司或部门财务舞弊行为。
三、数据挖掘的发展趋势
1、算法效率和可伸缩性。目前,数据库的规模呈指数增长,Mb规模的数据库已经很普遍。在商业数据库中,Gb和Tb规模的数据库也已经在使用。当把WWW包括进来的时候,Pb规模的数据库正在出现。
2、处理不同类型的数据和数据源。目前数据挖掘系统处理的数据库大多是关系数据库。随着数据库应用范围的日益扩大和规模、功能的日益完善,数据库中将包含大量复杂的数据类型。如结构化的数据,复杂的数据对象,混合文本,多媒体数据,时空数据,事务数据及历史
数据等,甚至出现新的数据库模型,因此保证数据挖掘系统能有效的处理此类数据库中的数据是非常重要的。
3、数据挖掘系统的交互性。数据挖掘中操作者的适当参与能加速数据挖掘过程。一方面,交互界面接收用户的检索、查询要求和数据挖掘策略,为用户表达要求和策略提供了方便;另一方面,交互界面又把生成的结果传递给用户,由于生成的结果可以是多种多样,因此,准确而直观地描述挖掘结果和友好而高效的用户界面一直是研究的重要课题。
4、Web挖掘。由于Web上存在大量信息,并且Web在当今社会扮演越来越重要的角色,有关Web内容挖掘、Web日志挖掘和因特网上的数据挖掘服务,将成为数据挖掘中一个最为重要和繁荣的子领域。
5、数据挖掘中的隐私保护与信息安全。数据挖掘能从不同的角度、不同的抽象层上看待数据,这将潜在地影响数据的私有性和安全性。随着计算机网络的日益普及,研究数据挖掘可能导致的非法数据入侵是实际应用中需要解决的问题之一。
6、探索新的应用领域。信息产业的发展为数据挖掘提供了广阔的空间,数据挖掘技术的应用范围将不断得到拓宽,特别是在生物工程、商业智能、网络服务等领域的应用将成为新的研究热点。同时由于通用数据挖掘系统在处理特定应用问题时有其局限性,因此,目前的一种趋势是开发针对特定应用的数据挖掘系统。
7、数据挖掘语言的标准化。标准的数据挖掘语言或有关方面的标准化工作将有助于数据挖掘系统的研究和开发,有利于用户学习和使用数据挖掘系统。研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化。
8、可视化数据挖掘。可视化数据挖掘是从大量数据中发现知识的有效途径。目前数据挖掘的可视化仅体现在结果的简单描述,而数据可视化、挖掘过程和结果可视化,将揭开数据挖掘神秘的面纱,使其变得更为生动、形象和具体。数据和结果的图形展示可以放大、缩小、平移、旋转和变换角度,使分析人员和用户更加容易理解,将大大推动数据挖掘工具在发现知识和数据分析中的应用。
总之,数据挖掘的可视化具有重要的理论意义和应用价值。随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。
作者简介: