数据挖掘研究现状及发展趋势
数据挖掘技术在经济统计中的应用研究

数据挖掘技术在经济统计中的应用研究数据挖掘技术是一种利用计算机技术从大量数据中自动发现模式、规律和知识的方法,它已经在各个领域得到了广泛的应用,包括经济统计领域。
随着经济发展和社会转型,经济统计数据的规模和复杂度不断增加,传统的经济统计方法已经不能很好地满足发展的需要。
如何运用数据挖掘技术来处理经济统计数据,并利用挖掘出的知识来指导经济决策,成为当前经济统计领域的一个热点问题。
本文将从数据挖掘技术在经济统计中的应用角度展开研究,探讨数据挖掘技术在经济统计中的实际应用,并分析其中存在的问题和挑战。
一、数据挖掘技术在经济统计中的应用现状1. 宏观经济数据分析数据挖掘技术可以应用于宏观经济数据的分析和预测中。
通过对GDP、CPI、PPI等宏观经济指标的历史数据进行挖掘,可以发现这些指标之间的内在关联性和规律性,为经济政策的制定提供科学依据。
可以利用时间序列分析方法挖掘出宏观经济指标之间的相互影响关系,发现宏观经济波动的周期性和规律性,从而对未来宏观经济发展趋势做出更准确的预测。
2. 企业经济数据分析数据挖掘技术也可以应用于企业的经济数据分析中。
通过对企业的销售数据、财务数据、人力资源数据等进行挖掘,可以发现企业内部的运营规律和发展趋势,帮助企业管理者进行决策。
可以利用关联规则挖掘方法挖掘出不同产品之间的交叉销售规律,发现潜在的销售机会和市场需求,为企业的市场营销策略提供参考和支持。
3. 社会经济现象分析数据挖掘技术还可以应用于分析和预测社会经济现象。
可以利用文本挖掘技术对互联网上的舆情数据进行挖掘,发现社会热点事件和舆论趋势,为政府决策和社会管理提供参考。
还可以利用空间数据挖掘技术对地理信息数据进行挖掘,发现区域经济发展的空间格局和规律,为区域经济政策的制定提供科学依据。
2. 企业经济预警某大型企业利用数据挖掘技术对企业的销售数据和财务数据进行挖掘分析,发现了销售额下降和成本增加的趋势。
通过构建企业经济预警模型,及时预警了企业可能面临的经济困难,并及时调整企业经营策略,成功避免了经济危机的发生。
大数据时代的数据挖掘综述

大数据时代的数据挖掘综述一、本文概述随着信息技术的迅猛发展,大数据已经渗透到社会生活的各个领域,成为现代社会发展的重要基石。
大数据时代的来临,不仅带来了海量的数据资源,也对数据挖掘技术提出了更高的要求。
数据挖掘,作为从海量数据中提取有用信息、发现潜在规律的重要手段,已经成为当前研究的热点和前沿领域。
本文旨在对大数据时代的数据挖掘技术进行全面而系统的综述,分析当前数据挖掘领域的研究现状,探讨面临的挑战和未来的发展趋势。
本文将首先介绍大数据和数据挖掘的基本概念,阐述数据挖掘在大数据时代的重要性和应用价值。
接着,本文将重点回顾数据挖掘的发展历程,介绍数据挖掘的主要方法和技术,包括分类、聚类、关联规则挖掘、预测模型等,并结合具体案例进行说明。
同时,本文还将对数据挖掘在各个领域的应用进行梳理和总结,如商业智能、医疗健康、金融风控等。
在此基础上,本文将深入探讨大数据时代数据挖掘面临的挑战,如数据规模巨大、数据类型多样、数据质量参差不齐等问题,并分析这些问题对数据挖掘算法和性能的影响。
为解决这些问题,本文还将介绍一些新兴的数据挖掘技术和方法,如深度学习、强化学习、迁移学习等,并探讨它们在大数据时代的应用前景。
本文将展望数据挖掘未来的发展趋势,预测未来可能的研究热点和方向,为相关领域的研究人员和实践者提供参考和借鉴。
通过本文的综述,希望能够为大数据时代的数据挖掘研究提供全面而深入的理解,推动数据挖掘技术的进一步发展和应用。
二、数据挖掘相关概念及理论基础在大数据时代,数据挖掘成为了一个不可或缺的工具,它帮助我们从海量的、复杂的、多样化的数据中提取出有价值的信息和模式。
数据挖掘是一门涉及多个学科的交叉学科,其理论基础涵盖了统计学、机器学习、模式识别、数据库管理等多个领域。
数据挖掘的基本概念是通过特定算法对大量数据进行处理和分析,以发现其中的关联规则、分类模式、聚类结构、异常检测以及预测趋势等。
这一过程中,数据预处理是极其关键的一步,它包括对数据的清洗、转换、降维等操作,以确保数据的质量和有效性。
数据挖掘调研报告

数据挖掘调研报告一、调研背景和目的本调研报告旨在对数据挖掘技术进行全面的了解和探讨,以促进其在不同领域的应用。
数据挖掘是指从大量数据中发现模式、规律和知识,并以此支持决策和预测的过程。
随着数据量快速增长和计算能力的提升,数据挖掘技术变得越来越重要。
二、调研方法和过程为了全面了解数据挖掘技术的应用现状和发展趋势,我们采用了以下调研方法和过程:1. 文献综述:收集和分析相关领域的学术论文、期刊和研究报告,了解数据挖掘技术的最新进展和应用案例。
2. 专家访谈:与数据挖掘领域的专家进行深入交流,了解他们对数据挖掘技术的看法、经验和建议。
3. 实地考察:参观一些数据挖掘应用于实际场景的企业或机构,了解他们的数据挖掘流程、工具和效果。
4. 调研问卷:设计和发放问卷,收集不同领域的从业人员对数据挖掘技术的使用情况和需求意见。
三、数据挖掘技术应用现状根据收集的数据和调研结果,我们总结了数据挖掘技术在不同领域的应用现状:1. 金融领域:数据挖掘技术在风控、信贷评分和欺诈检测等方面得到广泛应用,能够帮助金融机构提高风险管理能力和预测能力。
2. 零售领域:通过分析顾客购买行为和偏好,数据挖掘技术可以帮助零售商进行精细化营销和库存管理,提高销售额和客户满意度。
3. 医疗领域:数据挖掘可以辅助医疗机构进行疾病预测、诊断和治疗方案优化,提高医疗效果和患者生活质量。
4. 市场调研领域:通过分析消费者行为数据和市场趋势,数据挖掘技术可以帮助企业做出准确的市场预测和决策,提高竞争力。
四、数据挖掘技术发展趋势根据专家访谈和文献综述的结果,我们总结了数据挖掘技术的发展趋势:1. 深度学习:随着神经网络和计算力的不断发展,深度学习将成为数据挖掘的重要技术手段,可以应用于图像识别、自然语言处理等领域。
2. 多模态数据分析:数据挖掘技术将逐渐向多模态数据分析扩展,例如结合图像、文本和语音等多种数据形式进行综合挖掘和分析。
3. 实时数据处理:随着物联网和5G技术的快速发展,实时数据处理将成为数据挖掘的重要应用场景,例如智能交通、智能制造等领域。
信息科学中的数据挖掘技术发展趋势分析

信息科学中的数据挖掘技术发展趋势分析随着信息技术的快速发展和大数据的出现,数据挖掘技术在信息科学领域中扮演着越来越重要的角色。
数据挖掘是一种从大量数据中发现隐藏在其中的有用信息的技术。
它结合了统计学、人工智能和机器学习等相关领域的方法和技术,通过使用算法、模型和工具来发现数据中的模式、规律和趋势。
在信息科学中的数据挖掘技术发展趋势方面,可以从以下几个方面进行分析:1.机器学习的应用:机器学习是数据挖掘中一项重要的技术,它可以让计算机通过学习数据的模式和规律来进行预测和决策。
随着深度学习和神经网络等机器学习技术的发展,数据挖掘将更加依赖于机器学习算法的应用。
未来,我们可以预见到更多复杂的机器学习算法将被应用于数据挖掘中,以提高数据挖掘的准确性和效率。
2.多源数据的挖掘:随着信息时代的来临,数据来源变得更加多样化和庞大化。
传统的数据挖掘技术主要针对的是结构化数据,而如今,大量非结构化和半结构化数据也成为了数据挖掘的重要来源。
未来的发展趋势将会更加注重多源数据的挖掘技术和方法,以从不同的数据源中发现更有价值的信息。
3.实时数据挖掘:传统的数据挖掘方法主要是对静态数据进行分析和挖掘,而随着物联网和社交媒体等大量实时数据的产生,实时数据挖掘成为了一项重要的技术需求。
未来,实时数据挖掘技术将得到更多的关注,用于实时监测和预测分析等领域。
4.隐私保护与数据安全:由于大数据的挖掘和分析涉及到大量的个人隐私数据,隐私保护和数据安全成为了数据挖掘技术发展中的一个重要问题。
未来的数据挖掘技术将注重隐私保护方法的研究,以保证在数据挖掘过程中个人隐私的保护和数据安全的可靠性。
5.可解释性与透明度:数据挖掘技术的结果应该能够被解释和理解,以便用户能够理解其背后的原因和推理过程。
未来,数据挖掘技术的发展将注重模型的可解释性和透明度,以提高数据挖掘结果的可信度和可操作性。
总之,信息科学中的数据挖掘技术将在未来继续发展壮大。
机器学习的应用、多源数据的挖掘、实时数据挖掘、隐私保护与数据安全以及可解释性与透明度等方面都将成为数据挖掘技术发展的重要趋势。
数据挖掘研究的现状与发展趋势

数据挖掘是一门交叉学科 , 它把人们对数据的应 据中获得更有用 的信息. 实际上 , 这些数据 中只有一 用从 低层 次 的简 单 查 询 , 升 到从 数据 中挖 掘 知 识 , 提 小部分 有用 , 人们 却渴 求获 得知 识 , 面 临“ 据丰 提供决 策 支 持 . 建 立 在 数 据 库 、 工 智 能 、 器 学 但 正 数 是 人 机
的但又是潜 在有用 的信息 和知识 的过程 ]它 涉及 了四个阶段 : . 数据搜集、 数据访 问、 数据仓库和决策支 到对数 据库 中 的大量 数据 进 行 抽 取 、 转换 、 析 以及 持 ( 表 I ¨』 分 见 ) . 模 型化处 理 , 中提 取 辅助 决 策 的关 键 性 数 据 . 据 从 数 挖 掘可 以帮助 决 策者 寻找 规 律 , 现被 忽 略 的要 素 , 发
的努力 , 据 挖 掘 技 术 的研 究 已经 取 得 了 丰 硕 的成 数
Dsoeyi a bs, i vr nD t ae简称 K D) 是 2 纪 9 c a D , 0世 O年代 果 , 少软 件公 司 已研 制 出数 据 挖 掘 软 件 产 品 , 在 不 并 以来发展起 来 的数 据 库 系统 和 数据 库应 用 领 域 一 个 北 美 、 欧洲 等 国家得 到应用 . 欣欣 向荣 的前 沿学科 , 是从 大量 的、 不完 全 的 、 有噪 声 数 据挖 掘可 以认 为 是数 据库 技 术 和信 息 技 术 自 的、 糊 的、 模 随机 的实 际应 用 数据 中 , 取 隐含在 其 中 然 演变 的结 果 . 数据 库 业 界 , 据 挖 掘 的进 化 经 历 提 在 数
第 8卷 第 2期 2 1 4月 0 0年
红河学院学报
Jun l fHo g eU iest o ra n h nv ri o y
数据挖掘的发展趋势及未来的研究方向

数据挖掘的发展趋势及未来的研究方向一、数据挖掘简介近十几年来,信息数据增长之巨大已到了令人咂舌地步,大型数据库、数据仓库被用于商业管理、政府办公、科学研究和工程开发等等。
于是,我们又面临了新的问题:如何从中及时发现有用的知识,提高信息利用率?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据只能成为包袱,甚至垃圾。
因此,数据挖掘技术应运而生。
我们可以把数据挖掘理解为:数据挖掘就是从海量的数据(包括结构化和非结构化)中挖掘出隐含在其中的、事先不为人知的、潜在的、有用信息和知识的技术。
这些信息是可能有潜在价值的,是用户感兴趣的、可理解、可运用的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。
二、数据挖掘的功能数据挖掘综合了各个学科技术,有很多的功能,当前主要功能如下:(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。
例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。
例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。
例如:每天购买尿布的人也有可能购买啤酒,比重有多大,可以通过关联的支持度和可信度来描述。
与关联不同,序列是一种纵向的联系。
例如:今天银行调整利率,明天股市的变化。
(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。
例如:对未来经济发展的判断。
(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。
例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。
数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势数据挖掘研究现状及发展趋势引言:随着信息时代的到来,人们对于数据的需求不断增加,数据的挖掘技术也逐渐崭露头角。
数据挖掘是指通过从大量的数据中发现隐含的知识和信息,进行模式识别、预测行为、分类和聚类等任务的过程。
近年来,数据挖掘技术在各个领域取得了广泛的应用,并且不断推动了科学研究和商业发展。
本文将介绍数据挖掘研究的现状及其未来的发展趋势。
一、数据挖掘的研究现状1. 数据挖掘算法数据挖掘算法是数据挖掘研究的核心。
目前,常见的数据挖掘算法包括决策树、聚类、关联规则挖掘、支持向量机等。
这些算法可以有效地从数据中发现知识和信息,并为决策提供支持。
此外,随着深度学习的兴起,神经网络等人工智能算法也被广泛应用于数据挖掘领域。
2. 数据挖掘应用数据挖掘技术在各个领域都有广泛的应用。
在商业领域,数据挖掘可以用于市场分析、客户关系管理、风险评估等。
在金融领域,数据挖掘可以用于预测股票价格、信用评估等。
在医疗领域,数据挖掘可以用于疾病诊断、药物发现等。
在科学研究中,数据挖掘可以用于发现科学规律、推动科学进展。
3. 数据挖掘工具为了帮助人们更好地进行数据挖掘研究,许多数据挖掘工具被开发出来。
例如,Weka、RapidMiner、Python的scikit-learn等工具,它们提供了丰富的功能和算法供用户选择,大大简化了数据挖掘的过程。
二、数据挖掘研究的发展趋势1. 大数据时代的挑战随着互联网的普及和物联网技术的发展,大量的数据被生成和存储。
数据量的急剧增加给数据挖掘技术提出了挑战。
未来,数据挖掘研究将面临如何高效处理和分析大数据的问题。
2. 非结构化数据挖掘现有的数据挖掘技术主要针对结构化数据,例如数据库中以表格形式存储的数据。
然而,随着社交网络、文本和多媒体数据的大量产生,非结构化数据挖掘成为了一个重要的研究方向。
未来的研究将致力于如何从非结构化数据中提取有效的信息和知识。
3. 隐私保护与数据安全随着个人数据的大规模收集和分析,数据隐私和安全成为了一个严峻的问题。
数据挖掘技术的发展现状与未来发展趋势

数据挖掘技术的发展现状与未来发展趋势随着信息时代的到来,数据的产生和积累变得越来越巨大。
如何从这海量的数据中挖掘出有价值的信息,成为了当今学术界和产业界的一大挑战。
数据挖掘技术的发展正助力着人类社会的进步,在各个领域发挥着越来越重要的作用。
数据挖掘技术(Data Mining)是一种从大量数据中提取出隐含其中的、以往并没有被人们注意到的、但却具有重要价值的信息和知识的技术手段。
它结合了统计学、人工智能、机器学习等多个领域的方法和理论,通过构建模型、分析和预测,帮助人们在各种应用领域中做出准确的决策。
近年来,数据挖掘技术得到了广泛的应用。
在商业领域,数据挖掘技术被用于市场调研、客户关系管理、销售预测等,帮助企业提高效益和竞争力。
在医学领域,数据挖掘技术被用于医疗诊断、疾病预测等,为医务人员提供更好的辅助决策工具。
在社交网络中,数据挖掘技术被用于推荐系统、广告定向投放等,为用户提供个性化的服务。
在生物信息学中,数据挖掘技术被用于基因表达、蛋白质结构预测等,帮助研究人员更好地理解生命现象。
当前,数据挖掘技术正面临一些挑战和问题。
首先是数据规模的增长。
随着互联网的快速发展,数据量以指数级增长,如何高效地处理这些巨量数据成为了数据挖掘技术亟待解决的问题。
其次是数据质量问题。
由于数据的多源和异构性,数据的准确性和完整性难以保证。
这需要研究人员在挖掘过程中采用有效的处理方法,从而提高数据的质量。
另外,隐私保护也是一个重要的问题。
尽管数据挖掘可以帮助人们获取有价值的信息,但也有可能侵犯个人隐私。
因此,数据挖掘技术需要与法律、伦理等其他领域进行深入的结合,确保数据隐私得到保护。
未来,数据挖掘技术的发展趋势依然十分广阔。
首先,数据挖掘技术将更加自动化。
随着人工智能、机器学习等技术的进步,数据挖掘的算法和模型将越来越智能化,能够更好地适应各种复杂应用场景的需求。
其次,数据挖掘将与其他学科融合。
数据挖掘技术需要与统计学、数学、计算机科学等领域进行更密切的交叉合作,以获取更丰富的知识和信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。
关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势Abstract:From the definition of data mining,the paper introduced concepts and advantages and disadvantages of neural network algorithm,decision tree algorithm,genetic algorithm,rough set method,fuzzy set method and association rule method of data mining,summarized domestic and international research situation and focus of data mining in details,and pointed out the development trend of data mining.Key words:data mining,algorithm of data mining,neural network,decision tree,rough set,fuzzy set,research situation,development tendency1 引言随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。
这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。
在这种情况下,一个新的技术———数据挖掘(Data Mining,DM)技术应运而生[2]。
数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。
只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。
数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。
本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。
江西理工大学2 数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。
数据挖掘过程如图1所示。
这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。
发现知识的方法可以是数学的、非数学的、也可以是归纳的。
最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。
图1数据挖掘过程目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。
2.1 神经网络法神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。
神经网络的学习方法主要表现在权值的修改上。
其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。
神经网络法主要应用于数据挖据的聚类技术中。
2.2 决策树法决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。
最典型的算法是J.R.QUINLAN于1986年提出的ID3算法[5],之后在ID3算法的基础上又提出了极其流行的C4.5算法[6]。
采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;缺点是很难基于多个变量组合发现规则。
决策树法擅长处理非数值型数据,而且特别适合大规模的数据处理。
2.3 遗传算法遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。
它的基本观点是“适者生存”原理,具有隐含并行性、易于和其它模型结合等性质主要的优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类有很强的鲁棒性;缺点是需要的参数太多,编码困难,一般计算量比较大。
遗传算法常用于优化神经元网络,解决其它技术难以解决的问题。
2.4 粗糙集法粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。
其优点是算法简单,不需要关于数据的任何预备的或额外的信息;缺点是难以直接处理连续的属性,须先进行属性的离散化。
因此,连续属性的离散化问题是制约粗糙集理论实用化的难点[7]。
粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。
2.5 模糊集法模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。
模糊集合理论是用隶属度来描述模糊事物的属性[7]。
系统的复杂性越高,模糊性就越强。
2.6 关联规则法关联规则反应了事物之间的相互依赖性或关联性。
其最著名的算法是R.AGRAWAL 等人提出的Apriori算法。
最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。
在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。
3 数据挖掘研究现状3.1 国外研究现状知识发现[8] (Knowledge Discovery inDatabases,KDD)与DM是数据库领域中最重要的课题之一。
KDD一词是在1989年8月于美国底特律市召开的第十一届国际人工智能会议上正式形成的。
1995年在加拿大蒙特利尔召开的首届KDD&Data Mining国际学术会议上,把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘[9]。
之后每年召开一次这样的会议,经过十几年的努力,数据挖掘技术的研究已经取得了丰硕的成果。
目前,对KDD的研究主要围绕理论、技术和应用这三个方面展开。
多种理论与方法的合理整合是大多数研究者采用的有效技术。
目前,国外数据挖掘的最新发展主要有对发现知识的方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高;KDD与数据库的紧密结合;传统的统计学回归方法在KDD中的应用。
在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统,主要用户有保险公司、大型银行和销售业等。
许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM 和微软都相继成立了相应的研究中心[10]。
美国是全球数据挖掘研究最繁荣的地区,并占据着研究的核心地位。
由于数据挖掘软件市场需求量的增大,包括国际知名公司在内的很多软件公司都纷纷加入到了数据挖掘工具研发的行列中来,到目前已开发了一系列技术成熟、应用价值较高的数据挖掘软件。
以下为目前最主要的数据挖掘软件:(1)Knowledge Studio:由Angoss软件公司开发的能够灵活地导入外部模型和产生规则的数据挖掘工具。
最大的优点:响应速度快,且模型、文档易于理解,SDK中容易加入新的算法。
(2)IBM Intelligent Miner:该软件能自动实现数据选择、转换、发掘和结果呈现一整套数据挖掘操作;支持分类、预测、关联规则、聚类等算法,并且具有强大的API函数库,可以创建定制的模型。
(3)SPSS Clementine:SPSS是世界上最早的统计分析软件之一。
Clementine是SPSS 的数据挖掘应用工具,它可以把直观的用户图形界面与多种分析技术如神经网络、关联规则和规则归纳技术结合在一起。
该软件首次引入了数据挖掘流概念,用户可以在同一个工作流环境中清理数据、转换数据和构建模型。
(4)Cognos Scenario:该软件是基于树的高度视图化的数据挖掘工具,可以用最短的响应时间得出最精确的结果。
此外,还有由美国Insightful公司开发的I-Miner、SGI公司和美国Standford大学联合开发的Minset、Unica公司开发的Affinium Model、加拿大Simon Fraser大学开发的DBMiner、HNC公司开发的用于信用卡诈骗分析的Database MiningWorkstation、Neo Vista开发的Decision Series等。
3.2 国内研究现状与国外相比,国内对数据挖掘的研究起步稍晚且不成熟,目前正处于发展阶段。
最新发展:分类技术研究中,试图建立其集合理论体系,实现海量数据处理;将粗糙集和模糊集理论二者融合用于知识发现;构造模糊系统辨识方法与模糊系统知识模型;构造智能专家系统;研究中文文本挖掘的理论模型与实现技术;利用概念进行文本挖掘。
我国也有不少新兴的数据挖掘软件:(1)MSMiner:由中科院计算技术研究所智能信息处理重点实验室开发的多策略通用数据挖掘平台[11]。
该平台对数据和挖掘策略的组织有很好的灵活性。
(2)DMiner:由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘系统。
该系统提供了丰富的数据可视化控件来展示分析结果,实现了数据查询结果可视化、数据层次结构可视化、多维数据结构可视化、复杂数据可视化。
(3)Scope Miner:由东北大学开发的面向先进制造业的综合数据挖掘系统。
(4)iDMiner:由海尔青大公司研发的具有自主知识产权的数据挖掘平台。
该平台大胆采用了国际通用业界标准,对该软件今后的发展有很大的促进作用,同时也为国内同类软件的开发提供了一条新的思路[12]。
除此之外,还有复旦德门公司开发的CIAS和AR Miner、东北大学软件中心开发的基于SAS的Open Miner以及南京大学开发的一个原型系统Knight等。
目前,国内数据挖掘软件产业还不成熟,从事此方面研究的人员主要集中在高校,只有少部分分布在研究所或公司,且大多数研究项目都是由政府资助,主要的研究方向集中在数据挖掘的学习算法、理论方面以及实际应用。
研究的产品尚未得到国际市场的认可,在国际上的使用更是为数甚少。
4 数据挖掘的研究热点及发展趋势就目前来看,数据挖掘的几个研究热点主要包括网站的数据挖掘(Web Site Data Mining)、生物信息或基因(Bioinformatics/Genomics)的数据挖掘及其文本的数据挖掘(Textual Mining)[13]。