数据挖掘技术应用论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅析数据挖掘技术的应用
摘要:作为数据库研究、开发和应用最活跃的一个分支,数据挖掘技术的研究日益蓬勃的发展。从信息处理的角度来看,数据挖掘技术在帮助人们分析数据和理解数据,并帮助人们基于丰富的数据作出决策上起到了非常重要的角色。从大量数据中以平凡的方法发现有用的知识是数据挖掘技术的核心,也是今后在各个领域中发展的核心技术。
关键词:数据挖掘;功能;应用
中图分类号:tp311.13 文献标识码:a文章编号:
1007-9599(2011)24-0000-01
analysis of data mining technology application
zhang pengyu,duan shiliu
(henan polytechnic,zhengzhou450000,china)
abstract:as the database research,development and application of the most active branch of data mining technology research booming development. from the perspective of information processing,data mining technology to help people analyze data and understand the data,and help people make decisions based on the wealth of data has played a very important role. from large amounts of data in an extraordinary way to discover useful knowledge is the core of data mining technology,but also the future development in
various fields in the core technology.
keywords:data mining;function;application
一、数据挖掘概述
近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取信息和知识可以广泛用于各种应用,包括市场分析、欺诈检测、产品控制、顾客保有和科学探索等等。简单的说,数据挖掘是指从大量数据中提取或“挖掘”知识,大多数的概念认识只是把数据挖掘视为知识发现过程的一个基本
步骤。一般采用数据挖掘功能的广义观点为:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程。
二、数据挖掘基本功能介绍
(一)关联规则挖掘。关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。1.基本概念。设是项组合的记录,d为项组合的一个集合。如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合d。我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如a游泳衣,b太阳镜,,但是得不到足够支持[2]。在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量
数据中挖掘关联规则需要使用专门的数据挖掘软件。关联规则挖掘可以使我们得到一些原来我们所不知道的知识。(二)特征化与比较。1.特征化是一种描述性数据挖掘,特征化通过数据挖掘的方法提供给定数据汇集的简洁汇总,如银行优质客户的特征,从而发现潜在的优质客户;转向其他银行的优质客户的特征,从而设法留住可能会转向其他银行的优质客户,特征化在银行客户关系管理等领域具有很大作用[2]。描述性数据挖掘——特征化的基本原理。(1)属性删除。某一类的特征化就是找出某一类的共性,因此如果某个属性具有大量不同的值,而且每个值所占的比率都不能达到事先给定的临界值,同时在这个属性上没有概化操作符(指标上卷),则数据挖掘对其进行属性删除。(2)属性概化。如果在属性上存在概化操作符,并且原属性取值没有达到事先给定的临界值,则数据挖掘就将这个属性概化到较高层次,即使原属性取值已经达到临界值,数据挖掘也可以继续进行属性概化。通过属性删除和属性概化,可以得到特征化的数据挖掘。2.比较。特征化是给定某一类样本的特征,而比较则是区分不同的类,比较又通常称为挖掘类比较。如信用卡诈骗者和非诈骗者,这两类信用卡持有者的比较。类比较通常是一个指定的类与一个其它的类、或者几个其它的类进行比较,类比较的基本方法是:首先在目标类上发觉特征,然后在对比类上进行同步概化,这样就可以挖掘类比较。特征化与类比较具有很广泛的应用领域。如:被外资并构公司与没有被外资并构公司进行类比较;不同审计意见的公司的类比较;信用卡诈骗与非诈骗类的比
较;银行优质客户中忠诚客户与转向其他银行的原优质客户的比较;等等。(三)聚类分析。聚类分析就是根据样本之间的相似程度,将样本分成几个不同的类。如我国各城市社会经济发展程度的聚类分析,利用聚类分析研究我国女子成衣的尺寸标准。原来测量了成年女子14个部位的指标数据:上体长、手臂长、胸围、颈围、总肩宽、前胸宽、后背宽、前腰节高、后腰节高、总体长、身高、下体长、腰围、臀围。经过聚类分析发现可以聚集为几类,每类主要在反映身高与反映胖瘦上有所区别,这样就可以制定几种标准尺寸,可以照顾到我国绝大多数成年女子的购衣要求。聚类分析在金融领域中有广泛应用,如根据股票价格的波动情况,可以将股票分成不同的类,总共可以分成几类,各类包含哪些股票,每一类的特征是什么,这对投资者、尤其对投资基金来说,可能就是很重要的信息。聚类分析也是分类,但是要划分的类是未知的,这是聚类分析与一般判别分析的区别。聚类分析的基本原理
1.样本间距离的度量。距离采用绝对值距离、欧氏距离、切比雪夫距离等,其中:,利用距离可以度量不同样本之间的相似程度,在测量距离时,往往首先需要进行标准化变换,以消除量纲带来的影响。
2.相似程度的测量。最短距离法是测量相似程度的一种方法,利用最短距离法进行聚类分析的基本过程。采用测量相似程度的不同方法,所得到的聚类分析结果可能有所不同。在聚类分析中,希望得到的类数可以事先确定。聚类分析即可以对样本进行聚类,也