数据挖掘技术在客户分析中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术在客户分析中的应用
祖巧红1 胡吉全2 陈定方2
(1,2.武汉理工大学物流工程学院,武汉 430063)
摘要:本文对五种数据挖掘预测算法分别进行介绍,并结合实例对各种方法适用的情况进行了比较,以便在对客户的不同情况进行分析的时候采取有效的预测方法。
其中,回归预测是比较传统的预测方法,常根据历史记录分析得出总体趋势;决策树方法是一种类似于“枝丫”形状的“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测,来解决定性分析的问题;神经网络方法主要对客户行为进行分析和预测,从定量的角度进行分析;聚类和邻点预测方法主要是对未来数据进行预测;规则导引则是从一个样本数据库中发现并归纳出“数据行为”模式。
关键词:数据挖掘决策树神经网络聚类邻点预测
1.综述
理论上,数据挖掘技术或方法有很多,技术的“变种”也不少,数据仓库技术也支持多种预测模型以便对客户进行相应的分类和分析,针对各种具体情况,采取不同的预测方法是我们在进行客户分析中非常迫切解决的问题,因此我们有必要对它们进行分析比较。
2.常用的预测方法
2.1回归预测
回归预测是比较传统的预测方法,是根据历史记录分析得出总体趋势,并将这种趋势用某种数学方程式表示。
利用这个方程式,就可以输入未来的一个或多个变量计算出预测结果。
如果方程式的变量是一次方的,那么就称为直线线性回归,如果是多次方的,称为曲线线性回归。
最简单的一元线性回归预测预测模型为Y=a+bX。
一个实用的一元线性预测模型的建立就是为用户提供一个求解参数a和b的过程。
不断输入历史数据X和Y值,反复校准,反复验证,直到求解出误差率最小的参数,并确定a 和b的值。
计算机运算大量的数据的能力是非常强大的,利用误差比较法不断对参数进行修正便可以得到最佳模型。
现实生活中问题,其预测模型就会变为多元多次的,其数学模型为Y=a+b1X1+b2X2+b3X3+…+b n X n。
当然对于参数求解法的整个过程还是一样的,对于人脑是无法想像,但对于可以高速处理数据的电脑,再复杂的模型都是可以得出结果的,至于结果准确不准确,有赖于历史数据的多寡以及很多其他的“不可测因素”的干扰程度了。
2.2 决策树
决策树是一种类似于“枝桠”形状的“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测。
决策树运用最多的是,市场营销部门根据客户的特征,对客户大市场进行“分割”,从而得到相对较小的客户群体。
这样市场预算有限的情况下,可以针对性地
开展市场营销活动,从而节省资金,避免浪费,提高促销活动地汇报率。
另外,决策树也广泛用于其他数据挖掘工具,如神经网络地数据预处理工具,通过对数据地初步探索,找出最相关地变量集。
图1 对客户流失情况进行分析预测的决策树例子
图1是一个典型的对“流失客户”特征进行分析的决策树,每个“树丫”的生长,表示了流失客户的进一步划分,直到这个树丫无法继续细分,或者说,这个树丫所代表的客户群其性质“相当类似”,任何更多的细分都没有什么意义了,这就是树的“枝末”,也是最后的最小分割,如果这种最小分割达到一个客户,就是所谓的“一对一营销”的理想境界了。
营销人员便可以对一个或多个“枝末”客户进行促销,以实现留住客户,提高促销成功率的目的。
决策树的目的是对一个数据样本进行最大限度的分割,也就是让这棵树得到合理生长。
要坐到这一点,对每个节点所提的问题要尽量有效,并且,所有问题要尽量同要探索的业务目的相关。
在对一个数据样本分析之前,如何知道哪些问题是相关的,哪些问题是不相关的呢?如果知道了,那也失去了数据挖掘的意义了,因为数据挖掘的目的就是为了找到隐含的、尚未明了的某种行为模式。
在进行决策树分析时,首先要明确到底要分析什么,目的是什么,这点是很重要的,并且,提供学习的样本数据要尽量多而且准确。
支持决策树模型的数据仓库产品中,提供了“决策树”生长得机制,计算机可以帮助我们优化树的生长,一个问题不是很有效,用另外一个,直到找到每个级别都是最优分割为止。
在预测方面,企业可以根据需要“生长”多棵树,经大量时间证明后,可以成为企业特有的有效预测模型,提高决策能力。
比如,客户行为预测的多个决策树(类比于决策“森林”)可以包括客户获利能力预测树,再购买可能性预测树,连带销售可能性树以及流失可能性树等。
每个部门,每个企业的情况千差万别,因而预测树
的大小、预测逻辑也都不一样。
2.3神经网络
人脑基本上是由神经细胞组成的,称为神经元。
每个神经元接收来自其他神经元的输入,经过处理后,向其他神经元输出。
用于数据挖掘的神经网络技术其实就是对人脑对信息处理的简单模拟,人工神经网络系统的“神经元”,基本上模拟人脑神经元处理过程,以最简单的乘积之和(输入值乘以每个输入的比重参数)作为输出,即Y=∑Wn*Xn(n=0,1,…,n)。
图2 一个简单的贷款可能性预测神经网络
一个人工的银行预测客户向银行贷款可能性的神经元算法如图2所示。
这个有四个结点的神经网络通过对年龄、收入和教育的分析对贷款可能性进行预测。
通过定义各输入的恰当取值(如,30岁,可以用0.30表示,硕士取得0.7,收入0.7表示年薪7万),则可以得到可能性Y值为0.72。
神经网络的“学习过程”就是对一个样本进行数据计算和校正,从而求解出每个输入的比重的过程。
根据事实结果(有无贷款1或0),在预定比重的基础上,通过最小误差法不断调整参数值,直到找出最佳参数,并用另外一套测试数据进行检验,直到参数的预测准确率得到提高。
神经网络的模型一旦建立,便可以对潜在客户进行贷款可能性判断,从而为企业提供进行营销和销售活动的决策依据。
图4 一个典型的单输出三层的神经网络图
一个单输出的典型的线性神经网络如图4所示,除了输入和输出层外,还有一个或多个中间层(隐含层)。
层与层之间的节点的关系可以是完全连接,也可以是部分连接,总之,最后输出的结果总是各输入变量的函数,并在中间层提供必要的校正。
神经网络技术应用于CRM,可以对客户行为进行分析和预测。
相对于决策树的定性分析预测方法,神经网络可以达到定量阶段。
不过,决策树的一些结果可以作为定义神经网络输入变量的依据。
目前,神经网络的应用产品大部分还不太成熟,处于研究阶段的较多。
预计随着企业对数据挖掘需要的提高,适用于特定行业特定业务员的分析预测的神经网络产品将不断城市,就像认得经验具有很强的个人特点一样,适用于企业A的比重参数,如果用于企业B,其结果可能就是毫无可信度。
2.4聚类和邻点预测
聚类是讲如何将一批数据按照相似特性归类,使我们能对它们有一个形象的概括性理解:邻点预测是在归类的基础上对未来数据进行预测,是一个简单的只有两个变量的聚类图,目的是看看公司销售的所有产品的销售量有无特别的地域优势(输入5000个随机交易数据)。
一个聚类应用系统其实是一个中心点“逼近”过程,每一次所计算的点都向最佳中心点移动,直到所有记录的“座次排定”,确定最后聚类归属。
一旦对培训样本数据的聚类成功结束,便可以用邻点预测法对新的未来数据预测它的归属,所采取的办法一般也是距离最小法,即新的数据离哪个类的中心点最小,那么,这个数据就应该属于这个类,具有这个类所有的类似特征。
当然,实际的聚类应用要复杂得多,但区别在于聚类准则的不同,主要概念都是类似的。
相对于其他数据挖掘技术,聚类比较容易让人理解,倾向于定性分析,较难定量地获得某种
结果。
因此,在很多场合下,聚类结果作为其他技术的应用基础,在类的基础上采用其他如决策树和神经网络方法,进一步对特定类进行分析,可以达到消除数据噪音,提高数据可靠性的效果.
2.5规则导引
规则导引是从一个样本数据库中发现并归纳出“数据行为”模式,用我们人类比较容易理解的“如果A.那么B,否则就是C”这样的判断语句来描述这种隐藏在数据仓库中的“规律”。
我们日常生活中经常用此类语音来描述事件的规律。
这些规则己经成为我们人类智能的重要组成部分,并广泛应用于我们的逻辑判断。
如果我们认真考虑这些判断,就会发现有两个重要的因素来衡量这种判断,一个是准确率,我们平常所讲的“八九不离十”是准确率相当高的意思;另一个指标是规则覆盖率,即这个规则适用于大部分场合吗?或者说可以应用于数据库里的多少条记录?判断的准确率的高低取决于我们的经验是否足够丰富,亦即这个现象过去的发生率的高低,发生得越多,那么,今后发生的概率也就越大。
用于客户行为分析的规则主要有以下三种。
连带相关规则Association Rule
连带相关规则是指一个事件的发生伴随着另外一件事件的发生。
挖掘出特定客户购买行为的连带相关性,可以预测出该客户的消费模式,从而为CRM应用中向特定客户提出准确的连带销售建议准备了重要的决策资源。
顺序相关规则Sequence Correlation Rule
顺序相关规则讲的是一个事件的发生之后,一定时间内也会发生另一个事件。
掌握了客户购买行为的时间相关性,就可以帮助你确定何时才是“最佳”的向客户提出建议的时间,为促销提供重要的决策依据。
分类相关规则一一-Classification Rule
分类相关是指具有某种特征的群体倾向于特定的行为。
这个概念同上面提到的聚类是相似的。
数据挖掘技术中的规则导引就是要从大量的客户数据中挖掘出这些规则。
规则导引的引擎(应用软件)要将一个规则的几个部分模型化,并根据统计结果对各个部分进行“填写”。
由于规则是用人类的语言来描述规律性行为,因此比较容易被企业员工理解和执行。
3.结论
数据挖掘技术的预测方法虽然有多种,但是每一种预测方法都适用于不同的情况,解决不同类型的问题。
有些数据挖掘在定性和数据分类方面使用方便,可以用做为更高一级预测的“探索”工具。
比如,先用决策树或聚类方法帮助找出数据的总体趋势以及预测变量相关性之后,再用神经网络或规则导引方法有针对性的建模,一来可以细化数据,提高性能,二来在某种程度上也可以帮助消除噪音;另一方面也可以作为不同方法比较之用。
数据挖掘技术中,决策树和聚类是市场分割的常用工具。
大多数分类型数据挖掘系统都提供高度自动化的市场分割工具,给出一定的参数,经过一定时间的运算,就可以给出一个
分类,如果同事实情况不符,那十有八九是数据不够准确和完整,或者噪音太多。
总结来看:回归预测主要是根据历史记录分析得出总体趋势,一般解决能够用数学方程式表示的问题;决策树主要进行归类分割和预测,一般从定性的角度分析解决问题,神经网络主要是对某种情形的可能性进行预测,可以精确到定量的角度解决问题;聚类方法倾向于定性的分析,主要是把客户进行分类比较难定量地获得某种结果,所以一般作为其他如决策树和神经网络等方法地应用基础,在归类以后,对某种特定类型进行分析,可以达到消除数据噪音,提高数据可靠性的效果;规则导引主要对客户行为进行分析,通过归纳分析导引出预测结果。
参考文献
[1] 何荣勤,CRM原理设计实践,电子工业出版社,北京,2003
[2] 汤兵勇王素芬等,客户关系管理,高等教育出版社,北京,2003.
[3] 邵兵家,于同奎等,清华大学出版社,北京,2004.
Applyment of the technology of data mining in client analysis
ZU Qiaohong 1,CHEN Dingfang2 , HU Jiquan2
(1. 2.School of Logistics Engineering,WHUT, wuhan ,430063,)
Abstract: In this paper, five popular forecasting algorithms of data mining will be discussed separately. At the same time, the situations which are fit for the algorithms are compared combined with the examples. Then, the efficient forecasting methods can be adopted when the different situations of clients are analyzed. Thereinto, regression forecasting which often educes the general trend according with the historical records is traditional. The Decision Tree method is a data analysis and forecasting method which is shaped like “Y”. It is used mainly to divide in classification and forecast so as to solve the problem of qualitative analysis. The method of Neural Networks mainly analyzes and forecasts the clients’ behaviors with the quantitative point of view. The forecasting methods of Clustering and Nearest Neighbor mainly forecast the future data. While the rule guide finds and concludes the data behavior mode from a sample database. Keywords: Data Mining, Decision Tree, Neural Networks, Clustering, Nearest Neighbor Forecastingn。