数据挖掘技术在客户分析中的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术在客户分析中的应用

祖巧红1 胡吉全2 陈定方2

(1,2.武汉理工大学物流工程学院,武汉 430063)

摘要:本文对五种数据挖掘预测算法分别进行介绍,并结合实例对各种方法适用的情况进行了比较,以便在对客户的不同情况进行分析的时候采取有效的预测方法。其中,回归预测是比较传统的预测方法,常根据历史记录分析得出总体趋势;决策树方法是一种类似于“枝丫”形状的“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测,来解决定性分析的问题;神经网络方法主要对客户行为进行分析和预测,从定量的角度进行分析;聚类和邻点预测方法主要是对未来数据进行预测;规则导引则是从一个样本数据库中发现并归纳出“数据行为”模式。

关键词:数据挖掘决策树神经网络聚类邻点预测

1.综述

理论上,数据挖掘技术或方法有很多,技术的“变种”也不少,数据仓库技术也支持多种预测模型以便对客户进行相应的分类和分析,针对各种具体情况,采取不同的预测方法是我们在进行客户分析中非常迫切解决的问题,因此我们有必要对它们进行分析比较。2.常用的预测方法

2.1回归预测

回归预测是比较传统的预测方法,是根据历史记录分析得出总体趋势,并将这种趋势用某种数学方程式表示。利用这个方程式,就可以输入未来的一个或多个变量计算出预测结果。如果方程式的变量是一次方的,那么就称为直线线性回归,如果是多次方的,称为曲线线性回归。

最简单的一元线性回归预测预测模型为Y=a+bX。

一个实用的一元线性预测模型的建立就是为用户提供一个求解参数a和b的过程。不断输入历史数据X和Y值,反复校准,反复验证,直到求解出误差率最小的参数,并确定a 和b的值。计算机运算大量的数据的能力是非常强大的,利用误差比较法不断对参数进行修正便可以得到最佳模型。

现实生活中问题,其预测模型就会变为多元多次的,其数学模型为Y=a+b1X1+b2X2+b3X3+…+b n X n。当然对于参数求解法的整个过程还是一样的,对于人脑是无法想像,但对于可以高速处理数据的电脑,再复杂的模型都是可以得出结果的,至于结果准确不准确,有赖于历史数据的多寡以及很多其他的“不可测因素”的干扰程度了。

2.2 决策树

决策树是一种类似于“枝桠”形状的“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测。决策树运用最多的是,市场营销部门根据客户的特征,对客户大市场进行“分割”,从而得到相对较小的客户群体。这样市场预算有限的情况下,可以针对性地

开展市场营销活动,从而节省资金,避免浪费,提高促销活动地汇报率。另外,决策树也广泛用于其他数据挖掘工具,如神经网络地数据预处理工具,通过对数据地初步探索,找出最相关地变量集。

图1 对客户流失情况进行分析预测的决策树例子

图1是一个典型的对“流失客户”特征进行分析的决策树,每个“树丫”的生长,表示了流失客户的进一步划分,直到这个树丫无法继续细分,或者说,这个树丫所代表的客户群其性质“相当类似”,任何更多的细分都没有什么意义了,这就是树的“枝末”,也是最后的最小分割,如果这种最小分割达到一个客户,就是所谓的“一对一营销”的理想境界了。营销人员便可以对一个或多个“枝末”客户进行促销,以实现留住客户,提高促销成功率的目的。

决策树的目的是对一个数据样本进行最大限度的分割,也就是让这棵树得到合理生长。要坐到这一点,对每个节点所提的问题要尽量有效,并且,所有问题要尽量同要探索的业务目的相关。在对一个数据样本分析之前,如何知道哪些问题是相关的,哪些问题是不相关的呢?如果知道了,那也失去了数据挖掘的意义了,因为数据挖掘的目的就是为了找到隐含的、尚未明了的某种行为模式。

在进行决策树分析时,首先要明确到底要分析什么,目的是什么,这点是很重要的,并且,提供学习的样本数据要尽量多而且准确。支持决策树模型的数据仓库产品中,提供了“决策树”生长得机制,计算机可以帮助我们优化树的生长,一个问题不是很有效,用另外一个,直到找到每个级别都是最优分割为止。在预测方面,企业可以根据需要“生长”多棵树,经大量时间证明后,可以成为企业特有的有效预测模型,提高决策能力。比如,客户行为预测的多个决策树(类比于决策“森林”)可以包括客户获利能力预测树,再购买可能性预测树,连带销售可能性树以及流失可能性树等。每个部门,每个企业的情况千差万别,因而预测树

的大小、预测逻辑也都不一样。

2.3神经网络

人脑基本上是由神经细胞组成的,称为神经元。每个神经元接收来自其他神经元的输入,经过处理后,向其他神经元输出。

用于数据挖掘的神经网络技术其实就是对人脑对信息处理的简单模拟,人工神经网络系统的“神经元”,基本上模拟人脑神经元处理过程,以最简单的乘积之和(输入值乘以每个输入的比重参数)作为输出,即Y=∑Wn*Xn(n=0,1,…,n)。

图2 一个简单的贷款可能性预测神经网络

一个人工的银行预测客户向银行贷款可能性的神经元算法如图2所示。这个有四个结点的神经网络通过对年龄、收入和教育的分析对贷款可能性进行预测。

通过定义各输入的恰当取值(如,30岁,可以用0.30表示,硕士取得0.7,收入0.7表示年薪7万),则可以得到可能性Y值为0.72。神经网络的“学习过程”就是对一个样本进行数据计算和校正,从而求解出每个输入的比重的过程。根据事实结果(有无贷款1或0),在预定比重的基础上,通过最小误差法不断调整参数值,直到找出最佳参数,并用另外一套测试数据进行检验,直到参数的预测准确率得到提高。神经网络的模型一旦建立,便可以对潜在客户进行贷款可能性判断,从而为企业提供进行营销和销售活动的决策依据。

图4 一个典型的单输出三层的神经网络图

一个单输出的典型的线性神经网络如图4所示,除了输入和输出层外,还有一个或多个中间层(隐含层)。层与层之间的节点的关系可以是完全连接,也可以是部分连接,总之,最后输出的结果总是各输入变量的函数,并在中间层提供必要的校正。

神经网络技术应用于CRM,可以对客户行为进行分析和预测。相对于决策树的定性分析预测方法,神经网络可以达到定量阶段。不过,决策树的一些结果可以作为定义神经网络输入变量的依据。目前,神经网络的应用产品大部分还不太成熟,处于研究阶段的较多。预计随着企业对数据挖掘需要的提高,适用于特定行业特定业务员的分析预测的神经网络产品将不断城市,就像认得经验具有很强的个人特点一样,适用于企业A的比重参数,如果用于企业B,其结果可能就是毫无可信度。

2.4聚类和邻点预测

聚类是讲如何将一批数据按照相似特性归类,使我们能对它们有一个形象的概括性理解:邻点预测是在归类的基础上对未来数据进行预测,是一个简单的只有两个变量的聚类图,目的是看看公司销售的所有产品的销售量有无特别的地域优势(输入5000个随机交易数据)。

一个聚类应用系统其实是一个中心点“逼近”过程,每一次所计算的点都向最佳中心点移动,直到所有记录的“座次排定”,确定最后聚类归属。一旦对培训样本数据的聚类成功结束,便可以用邻点预测法对新的未来数据预测它的归属,所采取的办法一般也是距离最小法,即新的数据离哪个类的中心点最小,那么,这个数据就应该属于这个类,具有这个类所有的类似特征。

当然,实际的聚类应用要复杂得多,但区别在于聚类准则的不同,主要概念都是类似的。相对于其他数据挖掘技术,聚类比较容易让人理解,倾向于定性分析,较难定量地获得某种

相关文档
最新文档