clementine实战案例分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Clementine 11 数据挖掘案例详解
SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具。

在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。

SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的completeness of vision,表明SPSS在技
术创新方面遥遥领先。

客户端基本界面
SPSS Clementine(在此简称clementine)在安装好后会自动启用服务,服务端的管理需要使用SPSS Predictive Enterprise Manager,在服务端clementine没有复杂的管理工具,一般的数据挖掘人员通过客户端完成所有工作。

下面就是clementine客户端的界面。

一看到上面这个界面,我相信只要是使用过SSIS+SSAS部署数据挖掘模型的,应该已经明白了六、七分。

是否以跃跃欲试了呢,别急,精彩的还在后面^_’
项目区
顾名思义,是对项目的管理,提供了两种视图。

其中CRISP-DM (Cross Industry Standard Process for Data Mining,数据挖掘跨行业标准流程)是由SPSS、DaimlerChrysler(戴姆勒克莱斯勒,汽车公司)、NCR(就是那个拥有Teradata的公司)共同提出的。

Clementine里通过组织CRISP-DM的六个步骤完成项目。

在项目中可以加入流、节点、输出、模型等。

工具栏
工具栏总包括了ETL、数据分析、挖掘模型工具,工具可以加入到数据流设计区中,跟SSIS中的数据流
非常相似。

Clementine中有6类工具。

源工具(Sources)
相当SSIS数据流中的源组件啦,clementine支持的数据源有数据库、平面文件、Excel、维度数据、SAS
数据、用户输入等。

记录操作(Record Ops)和字段操作(Field Ops)
相当于SSIS数据流的转换组件,Record Ops是对数据行转换,Field Ops是对列转换,有些类型SSIS 的异步输出转换和同步输出转换(关于SSIS异步和同步输出的概念,详见拙作:
/esestt/archive/2007/06/03/769411.html)。

图形(Graphs)
用于数据可视化分析。

输出(Output)
Clementine的输出不仅仅是ETL过程中的load过程,它的输出包括了对数据的统计分析报告输出。

※在ver 11,Output中的ETL数据目的工具被分到了Export的工具栏中。

模型(Model)
Clementine中包括了丰富的数据挖掘模型。

数据流设计区
这个没什么好说的,看图就知道了,有向的箭头指明了数据的流向。

Clementine项目中可以有多个数据流设计区,就像在PhotoShop中可以同时开启多个设计图一样。

比如说,我这里有两个数据流:Stream1和Stream2。

通过在管理区的Streams栏中点击切换不同的数量
流。

管理区
管理区包括Streams、Outputs、Models三栏。

Streams上面已经说过了,是管理数据流的。

Outputs
不要跟工具栏中的输出搞混,这里的Outputs是图形、输出这类工具产生的分析结果。

例如,下面的数据源连接到矩阵、数据审查、直方图工具,在执行数据流后,这个工具产生了三个输出。

在管理区的Outputs
栏中双击这些输出,可看到输出的图形或报表。

Models
经过训练的模型会出现在这一栏中,这就像是真表(Truth Table)的概念那样,训练过的模型可以加入的数据流中用于预测和打分。

另外,模型还可以导出为支持PMML协议的XML文件,但是PMML没有给定所有模型的规范,很多厂商都在PMML的基础上对模型内容进行了扩展,Clementine除了可以导出扩展的SPSS SmartScore,还可以导出标准的PMML 3.1。

SPSS Clementine 数据挖掘入门(2)
下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。

Target Mail数据在SQL Server样本数据库AdventureWorksDW中的dbo.vTargetMail视图,关于Target Mail 详见:
/zh-cn/library/ms124623.aspx#DataMining
或者我之前的随笔:/esestt/archive/2007/06/06/773705.html
1.定义数据源
将一个Datebase源组件加入到数据流设计区,双击组件,设置数据源为dbo.vTargetMail视图。

在Types栏中点“Read Values”,会自动读取数据个字段的Type、Values等信息。

Values是字段包含的值,比如在数据集中NumberCardsOwned字段的值是从0到4的数,HouseOwnerFlag 只有1和0两种值。

Type是依据Values判断字段的类型,Flag类型只包含两种值,类似于boolean;Set是指包含有限个值,类似于enumeration;Ragnge是连续性数值,类似于float。

通过了解字段的类型和值,我们可以确定哪些字段能用来作为预测因子,像AddressLine、Phone、DateFirstPurchase等字段是无用的,因为这些字段的值是无序和无意义的。

Direction表明字段的用法,“In”在SQL Server中叫做“Input”,“Out”在SQL Server中叫做“PredictOnly”,“Both”在SQL Server中叫做“Predict”,“Partition”用于对数据分组。

2. 理解数据
在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着相关性等信息。

只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数。

在除了在建立数据源时Clementine能告诉我们值类型外,还能使用输出和图形组件对数据进行探索。

例如先将一个统计组件和一个条形图组件拖入数据流设计区,跟数据源组件连在一起,配置好这些组件后,点上方绿色的箭头。

等一会,然后这两个组件就会输出统计报告和条形图,这些输出会保存在管理区中(因为条形图是高级可视化组件,其输出不会出现在管理区),以后只要在管理区双击输出就可以看打开报告。

3. 准备数据
将之前的输出和图形工具从数据流涉及区中删除。

将Field Ops中的Filter组件加入数据流,在Filter中可以去除不需要的字段。

我们只需要使用MaritalStatus、Gender、YearlyIncome、TatalChildren、NumberChildrenAtHome、EnglishEducation、EnglishOccupation、HouseOwnerFlag、NumberCarsOwned、CommuteDistance、Region、Age、BikeBuyer这些字段。

加入Sample组件做随机抽样,从源数据中抽取70%的数据作为训练集,剩下30%作为检验集。

注意为种子指定一个值,学过统计和计算机的应该知道只要种子不变,计算机产生的伪随机序列是不变的。

因为要使用两个挖掘模型,模型的输入和预测字段是不同的,需要加入两个Type组件,将数据分流。

决策树模型用于预测甚麽人会响应促销而购买自行车,要将BikeBuyer字段作为预测列。

神经网络用于预测年收入,需要将YearlyIncome设置为预测字段。

有时候用于预测的输入字段太多,会耗费大量训练时间,可以使用Feature Selection组件筛选对预测字段影响较大的字段。

从Modeling中将Feature Selection字段拖出来,连接到神经网络模型的组件后面,然后点击上方的Execute Selection。

Feature Selection模型训练后在管理区出现模型,右击模型,选Browse可查看模型内容。

模型从12个字段中选出了11个字段,认为这11个字段对年收入的影响比较大,所以我们只要用这11个字段作为输入列即可。

将模型从管理区拖入数据流设计区,替换原来的Feature Selection组件。

4. 建模
加入Nearal Net和CHAID模型组件,在CHAID组件设置中,将Mode项设为”Launch interactive session”。

然后点上方的绿色箭头执行整个数据流。

Clementine在训练CHAID树时,会开启交互式会话窗口,在交互会话中可以控制树生长和对树剪枝,避免过拟合。

如果确定模型后点上方黄色的图标。

完成后,在管理区又多了两个模型。

把它们拖入数据流设计区,开始评估模型。

5. 模型评估
修改抽样组件,将Mode改成“Discard Sample”,意思是抛弃之前用于训练模型的那70%数据,将剩下30%数据用于检验。

注意种子不要更改。

我这里只检验CHAID决策树模型。

将各种组件跟CHAID模型关联。

执行后,得到提升图、预测准确率表……
6. 部署模型
Export组件都可以使用Publish发布数据流,这里会产生两个文件,一个是pim文件,一个是par文件。

pim文件保存流的所有信息,par文件保存参数。

有了这两个文件就可以使用clemrun.exe来执行流,clemrun.exe 是Clementine Solution Publisher的执行程序。

Clementine Solution Publisher是需要单独授权的。

在SSIS 中pim和par类似于一个dtsx文件,clemrun.exe就类似于dtexec.exe。

如果要在其他程序中使用模型,可以使用Clementine执行库(CLEMRTL),相比起Microsoft的ole db for dm,SPSS的提供的API在开发上还不是很好用。

SPSS Clementine 数据挖掘入门 (3)(2008-04-28 18:32:59)
标签:杂谈
了解SPSS Clementine的基本应用后,再对比微软的SSAS,各自的优缺点就非常明显了。

微软的SSAS是Service Oriented的数据挖掘工具,微软联合SAS、Hyperion等公司定义了用于数据挖掘的web服务标准——XMLA,微软还提供OLE DB for DM接口和MDX。

所以SSAS的优势是管理、部署、开发、应用耦合方便。

但SQL Server 2005使用Visual Studio 2005作为客户端开发工具,Visual Studio的SSAS项目只能作为模型设计和部署工具而已,根本不能独立实现完整的Crisp-DM流程。

尽管MS Excel也可以作为SSAS的客户端实现数据挖掘,不过Excel显然不是为专业数据挖掘人员设计的。

PS:既然说到Visual Studio,我又忍不住要发牢骚。

大家都知道Visual Studio Team System是一套非常棒的团队开发工具,它为团队中不同的角色提供不同的开发模板,并且还有一个服务端组件,通过这套工具实现了团队协作、项目管理、版本控制等功能。

SQL Server 2005相比2000的变化之一就是将开发客户端整合到了Visual Studio中,但是这种整合做得并不彻底。

比如说,使用SSIS开发是往往要一个人完成一个独立的包,比起DataStage基于角色提供了四种客户端,VS很难实现元数据、项目管理、并行开发……;现在对比Clementine也是,Clementine最吸引人的地方就是其提供了强大的客户端。

当然,Visual Studio本身是很好的工具,只不过是微软没有好好利用而已,期望未来的SQL Server 2K8和Visual Studio 2K8能进一步改进。

所以我们不由得想到如果能在SPSS Clementine中实现Crisp-DM过程,但是将模型部署到SSAS就好了。

首先OLE DB for DM包括了Model_PMML结构行集,可以使用DMX语句“Create Mining Model <Model Name> From PMML <xml string>”将SPSS Clementine导出的PMML模型加入SSAS。

如果我记得没错的话,SQL Server 2005 最初发表版本中Analysis Services是PMML 2.1标准,而Clementine 11是PMML 3.1的,两者的兼容性不知怎样,我试着将一个PMML文件加入SSAS,结果提示错误。

另外,在SPSS Clementine中可以整合SSAS,通过使用SSAS的算法,将模型部署到SSAS。

具体的做法是:
在SSAS实例中修改两个属性值。

在Clementine菜单栏选Tools -> Helper Applications。

然后启用SSAS整合,需要选择SSAS数据库和SQL Server RMDBS,RMDBS是用来存储临时数据的,如果在Clementine 的流中使用了SAS数据源,但SSAS不支持SAS数据文件,那么Clementine需要将数据源存入临时数据表中以便SSAS 能够使用。

启用整合后,就可以在工具栏中看到多出了一类Datebase Modeling组件,这些都是SSAS的数据挖掘算法,接下来的就不用说了……
可惜的是SSAS企业版中就带有9中算法,另外还有大量第三方的插件,但Clementine 11.0中只提供了7种SSAS挖掘模型。

SQL Server 2k5数据挖掘功能介绍
分类
分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策树、bayes分类、神经网络、支持向量机等等。

决策树
例1
一个自行车厂商想要通过广告宣传来吸引顾客。

他们从各地的超市获得超市会员的信息,计划将广告册和礼品投递给这些会员。

但是投递广告册是需要成本的,不可能投递给所有的超市会员。

而这些会员中有的人会响应广告宣传,有的人就算得到广告册不会购买。

所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。

分类模型的作用就是识别出什么样的会员可能购买自行车。

自行车厂商首先从所有会员中抽取了1000个会员,向这些会员投递广告册,然后记录这些收到广告册的会员是否购买了自行车。

数据如下:
在分类模型中,每个会员作为一个事例,居民的婚姻状况、性别、年龄等特征作为输入列,所需预测的分类是客户是
否购买了自行车。

使用1000个会员事例训练模型后得到的决策树分类如下:
※图中矩形表示一个拆分节点,矩形中文字是拆分条件。

※矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个事例,颜色
最深。

经过第一次基于年龄的拆分后,年龄大于67岁的包含36个事例,年龄小于32岁的133个事例,年龄在39
和67岁之间的602个事例,年龄32和39岁之间的229个事例。

所以第一次拆分后,年龄在39和67岁的节点
颜色最深,年龄大于67岁的节点颜色最浅。

※节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的事例购买和不购买自行车的比例。

如节点“年龄>=67”节点中,包含36个事例,其中28个没有购买自行车,8个购买了自行车,所以蓝色的条比红色的要长。

表示年龄大于67的会员有74.62%的概率不购买自行车,有23.01%的概率购买自行车。

在图中,可以找出几个有用的节点:
1. 年龄小于32岁,居住在太平洋地区的会员有7
2.75%的概率购买自行车;
2. 年龄在32和39岁之间的会员有68.42%的概率购买自行车;
3. 年龄在39和67岁之间,上班距离不大于10公里,只有1辆汽车的会员有66.08%的概率购买自行车;
4. 年龄小于32岁,不住在太平洋地区,上班距离在1公里范围内的会员有51.92%的概率购买自行车;
在得到了分类模型后,将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大。

随后自行车厂商就可以有选择性的投递广告册。

数据挖掘的一般流程
第一步,建立模型,确定数据表中哪些列是要用于输入,哪些是用于预测,选择用何种算法。

这时建立的模型内容是空的,在模型没有经过训练之前,计算机是无法知道如何分类数据的。

第二步,准备模型数据集,例子中的模型数据集就是1000个会员数据。

通常的做法是将模型集分成训练集和检验集,比如从1000个会员数据中随机抽取700个作为训练集,剩下300个作为检验集。

第三步,用训练数据集填充模型,这个过程是对模型进行训练,模型训练后就有分类的内容了,像例子图中的树状结构那样,然后模型就可以对新加入的会员事例进行分类了。

由于时效性,模型内容要经常更新,比如十年前会员的消费模式与现在有很大的差异,如果用十年前数据训练出来的模型来预测现在的会员是否会购买自行车是不合适的,所以要按时使用新的训练数据集来训练模型。

第四步,模型训练后,还无法确定模型的分类方法是否准确。

可以用模型对300个会员的检验集进行查询,查询后,模型会预测出哪些会员会购买自行车,将预测的情况与真实的情况对比,评估模型预测是否准确。

如果模型准确度能满足要求,就可以用于对新会员进行预测。

第五步,超市每天都会有新的会员加入,这些新加入的会员数据叫做预测集或得分集。

使用模型对预测集进行预测,识别出哪些会员可能会购买自行车,然后向这些会员投递广告。

Naïve Bayes
Naïve Bayes是一种由统计学中Bayes法发展而来的分类方法。

例1
有A、B两个政党对四个议题进行投票,A政党有211个国会议员,B政党有223个国会议员。

下表统计了
政党对四个议题赞成或反对的票数。

国家安全法个人财产保护法遗产税反分裂法总计赞成反对赞成反对赞成反对赞成反对
A政党41 166 87 114 184 11 178 23 211 B政党214 4 211 6 172 36 210 1 223
A政党20% 80% 43% 57% 94% 6% 89% 11% 49% B政党98% 2% 97% 3% 83% 17% 99.50% 0.50% 51% A政党的议员有20%概率赞成国家安全法,43%概率赞成个人财产保护法,94%概率赞成遗产税,89%概
率赞成反分裂法。

B政党的议员有98%概率赞成国家安全法,97%概率赞成个人财产保护法,83%概率赞成遗产税,99.5%概率
赞成反分裂法。

基于这样的数据,Naïve Bayes能预测的是如果一个议员对国家安全法投了赞成票,对个人财产保护法投了反对
票,对遗产税投了赞成票,对反分裂法投了赞成票。

哪么,这个议员有多大的概率属于A政党,又有多少的概率属于
B政党。

例2
一个产品在生产后经检验分成一等品、二等品、次品。

生产这种产品有三种可用的配方,两种机器,两个班组的
工人。

下面是1000个产品的统计信息。

配方机器工人总计配方1 配方2 配方3 机器1 机器2 班组1 班组2
一等品47 110 121 23 255 130 148 278 二等品299 103 165 392 175 327 240 567 次品74 25 56 69 86 38 117 155
一等品16.91% 39.57% 43.53% 8.27% 91.73% 46.76% 53.24% 27.80% 二等品52.73% 18.17% 29.10% 69.14% 30.86% 57.67% 42.33% 56.70% 次品47.74% 16.13% 36.13% 44.52% 55.48% 24.52% 75.48% 15.50% 使用Naïve Bayes模型,每次在制定生产计划,确定生产产品所用的配方、机器及工人,便能预测生产中有多少的一等品、二等品和次品。

神经网络
神经网络是一种模拟生物上神经元的工作的机器学习方法。

下面是银行用来识别给申请信用卡的客户发放何种信用卡的神经网络。

图中每个椭圆型节点接受输入数据,将数据处理后输出。

输入层节点接受客户信息的输入,然后将数据传递给隐藏层,隐藏层将数据传递给输出层,输出层输出客户属于哪类信用卡。

这类似于人脑神经元受到刺激时,神经脉冲从一个神经元传递到另一个神经元。

每个神经元节点内部包含有一个组合函数∑和激活函数f。

X1, X2是其他神经元的输出值,对此神经元来说是输入值,组合函数将输入值组合后传递给激活函数。

激活函数经过特定的计算后得到输出值y,y有被传递给其他神经元。

输入边上的w1和w2是输入权值,用于在组合函数中对每个输入值进行加权。

训练模型时,客户事例输入,神经网络计算出客户的类别,计算值与真实值比较后,模型会修正每个输入边上的权值。

在大量客户事例输入后,模型会不断调整,使之更吻合真实情况,就像是人脑通过在同一脉冲反复刺激下改变神经键连接强度来进行学习。

回归
分类算法是建立事例特征对应到分类的方法。

分类必须是离散的,像信用卡的种类只有三种,如果是要通过客户收入、婚姻状况、职业等特征预测客户会使用信用卡消费多少金额时,分类算法就无能为力了,因为消费金额可能是大于0的任意值。

这时只能使用回归算法。

例如,下表是工厂生产情况。

机器数量工人数量生产数量
12 60 400
7 78 389
11 81 674
……
使用线性回归后,得到了一个回归方程:生产数量=α+β·机器数量+γ·工人数量。

代表每多一台机器就可以多生产β单位的产品,每多一个工人就可以多生产γ单位的产品。

除了简单的线性回归和逻辑回归两种,决策树可以建立自动回归树模型,神经网络也可以进行回归,实际上,逻辑回归就是去掉隐藏层的神经网络。

例如,服装销售公司要根据各地分销店面提交的计划预计实际销售量。

使用自动回归树得到上图的模型,假如山东销售店提交的计划童装数量是500套,预计销售量是-100+0.6×
500=200套,按6Sigma原则,有99.97%的概率实际销售量可能是200±90套。

广州提交计划童装300套,预计销售量是20+0.98×300=314±30套。

广州的销售店制定的童装计划比山东的准确。

聚类
分类算法的目的是建立事例特征到类别的对应法则。

但前提是类别是已存在的,如已知道动物可以分成哺乳类和非哺乳类,银行发行的信用卡有银卡、金卡、白金卡三种。

有时在分类不存在前,要将现有的事例分成几类。

比如有同种材料要分类装入到各个仓库中,这种材料有尺寸、色泽、密度等上百个指标,如果不熟悉材料的特性很难找到一种方法将材料分装。

又例如,银行刚开始信用卡业务时,没有将客户分类,所有的客户都使用同一种信用卡。

在客户积累到一定的数量后,为了方便管理和制定市场策略,需要将客户分类,让不同类别的客户使用不同的信用卡。

但问题是,银行该把客户分成几个类别,谁该属于哪一类。

假定银行仅仅要参照客户的收入和使用信用卡销售金额两个指标对客户分类。

通常情况下,仅仅是衡量这些指标的高低来分类,如规定收入小于4000,且消费小于2000的客户分成第一类;收入在4000至8000,消费在2000至4000的客户分成第二类;收入在8000至12000,消费在4000至6000的客户分成第三类;收入在12000以上,消费在6000以上分成第四类。

下面的图展示了这种分类。

图中三角形的点代表客户,图中的红色线条是对客户的分类。

可以看到这种不合理,第一类别没有包含任何事例,而第四类也只有少量事例,而第二和第三类分界处聚集着大量事例。

观测图像,发现大部分客户事例聚集在一起形成了三个簇,下图中用三个椭圆标出了这些簇。

同在一个簇中的客户有着类似的消费行为,黑色簇中的客户消费额与收入成正比;蓝色簇中的客户不习惯使用信用卡消费,可以对这类客户发放一种低手续费的信用卡,鼓励他们使用信用卡消费;绿色簇中的客户消费额相对收入来说比较高,应该为这类客户设计一种低透支额度的信用卡。

聚类模型就是这种可以识别有着相似特征事例,把这些事例聚集在一起形成一个类别的算法。

聚类模型除了能将相似特征的事例归为一类外,还常用来发现异常点。

像上图中用红圈标出的点,这两个客户偏离了已有的簇,他们的消费行为异于一般人,消费远超出收入。

意味他们有其他不公开的收入来源,这些客户是有问题的。

科学试验中,研究人员对异常点很感兴趣,通过研究不寻常的现象提出新的理论。

聚类的另一个用途是发现属性间隐含的关系。

例如有30名学生考试成绩:
学号美术语文物理历史英语音乐数学化学
31001 74 50 89 61 53 65 96 87
31002 70 65 88 55 50 65 92 87
31003 65 50 86 54 63 73 91 96
……
教师想知道学科之间是否有关联,如果学生某门学科成绩优秀,是否会在另一门学科上也有优势。

通过聚类后将30名学生分成了3个类:
变量状态总体(全部)分类3分类2分类1
大小30 10 10 10
语文平均值74 71.6 89.6 59.4
语文偏差13.39 4.38 3.95 5.46
英语平均值72 72.7 88.1 56.1
英语偏差14.27 4.4 6.9 4.46
音乐平均值78 89.1 74.4 71
音乐偏差9.71 7.31 4.12 5.27
物理平均值75 74 56.6 93.4
物理偏差15.96 4.42 4.84 4.95
数学平均值75 74.3 57.3 92.3
数学偏差15.16 4.4 3.97 4.95
美术平均值78 90.6 71.8 71.4
美术偏差10.43 5.38 4.71 5.66
历史平均值73 73.2 87.6 58.1
历史偏差13.23 5.85 4.43 5.13
化学平均值74 74.7 56.2 90.6
化学偏差15.09 3.06 5.39 6.02
分类1学生的共同特点是他们的物理、数学、化学平均分都比较高,但语文、历史、英语的分数很低;分类2则恰恰相反。

从中,可以得到规则:物理、数学和化学这三门学科是有相关性的,这三门学科相互促进,而与语文、历史、英语三门学科相排斥。

分类1中的学生
序列聚类
新闻网站需要根据访问者在网页上的点击行为来设计网站的导航方式。

通过聚类算法可以发现网页浏览者的行为模式,比如识别出了一类浏览者的行为:喜欢察看体育新闻和政治新闻。

但浏览者访问网页是有顺序的,先浏览体
育新闻再浏览政治新闻,与先浏览政治新闻再浏览体育新闻是两种不同的行为模式,当一个浏览者在浏览体育新闻时,需要预测他下一步会访问哪个网页。

超市里也需要识别顾客购物的顺序,比如发现一类购物顺序是:尿布——奶瓶——婴儿手推车——幼儿玩具,当一个顾客购买了尿布的时候,就可以陆续向顾客寄发奶瓶、婴儿手推车、幼儿玩具的传单。

序列聚类通过对一系列事件发生的顺序聚类,来预测当一个事件发生时,下一步会发生什么事件。

关联
在客户的一个订单中,包含了多种产品,这些产品是有关联的。

比如购买了轮胎的外胎就会购买内胎;购买了羽毛球拍,就会购买羽毛球。

关联分析能够识别出相互关联的事件,预测一个事件发生时有多大的概率发生另一个事件。

相关文档
最新文档