数据挖掘技术介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用Clementine达到你数 据挖掘的目标
• 图形化的界面、数据流的形式建立模型,保 证了应用Clementine进行数据挖掘关注商业更 甚于关注技术本身
• 开放式的技术是更好的保护您的投资的保障
• 高度的扩展性保证对数据库中大量的数据进 行挖掘
• 业界领先的发布技术使数据挖掘结果更好的 传递到相应管理人员手中
路漫漫其悠远
CRISP-DM简介
• CRISP-DM是CRoss-Industry Standard Process-Data Mining的缩写 • 由SPSS、NCR、Daimler-Benz在1996年制定 • CRISP是当今数据挖掘业界通用流行的标准之一 • 它强调数据挖掘在商业中的应用,解决商业中存 在的问题,而不是把数据挖掘局限在研究领域
营销费用减少了30%
路漫漫其悠远
数据挖掘都干了些什么?
美国国防财务部需要从每年上 百万比的军火交易中发现可能 存在的欺诈现象。。。。。。
发现可能存在欺诈的交易,进行深 入调查,节约了大量的调查成本
路漫漫其悠远
数据挖掘都干了些什么?
美国国内税务局需要提高对 纳税人的服务水平。。。。 。。
合理安排税务官的工作,为纳税人提供 更迅捷、更准确的服务
使直邮的回应率提高了100%
路漫漫其悠远
数据挖掘都干了些什么?
GUS日用品零售商店需要准确的 预测未来的商品销售量,降低库 存成本。。。。。。
通过数据挖掘的方法使库存成本比原 来减少了3.8%
路漫漫其悠远
数据挖掘都干了些什么?
汇丰银行需要对不断增长的 客户群进行分类,对每种产 品找出最有价值的客户。。 。。。。
• 把数据挖掘模型的结果送到相应的管理人员 手中 • 对模型进行日常的监测和维护 • 定期更新数据挖掘模型
路漫漫其悠远
第三部分:数据挖掘工具 —SPSS Clementine简介
路漫漫其悠远
•Make a difference with the •predictive power of data mining
路漫漫其悠远
通过数据挖掘您可以
发现最有价值 的客户
路漫漫其悠远
通过数据挖掘您可以
使组合销售更 有效率
路漫漫其悠远
通过数据挖掘您可以
留住那些最有 价值的客户
路漫漫其悠远
通过数据挖掘您可以
用更小的成本 发现欺诈现象
路漫漫其悠远
什么是数据挖掘
•通过采用自动或半自动的手段,在海量数据中发现 有意义的行为和规则的探测和分析活动。 •数据挖掘能够帮助你选择正确瞄准潜在目标,向现 有的客户提供额外的产品,识别那些准备离开的好 客户。
路漫漫其悠远
数据理解(Data Understanding)
• 确定数据挖掘所需要的数据 • 对数据进行描述 • 数据的初步探索 • 检查数据的质量
路漫漫其悠远
数据准备(Data Preparation)
• 选择数据 • 清理数据 • 对数据进行重建 • 调整数据格式使之适合建模
路漫漫其悠远
建立模型(Modeling)
路漫漫其悠远
路漫漫其悠远
数据挖掘应用领域
•电信 :流失 •银行:聚类(细分), 交叉销售 •百货公司/超市:购物篮分析 (关联规则) •保险:细分,交叉销售,流失(原因分析) •信用卡: 欺诈探测,细分 •电子商务: 网站日志分析 •税务部门:偷漏税行为探测 •警察机关:犯罪行为分析 •医学: 医疗保健
数据挖掘效益分析(直邮)
(Big Bank & Credit Card Company)
目的:发现新客户
数据挖掘以前 数据挖掘以后
发信的数量
百度文库
1,000,000
750,000
成本 响应的数量
$1,000,000 10,000
$750,000 9,000
每个响应的毛利
$125
$125
总毛利
$1,250,000 $1,125,000
路漫漫其悠远
把你的商业经验溶入数据挖 掘过程是数据挖掘成功的关 键
?
Business problem
What you know
路漫漫其悠远
Insight
!
Better data mining
results
路漫漫其悠远
丰富的数据挖掘算法
• Prediction
Neural net, C5.0
• Classification
净利润
$250,000
$375,000
建模的费用
0
40,000
最终的利润
$250,000
$335,000
差别 (250,000) ($250,000) (1,000) $0 ($125,000) $125,000 $40,000 $85,000
路漫漫其悠远
第二部分:数据挖掘标准流程 ——CRISP-DM
数据挖掘技术介绍
路漫漫其悠远
2020/3/29
大纲
• 什么是数据挖掘 • 数据挖掘的标准流程:CRISP-DM • 数据挖掘工具——SPSS Clementine简 介
路漫漫其悠远
第一部分:什么是数据挖掘?
路漫漫其悠远
数据挖掘都干了些什么?
英国电信需要发布一种新的产品 ,需要通过直邮的方式向客户推 荐这种产品。。。。。。
路漫漫其悠远
路漫漫其悠远
CRISP-DM
• 商业理解 • 数据理解 • 数据准备 • 建立模型 • 模型评估 • 模型发布
商业理解(Business Understanding)
• 找问题-确定商业目标 • 对现有资源的评估 • 确定问题是否能够通过数据挖掘来解决 • 确定数据挖掘的目标 • 制定数据挖掘计划
• 对各个模型进行评价 • 选择数据挖掘模型 • 建立模型
路漫漫其悠远
模型评估(Evaluation)
• 评估数据挖掘的结果 • 对整个数据挖掘过程的前面步骤进行评估 • 确定下一步怎么办?是发布模型?还是对数据 挖掘过程进行进一步的调整,产生新的模型
路漫漫其悠远
模型发布(Deployment)
Neural net, C5.0
• Segmentation
Kohonen, Kmeans, C5.0
• Association
Apriori, GRI, Web graph
• Sequence
CaprI, Neural Net, Regression
路漫漫其悠远
与SPSS及AnswerTree无 缝集成提供更多的算法
•Logistic Regression •Discriminant Analysis •Factor Analysis •Many more...