数据挖掘技术介绍PPT(40张)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• Prediction
Neural net, C5.0
• Classification
Neural net, C5.0
• Segmentation
Kohonen, Kmeans, C5.0
• Association
Apriori, GRI, Web graph
• Sequence
CaprI, Neural Net, Regression
• 高度的扩展性保证对数据库中大量的数据进 行挖掘
• 业界领先的发布技术使数据挖掘结果更好的 传递到相应管理人员手中
把你的商业经验溶入数据挖 掘过程是数据挖掘成功的关 键
?
Business problem
What you know
Insight
!
Better data mining
results
丰富的数据挖掘算法
与SPSS及AnswerTree无 缝集成提供更多的算法
•Logistic Regression •Discriminant Analysis •Factor Analysis •Many more...
•C&RT •CHAID •Exhaustive CHAID •QUEST
使你在数据仓库上的投 资得到最大的回报
数据挖掘技术简介
演讲人:钟云飞 Email:peter@spss.com.cn
2002年7月19日
Fra Baidu bibliotek
大纲
• 什么是数据挖掘 • 数据挖掘的标准流程:CRISP-DM
• 数据挖掘工具——SPSS Clementine简 介
第一部分:什么是数据挖掘?
数据挖掘都干了些什么?
英国电信需要发布一种新的产品 ,需要通过直邮的方式向客户推 荐这种产品。。。。。。
• 评估数据挖掘的结果 • 对整个数据挖掘过程的前面步骤进行评估 • 确定下一步怎么办?是发布模型?还是对数据 挖掘过程进行进一步的调整,产生新的模型
模型发布(Deployment)
• 把数据挖掘模型的结果送到相应的管理人员 手中
• 对模型进行日常的监测和维护 • 定期更新数据挖掘模型
第三部分:数据挖掘工具 —SPSS Clementine简介
使直邮的回应率提高了100%
数据挖掘都干了些什么?
GUS日用品零售商店需要准确 的预测未来的商品销售量,降 低库存成本。。。。。。
通过数据挖掘的方法使库存成本比原 来减少了3.8%
数据挖掘都干了些什么?
汇丰银行需要对不断增长的 客户群进行分类,对每种产 品找出最有价值的客户。。 。。。。
营销费用减少了30%
•Sybase •DB2 •Informix •OpenIngress •Oracle •SQL Server
通过数据挖掘您可以
发现最有价值 的客户
通过数据挖掘您可以
使组合销售更 有效率
通过数据挖掘您可以
留住那些最有 价值的客户
通过数据挖掘您可以
用更小的成本 发现欺诈现象
什么是数据挖掘
•通过采用自动或半自动的手段,在海量数据中发现 有意义的行为和规则的探测和分析活动。 •数据挖掘能够帮助你选择正确瞄准潜在目标,向现 有的客户提供额外的产品,识别那些准备离开的好 客户。
• CRISP-DM是CRoss-Industry Standard Process-Data Mining的缩写 • 由SPSS、NCR、Daimler-Benz在1996年制定 • CRISP是当今数据挖掘业界通用流行的标准之一 • 它强调数据挖掘在商业中的应用,解决商业中存 在的问题,而不是把数据挖掘局限在研究领域
(Big Bank & Credit Card Company)
目的:发现新客户
数据挖掘以前 数据挖掘以后
发信的数量
1,000,000
750,000
成本
$1,000,000
$750,000
响应的数量
10,000
9,000
每个响应的毛利
$125
$125
总毛利
$1,250,000 $1,125,000
净利润
数据挖掘应用领域
•电信 :流失 •银行:聚类(细分), 交叉销售 •百货公司/超市:购物篮分析 (关联规则) •保险:细分,交叉销售,流失(原因分析) •信用卡: 欺诈探测,细分 •电子商务: 网站日志分析 •税务部门:偷漏税行为探测 •警察机关:犯罪行为分析 •医学: 医疗保健
数据挖掘效益分析(直邮)
•Make a difference with the •predictive power of data mining
应用Clementine达到你数 据挖掘的目标
• 图形化的界面、数据流的形式建立模型,保 证了应用Clementine进行数据挖掘关注商业更 甚于关注技术本身
• 开放式的技术是更好的保护您的投资的保障
• 确定数据挖掘所需要的数据 • 对数据进行描述 • 数据的初步探索 • 检查数据的质量
数据准备(Data Preparation)
• 选择数据 • 清理数据 • 对数据进行重建 • 调整数据格式使之适合建模
建立模型(Modeling)
• 对各个模型进行评价 • 选择数据挖掘模型 • 建立模型
模型评估(Evaluation)
数据挖掘都干了些什么?
美国国防财务部需要从每年上 百万比的军火交易中发现可能 存在的欺诈现象。。。。。。
发现可能存在欺诈的交易,进行深 入调查,节约了大量的调查成本
数据挖掘都干了些什么?
美国国内税务局需要提高对 纳税人的服务水平。。。。 。。
合理安排税务官的工作,为纳税人提供 更迅捷、更准确的服务
CRISP-DM
• 商业理解 • 数据理解 • 数据准备 • 建立模型 • 模型评估 • 模型发布
商业理解(Business Understanding)
• 找问题-确定商业目标 • 对现有资源的评估 • 确定问题是否能够通过数据挖掘来解决 • 确定数据挖掘的目标 • 制定数据挖掘计划
数据理解(Data Understanding)
$250,000
$375,000
建模的费用
0
40,000
最终的利润
$250,000
$335,000
差别 (250,000) ($250,000) (1,000) $0 ($125,000) $125,000 $40,000 $85,000
第二部分:数据挖掘标准流程 ——CRISP-DM
CRISP-DM简介
相关文档
最新文档