上海证券交易所数据挖掘培训 II
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这个项目的重点在信用卡客户消费模式分析.
L O W
M e d im t g u S o d y S tg o d y S tg o d y S tg o d y S tg o d y S tg o d y O L D M eM eM eM eM eM e og og og og og og r t g a r t g a r t g a r t g a r t g a r t g a tg o d tg o d B Sy Sy I Gog Me M e og r t g a r t g a C H U R N m a l l m a l l B Se Se I Gus B s B su s s i n s i n C H U R N M E D I U M C H U R N M E D M I U E M D M I U E M D I U M C H U C R H N U C R H N U R N M E D M I U E M D M I U E M D I U M C H U C R H N U C R H N U R N M e d im e u M d im e u M d im e u M d im e u M d im u O L D O L D 6 1 2 6 1 2 6 1 2 m o n t h m s o n t h m s o n t h s
(从消费者来)
0.5% 取样
SQL 查询
~ 4 TB
创建数据库 (18 个快照))
~ 375 GB UDB / Teraplex
破产预测模型 输入表
属性选择 丰富破产模型
~ 75 GB SQL 查询
聚类模型 输入表
测试 数据
110K 记录
训练 数据
13K 记录 36个输入字段
1.07 M households 280 列 ~ 1 GB
是哪些人因信用卡透支为银行带来了利润?其风险度是多少?
时间序列分析能够使我们发掘信用卡透支者 ...
家庭对信用卡信用额度的使用
数据挖掘揭示了对信用的使用特点...
High End Dept Stores 0.1%, $107K 1.0%, $100K Electronics 0.1%, $80K Special Bankcard 0.6%, $130K Middle American Shoppers 0.8%, $87K Conservative Cards 3.6%, $78K Trendy Clothes 0.2%, $72K Middle American Shoppers 2.8%, $66K Middle American Shoppers 3.2%, $72K Not Players 63.2%, $63K High End Dept Stores 0.2%, $150K 0.01%, $380K Secured Loans 0.6%. $87K Middle American Shoppers 1.0%, $64K Personal Loans 0.1%, $84K Mainly Auto 8.8%, $74K Personal Loans 4.6%, $67K Personal Loans 0.2%, $60K Everything in the home 3.5%, $251K Student Loans 1.0%, $94K
• 获取和管理18个月的数据 • 提供数据集市类的环境以用于支持构想测试的查询 • 对时间分析和数据挖掘的分析可以导向用于开发新产品的见识 • 识别有倾向使用新产品的客户/消费者
数据流概述: 从兆兆字节(Terabytes) --> 结果
消费 信贷 数据 样本 消费者 数据库 普通 表 映射到 普通表的 消费者ID
SE TN U D T
O I L
L il t t e C h u r n O I L
SE TN U D T
Pr O o p u l a I L D e p t A U T O
SE TN U D T
A U T O A U T O A U T O Hn ih gd E Dte eo pr t S
A U T O A U T O P r Hn Ss S o M o p u l a ih gd e E r iu o e p e rh S / d im e u M d im e u M d im e u M d im u D e p t Dtehe M eoS r pr t S os e p p d im L u O D 1 a 1e 1 a -e 2r y - a -e 2r y 2r y O L D P r Ss Ss Ss M o p u l a e r iu o e r iu o e r iu o e d im e u M d im e u M d im e u M d im u D e p t Se Se Se O hr os h r p p os h r p p os L p p D O L D 1e 1 a - a -e 2r y 2r y Pr o p u l a D e p t Ss A e r iu o U T O M e d im e u M d im e u M d im e u M d im u Se hr os p p O L D O L D 1e 6 - a 2r y 1 2 m o n t h s
• 涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员 • 活动:确定及选择可能用于挖掘的数据
业务目标确定数据质量审核
• 对选择的数据进行审核
审核方法 – 离散数据频率分析 – 定量数据的分位数分析 – 图形分析包括柱状图、饼图、散点图, boxplots, 和时间曲线。
• 涉及人员:数据挖掘分析员、IT人员,有时还有业务分 析员 • 活动:检测抽取数据的质量
好的算法
• 好的算法能提高模型的准确性 • 好的算法能为模型的调整提供更好的灵活性
好的系统支持
• 好的系统能够为支持某些算法的运行提供可能
内存和硬盘空间不足会导致决策树模型不能运行
• 好的系统能提高数据挖掘的效率
好的系统增快数据挖掘的速度,从而减少等待时间
好的团队合作
• 数据挖掘是跨多部门(数据挖掘,IT,业务部门) 共同合 作的项目,因此需要各个部门的精诚合作
化建议
• 涉及人员:数据挖掘分析员和业务分析员 • 活动:分析挖掘结果并考虑如何在业务环境中应用
结果应用
• 数据挖掘结果应用途径
将挖掘获得的知识直接发送给用户 将结果加入ODS,DDS甚至源系统以便利用 。
• 涉及人员:IT人员 • 活动:基于运行系统的建议,IT人员实施应用数据挖掘 的结果
业务部门提供详细的业务需求,实时的业务知识指导,和专业化的数
据挖掘结果审核
IT部门提供数据源说明,数据提取和转换的支持,数据挖掘结果应用
的实施
数据挖掘部门提供数据整理的建议,制定优秀的数据挖掘方案,灵活
应用数据挖掘的算法,解释数据挖掘的结果,对结果的应用提出合理 化的建议
数据挖掘举例
收集信用机构的数据资产是开发新产品的催化剂
数据挖掘
• 数据挖掘项目的核心部分 • 尝试多种不同的数据挖掘技术以发现最优
• 数据挖掘方法
预测模型 – 分类 – 值预测
分割
链接分析 时间序列预测
• 涉及人员:数据挖掘分析员 • 活动:挖掘数据
应用建议
• 把分析结果转化为业务利润。
基于数据挖掘的知识发现,对在业务中运用数据挖掘结果,提出合理
数据转换
• 在选择并检验了需要的数据(表、变量)之后,多数情 况下需要进行数据转换。特定的转换取决于数据挖掘类 型和数据挖掘工具,比如计算机软件和数据挖掘所使用 的技术。 • 典型的转换
转换类别变量成数字变量 数学转换,如对数转换、次方转换 数字定义新变量
• 涉及人员:数据挖掘分析员 • 活动:抽取信息的转换
在公司内部数据中提取 向数据公司购买 进行市场调研
从公告或媒体中获取
• 涉及人员:数据挖掘分析员和IT人员 • 活动:确定及收集可能用于挖掘的数据
数据选择
• 从数据源选择将使用的数据类型
数据量大,采集时间长 => 数据抽样技术 – 平衡减少数据量和采样必须具有较全面的代表性 – 根据统计方法来计算样本的大小 了解数据的定义 数据的质量和可靠性 – 数据的准确性 – 数据的一致性 – 数据的完整性 – 数据的有效性 – 数据的代表性 – 数据的非冗余性
业务人员和技术人员的角色与职责Байду номын сангаас
数据仓库是为了最终用户的使用 而由最终用户和技术人员共同创建的
• 数据仓库不是一个技术项目 • 数据仓库必须由技术人员和最终用户共同缔造 • 技术人员和最终用户必须共同合作才能保证项目的成功
最终用户的职责
• 业务目的确定 (主导) • 用户需求 (主导) • 设计
市场分割 个性化服务 欺诈行为检测
股价预测 收入预测 风险值预测
关联分析
因子分析
相关分析
聚类分析
分类分析
相似时间
序列分析
值预测
时间序列 预测
数据挖掘功能、算法及典型应用
类别
预测模型
功能
分类
算法
决策树,神经网络,差 异分析 ,Logistic回归 , Probit 回归 线性回归,非线性回归 ,径向基函数 K均值,Demographic ,神经网络 统计,集合论
逻辑模型 星形模型
• 实施
测试
培训
技术人员职责
• 业务目的确定 (主导) • 用户需求 (主导)
• 设计
逻辑模型 物理模型 星形模型
• 实施
设计 编程
测试
培训
数据挖掘的方法和应用
数据挖掘的方法及典型应用
交叉销售 相关分析 购物篮分析 风险评级 信用评级 客户流失预测
G O V M Se e T hr o sM p p d im t g u S o d y S tg o d y A U T O 1e M eM e - a 2r y og og r t g a r t g a G O V M T y il t t e J Od U S M tg L B o
M eC og h r t g a u r n L il t t e C h u r n L il t t e C h u r n L il t t e C h u r n
1.07 M households 482 列 ~ 4 GB
属性 选择
41个输入字段 + 21 个supp 字段
智能挖掘
神经元 / 树状 分类 神经元 聚类
lift curves IM 可视化 树状分类
分类 KMAP Cluster 分析 Visualization Tool (例如:小生意 ) IBM 研究
数据挖掘项目成功的要素
好的数据源
• 数据要准确 • 数据要丰富 • 数据要经常更新
好的方案
• 方案必须紧密根据业务目的和数据挖掘目的来设计 • 对数据挖掘技术要有全面而深刻的了解,从而保证方案 制订有较强的灵活性和先进性 • 对其它非数据挖掘方案来解决相同的课题也要有较强的 认识,以备在制订数据挖掘方案时做参考。克服缺陷, 发扬优点。
销售预测,利率预测, 库存控制,信用降低导 致的公司损失预测
数据挖掘的具体过程
数据挖掘流程
Data Data Source 2.数据源 Source
识别 1.业务目的确定
3.数据 收集 4.数据选择 5.数据质量审核 7.数据挖掘
6.数据转换
9.应用建议 10.结果应用实施 8.结果解释
业务目标确定
典型应用
目标化市场营销,质量 控制,风险分析,客户 维持度分析,医疗诊断 盈利能力分析
数值预测
分割
聚类分析
市场分割 客户分割 购物篮分析、交叉销售
链接分析
关联发现
序列关联发现
统计,集合论
时序购物篮分析
相似时间序列发现
统计,集合论
销售流,股价波动
预测
时间序列预测
诸如ARIMA, BoxJenkins, 神经网络等的 统计时间序列模型
数据源识别
• 给定一个业务目标,下一步就是找到可以回答和解决这 一业务问题的数据。所需要的数据可以来自操作型数据 或者是公司内的数据库/数据仓库。 • 涉及人员:业务分析员,数据挖掘分析员和IT人员 • 活动:与IT部门的会议和访谈
数据收集
• 收集需要的数据有几种方式,这取决于数据需求和经济 因素的综合考量。
• 对于所有的数据挖掘项目,这并不是自动获得的。 • 许多数据挖掘项目的目标通常是模糊和不清晰的。对于 分析人员和决策制定者来说,在任何数据挖掘项目的开 始阶段,对业务问题、业务目标以及数据挖掘目的有一 个清晰而描述是至关重要的。 • 涉及人员:高级管理人员,业务分析员和项目经理 • 活动:与业务用户的会议和访谈
上海证券交易所数据挖掘培训 概览
刘世平博士
II
议程
• 业务系统和数据仓库之间的关系
• 数据挖掘的方法和应用
• 数据挖掘的具体过程
• 数据挖掘项目成功的要素
• 数据挖掘举例
业务系统和数据仓库之间的关系
业务系统和数据仓库
• 业务系统的主要功能是日常运作 • 数据仓库的目的是决策支持 • 业务系统是数据仓库的数据源 • 数据仓库系统不是也不可能替代业务系统