数据挖掘在商业管理与决策分析之实例应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据视觉
Pattern/model Transformed data
评鉴
样本选取
/Adapted from IBM Corp./
数据挖掘之基本概念
• 背景
– – – – 管理信息超载及结构化不足 信息混乱与误用 管理问题复杂度高 实时决策分析日益重视
• 发展目的
– 有效利用搜集之市场、客户、供货商、竞 争对手及未来趋势信息 – 使企业经由有效之方法与技术从历史数据里 撷取有用的知识
客戶購買案例特色
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
0.77 0.65 0.5 0.44 GA-CBR Regression
Learning Rate
Testing Rate
類別 最具購買 潛力客戶 A B C 類別 D E F
性別 女 男 男 性別 女 男 女
傳統判斷 買1 買2 買3 84. 5 1. 84. 30 12. 286 <20 <-4% <-4% <25 1日 1 0. 3% 0 0. 0% -0. 7% -0. 7% 賣1 >80 >+4% >75 1日 0 0. 0% 0 1日 225 78. 7% 131 58. 2% -0. 3% -60. 8% -0. 7% 45. 4% 6日 200 69. 9% 118 59. 0% -0. 9% -174. 0% 105. 6% 12 日 216 75. 5% 129 59. 7% -1. 6% 12 日 102 55. 4% 46 45. 1% 1. 0% 1日 11 3. 8% 4 36. 4% -1. 4% -15. 4% 賣2 >80 >+4% 6日 45 15. 7% 16 35. 6% -1. 5% -68. 4% 賣3 >70 >+2% 23 日 32 11. 2% 9 28. 1% -2. 3% -72. 6% 賣4 >80 >+2% 23 日 19 10. 3% 14 73. 7% 3. 3% 62. 9% 賣5 >80 >+2% 286 <20 <-4% 286 <30 <-2% 286 <20 <-2% 買4 買5 85. 4 1. 184 <20 <-2% 訓練
数据挖掘在商业管理与决策 分析之实例应用
引言
决策分析质量与效率之提升 数据挖掘之原理概念与功能 数据挖掘之建构方法 应用案例介绍 电 子 商 务 之 应 用 ( Web Mining/WAP Mining) 建议与结论
经营环境
经营环境日益挑战
考虑:成本、利润、质量 . . . .
管理活动
其它相关应用(续)
• • • • • • 发掘共同基金潜在客户 银行活期存款账户流失率估计 相关产品群组设计(cross-selling) 预测油田生产量 海上石油外溢对生态破坏影响之估计 飞机结构负载
Representation
Scaled(0.0 to 1.0) 1, 0, 0.5 1, 0, 0.5 1, 0, 0.5 Scaled(0.0 to 1.0) Scaled(0.0 to 1.0) Scaled(0.0 to 1.0) Scaled(0.0 to 1.0) Scaled(0.0 to 1.0) Scaled(0.0 to 1.0)
Logical Data Type
Continuous numeric Categorical Categorical Categorical Continuous numeric Continuous numeric Continuous numeric Continuous numeric Continuous numeric Continuous numeric
数据挖掘原理
主要方法
• 数据库、数据视觉、统计学、机器学习等
相关技术
• 类神经网络、模糊逻辑、基因算法、基因规画、 案例库 推理法、规则库推理、统计回归等
知识表现
• 决策树 、法则、定量数学公式、பைடு நூலகம்箱公式 等
Data mining主要功能与技术
功能
关联性 (Association) 时间序列 (Sequence) 分类 (Classification)
GA 測試 85. 4 1. 184 >87 >-4% 84. 5 1. 286
85. 31 84. 30 85. 31 8. 12. 8.
則 13 日 心理線
23 日 15 5. 2% 8 53. 3% 0. 4% 5. 6% 訓練 >14
23 日 26 14. 1% 17 65. 4% 3. 7% 95. 4% 測試
• • • • • • • Safeway 贩卖促销信息(e.g. coupon) 音乐/电影喜好问卷搜集 Fidelity Investment客户服务 (cross-selling/ wallet share) First USA Bank信用卡资料(汽车房贷) Capital One 降低贷款风险损失率 First Union预测潜在流失客户 预测侵蚀性的物质对皮肤的影响降低产品(药品或毒品)的发 展成本和时间,以及减少动物实验的需求 • 分析零售商店历史销售记录与位置概述以决定最佳的位置 • 分析提款机设置地点最佳位置
-343. 4% 106. 1% 270. 8% -43. 2%
Feature (I) 性別 婚姻狀況 子女數目 年齡 職業別 郵遞區號 儲蓄率 購買潛力 (predicted outcome)
Data Type Character Character Integer Integer List Integer Integer Character
Content F: Female; M: Male Y: Married; N: Single: U: Unknown Range: [1..8] Range: [1..70] Range: [1..10] Three-digits zip code Range: [1..27] Y: Yes; N: No
股市交易最佳化规则之发掘
• 规则一﹕假如6日RSI小于20且6日 BIAS 小于 -4%时 则 买入并持有12日 • 规则二﹕假如6日RSI 大于 80且6日 BIAS 大于 5%时 则 卖出并放空10日
模擬方式 買入類別 應用期間(起) 應用期間(迄) 總次數 買 入 規 6 日 R SI 6 日 股價B IA S 6 日 成交量B IA S 持有期間 買 入 結 果 投資次數 投資率 正確數 正確率 每筆報酬率 總報酬率 賣出類別 賣 出 規 6 日 R SI 6 日 股價B IA S
Market Basket Analysis (菜篮分析)
Coke Milk Juice Juice Egg Coke Milk
Egg
Coke
Egg
Juice
Milk
其它相关应用
• • • • • 发掘背部手术成败关键因素 磁砖颜色配比决策辅助 旋窑燃烧最佳化控制 研磨机钢球配比及置放址决策辅助 电子能量、功率、废气流量、氨气流量组合对 氮氧化物及硫氧化物去除效率之模式发展 • 污染排放量预测模式(DECADES MODEL) • 燃烧炉中NG、LPG、与正常空气之配比对燃烧 效率及其它有害气体之排放程度之影响
Values
18-74 Male, Female, Unknown Single, Married, Divorced, Unknown Yes, No, Unknown $0 to $1500 $0 to $2500 $0 to $5000 $0 to $2500 $0 to $5000 $0 to $15000
6 日 成交量B IA S >+4% 放空期間
<2. 8% 12 日 21 7. 3% 15 71. 4% -2. 8% -58. 4% 63. 9% 12 日 5 2. 7% 3 60. 0% -0. 7% -3. 6% 99. 0%
則 13 日 心理線 賣 出 結 果 投資次數 投資率 正確數 正確率 每筆報酬率 總報酬率 整體報酬
Market Segmentation
Segment size, average age
Segment 4 (Age 26)(11.9%)
Segment 1 (Age 43)(42.8%)
Segment 3 (Age 52)(20.4%)
Segment 2 (Age 42)(24.8%)
Figure 9.3 Segmentation Results: Segment Size and Average Age
population
Segment3 Segmnet1 Segmenet4 Segment2
Figure 9.4 Market Segmentation Analysis
Safeway 案例
• 面临之挑战
– 8 million transaction data/week (4 T MB) – 500家店面与600万客户 – 市场竞争激烈,传统手法技术式微 (如更低价位,更多据点,多类产品) – 新的竞争关键焦点:掌握客户需要--哪 类客户买哪些商品以及购买频率
最具(最不具)購買潛力客戶案例組合
提升Direct Mail回函率
预定目标
目标营销
回 函 数
大众营销 节省
寄出信函数(寄出成本)
Selected Data for Customer Segmentation
Attribute
Age Sex Marital Status Homeowner Sporting Goods ($) Exercise Equipment ($) Home Appliances ($) Electronics/Music ($) Furniture ($) Total Amount($)
婚姻狀況 子女數目 年紀 Y 1 40 N 4 64 Y 4 52 婚姻狀況 子女數目 年紀 Y N N 3 4 4 58 60 55
職業別 3 7 2 職業別 2 2 6
郵遞區號 儲蓄率 540 27 540 27 570 26 郵遞區號 儲蓄率 120 120 650 19 19 23
最不具購 買潛力客 戶
Market Segment Analysis
Segments v..s. Population
3000
A v g $
2500
2000
1500
s p e n t
1000
500
0
Sport
Exercise
Appliance
Entertainment
Furniture
Target Categories
Data Mining 过程
• • • • • • • • • 了解应用领域 建立目标集、选择目标数据集 去除数据杂质、做先置处理 减少数据和数据转换 选择数据挖掘的模式(功能) 选择数据挖掘的算法(技术) 资料挖掘 评估第七步骤的结果 整理发现的知识
实例应用
• • • • • • • • 客户评鉴与分类 (NeuroFuzzy) 提升邮购回函率 (Fuzzy) 股市交易最佳化规则之发掘 (GA) 零售商品与客源群聚相关性分析 (Neural/Statistic) 民航机重落地分析(Regression Tree) 化妆品偏好分析(Classification Tree) 窑烧最佳化控制(Neural/GA) 大哥大忠诚客户与游离客户之分析及预测 (Classification Tree)
技术
案例库推理/集合理论/统计 类神经网络/统计 基因演算/类神经网络/统计/ 模糊逻辑案例推理/决策树 基因规划/基因演算/回归 类神经网络/模糊逻辑/
适用领域
菜篮分析 利率预测 客户评鉴分类
公式 (Modeling) 群组 (Clustering) 基因演算/统计
销售预测 市场区隔
数据挖掘应用现况
整合:业务运作、管理控制、策略规画
信息密集行业 全方位/多角化经营
资料 --企业宝贵之资产
资料 仓储 (Corporate Memory) Mining
信息
Mining 知识
(Corporate Intelligence)
知识发现流程(Knowledge Discovery)
资料挖掘
数据转换与简化 前置处理与清理 Cleaned data Target data Database/Data Warehouse Performance Knowledge system