数据挖掘方法论和实际应用案例介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 资金监控 – 经营考核指标
机务
– 零部件库存 – 工单
航务
航线分析
– – – – 航线分类与聚类 渠道管理 定座控制 BIDT/MIDT稽查 – 正常率 – 飞行品质
……
4.电子商务与数据挖掘
互联网开放技术使数据更详尽、 更容易获得,快速数据挖掘成 为可能
– – – – – 交易订单 访客行为 搜索引擎 WEB2.0 蓝海、长尾
时序模式
– 通过时间序列搜索出重复发生概率 较高的模式。这里强调时间序列的 影响。
关联


2.数据挖掘方法论
由厂商提出的
SPSS的5‘A(Assess, Access, Analysis, Act, Automat) SAS的SEMMA(Sample, Explore, Modify, Model, Assess) MICROSOFE的OLEDB for DM
2.数据挖掘的典型行业应用
1
几种主要的数据挖掘技术都已经在银行电信行业得到广泛的应用
聚类分析 关联规则 分类预测模型(决策树,Logistic回归)
2
应用了数据挖掘技术之外的机器学习和统计建模技术 KPI预测(混沌时间序列分解预测方法,BP神经网络预测方法)
集团客户流失预警(层次分析法) 更多的数据分析方法
公式发现
– 物理定律发现系统BACON – 经验公式发现系统FDD
可视化技术
– 利用可视化技术分析数据库, 找到潜在的有用信息。
1.数据挖掘概念-几种模式
分类
– – – 分类问题属于预测性的问题,它跟普通 预测问题的区别在于其预测的结果是类 别。 典型三种算法:Logistic回归 ;决策树; 神经网络 应用场所:判定类别等
数据挖掘(DM)
– KDD过程中的一个特定步骤,它用专门算法从数据中 抽取模式(patterns)。 – “模式”可以看成是“知识”的雏形,经过验证、完 善后形成知识。
1.数据挖掘概念- KDD过程
数据准备 数据挖掘 结果表达和解释 结果表达和解释 数据挖掘 数据转换 预处理 数据选择 数据集成 目标数据 数据 数据源 预处理后 转换数据 数据 模式 知识
电子商务面向个人
– 个性化服务要求针对客户群体 细分的市场反应 – 个性化市场反应需要快速的数 据分析与知识发现 – 提升网站黏度
5.数据挖掘案例分享
客户流失 (分类模型、Logistic回归算法) 用户流失预测 (分类模型、神经网络、Logistic回归算法) 购买倾向预 测 (分类模型、Logistic回归算法) 增量销售预测 (分类模型、Logistic回归算法) 客户价值增长预测 (分类模型、Logistic回归算法) 竞争对手流失预测 (分类模型、Logistic回归算法) 客户级别打分 (分类模型、Logistic回归算法) 点击率分析(聚类模型、偏差检测、Logistic回归算法) 网站访问行为分析(聚类模型) 客户分群 (聚类模型、K-Means算法) 购物篮分析 (关联规则) ……
1.数据挖掘概念-方法和技术
归纳学习方法
– 决策树方法 – 集合论方法
统计分析方法
– 利用统计学原理通过对总体 中的样本数据进行分析得出 描述和推断该总体信息和知 识的方法。
仿生物技术
– 神经网络方法 – 遗传算法
模糊数学方法
– 利用模糊集合理论进行数据 挖掘,如模糊聚类、模糊分 类等。

应用:
– – 1、建立流失预测模型,回答客户是否要流失,何时流失的问题 2、通过预测模型建立客户流失管理机制,更为有效地管理流失,而不是去防止流失
5.数据挖掘案例-预测、孤立点
目的
– 了解网站访问量的发展趋势 – 了解网站异常访问情况
方法
– 分类预测 – 孤立点分析
应用
– 把握网站流量,做好访问控 制与规划 – 把握用户量、点击量发展趋 势 – 找到异常访问点,例如不良 搜索或者攻击
Customer Tenure
Lo ng
5.数据挖掘案例-网站客户流失
目的:预测某一段时间之后客户流失的概率。 方法:分类模型
1. 确定时间窗口 Data Window Time Lag Forecast Window
M-5 2. 3.
M
M-3
M-2
M-1
M
M+1
M+2
确定目标变量:定义在Data Window中正常而在Forecast Window中流失的客户为0,没有流失的客户为1。 选择自变量: 客户流失指标 客户信息数据(人口统计学数据、合同数据) 停留、访问数据 购票情况数据 一些转换之后得到的变量 其它数据
3
新的挖掘课题更侧重于高级数量分析
客户生命周期(管理营销学的实践,多模型支撑的分析过程) 响应模型(市场分析模型与数据挖掘模型的应用结合) 运筹学模型(应用于经营规划的优化)
3.数据挖掘在航空公司的应用
电子商务领域 传统客户关系管理
– 呼叫中心 – 常客俱乐部 – 代理人管理
财务
5.数据挖掘案例-网站客户分群
目的
物以类聚 针对不同群体做不同动作
Hig h
方法
Customer Expenditure Lo w Sh ort
聚类分析:根据用户的关键属 性将其分成不同的组别,要求 做到:组间差异化最大,组内 相似性最大
应用 用户访问行为聚类分析, 从而优化网站技术架构, 例如针对搜索引擎 用户购买行为聚类分析, 做不同的促销活动,细分 市场,精确营销,提高网 站粘度 页面点击率聚类分析,发 现页面流质量
由行业组织提出的
CRISP-DM(Cross Industry Standard Process for DM) CRISP-DM起源于1998年,当时 NCR、Clementine(1998年为 SPSS收购)、OHRA和DaimlerBenz(现为Daimler-Chrysler)的 联合项目组提出 CRISP-DM的六个阶段
方法论各有优劣,都有成功案例
2.企业数据挖掘的主要任务
实施数据挖掘是企业的一个战略性举措,具有极其深远的意义,有助于企业 提高其在同行业内的核心竞争力 数据挖掘可以帮助企业更充分和有效地将企业积累下来的用户数据利用起来, 更深刻地洞察用户的行为,使得企业的经营决策更加有的放矢 企业数据挖掘的外延也许更加广泛,一切利用数学工具建立起的解决企业经 营管理的某一方面问题的数据模型都可以认为是数据挖掘的任务 数据挖掘是一个循环的探索过程,各个环节同等重要。对企业而言,数据挖 掘工作需要长期持续地进行,新经济危机正是展现数据挖掘威力的黄金时机 对于企业而言,数据挖掘不是万能的,没有数据挖掘也未必是万万不能的
5.贯穿网站用户户生命周期的挖掘模型
活跃程度
用户获取
交叉销售 提升销售
黄钻流失预测 防沉淀拉动
黄钻晋级
长期沉淀拉动
Qzone健康度评估
产生
发展
衰退
重返
离开
时间
6.参考资料
www.dwway.com
www.dmresearch.net www.dmreview.com www.kdnuggets.com
电子商务环境下的 数据挖掘初探
南航信息中心 黄文强
2008年12月4日
内容提要
1. 2. 3. 4. 5. 数据挖掘概念 数据挖掘方法论 航空公司数据挖掘应用 电子商务与数据挖掘 航空电子商务数据挖掘应用案例分享
1.数据挖掘概念-定义
知识发现(KDD)
– knowledge discovery in database – 从数据中发现有用知识的整个过程 – 从大量数据中提取出可信的、新颖的、有用的并能被 人理解的模式的高级处理过程。
www.datawarehouse.com
总结
1. 2. 3. 4. 5. 数据挖掘概念 数据挖掘方法论 数据挖掘在航空公司的应用 电子商务与数据挖掘 航空电子商务数据挖掘应用案例分享
A. B. C. D. 分类 聚类 预测 关联
欢迎批评指正
偏差检测(异常点分析)
– 在数据库中找出异常数据。 – 应用场所:欺诈检测
预测
– 利用历史数据找出变化规律的模型, 并用此模型预测未来。
聚类
– – – – 指把一组个体按照相似性归成若干类别 。 典型算法:ቤተ መጻሕፍቲ ባይዱ于欧氏距离;K-means算 法 应用场所:市场细分 挖掘发现大量数据中项集之间有趣的关 联或相关联系 典型算法:Apriori算法; FP-Growth算 法; 应用场所:交叉销售(购物篮-啤酒与尿 布)
相关文档
最新文档