数据挖掘技术及经典案例分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术及案例分析
内容
•数据挖掘FAQ
• What • How • Who • Which • Why
•数据挖掘过程
•应用案例
•总结
数据挖掘FAQ
Why?
What?
Which?
Who?
How?
数据挖掘FAQ—What
What?
数据挖掘FAQ—What
分析能力的八个等级
数据挖掘FAQ—What
案例描述:
鳗鲡人工繁殖尚未成功,养殖所需鳗苗全靠天然捕捞。 每年鳗苗的丰欠直接影响到养殖规模和效益。影响鳗苗 丰欠的因素很多且有的尚不确定,因而属于灰色系统。
采用灰色年灾变预测方法,对台湾鳗鲡苗种资源的丰欠 年份进行预测。
应用案例—水产养殖丰欠年灾变预测
实现步骤:
1. 取定原始序列:年份、鳗鲡苗捕获量。 2. 确定灾变阈值,本例取年产鳗苗大于12t的年份为丰年。 3. 根据灾变阈值,作灾变映射。 4. 对灾变映射后的数据序列,建立GM预测模型。 5. 按模型进行预测。
主要考虑因素为:time为时间段,weather为天气情况,traffic为 交通量。
案例演示
应用案例—个人信用数据关联规则分析
案例描述:
通过银行提供的个人信用数据,利用Apriori算法,进行关联规则 分析
关联程度主要通过支持度(Support)和置信度(Confidence)衡量
设定养殖场面积为100亩,养殖模式分为规格鳗和 大鳗养殖两种类型,求总水面经济效益最高值。
生产两种鳗的成本:规格、吨鱼消耗饲料、塘租、人工 、药费、机械、吨鱼耗苗种、亩产、上市时间、苗种价 格、成鱼价格
应用案例—水产养殖生产结构优化
实现步骤:
1. 对鳗鲡苗种价格预测 2. 对鳗鲡成鱼价格预测 3. 对两种鳗鲡养殖面积进行线性规划,计算符合约束条
数据挖掘FAQ—Which
分类与回归
分类预测 数值预测
聚类分析 关联规则 时序预测 偏差检测
数据挖掘FAQ—Who
Who?
数据挖掘FAQ—Who
企业业务分析人员 系统设计及开发人员
数据挖掘Байду номын сангаасAQ—How
How?
数据挖掘FAQ—How
商业智能及数据挖掘工具
BO BIEE Plus Cognos MicroStrategy SPSS Eviews SAS
挖掘目标 评价指标(影响因子) 建模样本 预测模型
总结—数据挖掘过程
最优模型
误差分析
模型评估
模型预测 交叉验证 模型验证 模型训练
预测建模
数据预处理
数据探索
数据探索
样本抽取 评价指标
挖掘目标
数据取样
应用线性规划对鳗鱼的行情进行预测,分析养殖 出口规格鳗和大鳗的养殖成本,并对一个养殖面 积在一定水面、资金、苗种情况下,养殖两种规 格鳗鱼的比例,优化养殖结构,提高经济效益。
应用案例—水产养殖生产结构优化
对养殖户而言,在一个养殖周期内,各种资源(水 体、资金、种苗等)是有限的,如何在有限的资源 和技术水平条件下,统筹安排,合理规划,达到最 大经济效益?
数据挖掘过程
内容
•数据挖掘FAQ •数据挖掘过程
• 数据取样 • 数据探索 • 模式发现 • 预测建模 • 模型评估
•应用案例
•总结
数据挖掘过程
数据挖掘过程
数据挖掘过程—数据取样
根据预测任务抽取数据样本,是基于对本次 数据挖掘任务深刻理解基础上完成的
数据取样时要严把质量关 抽样数据必须在足够范围内有代表性 数据常分为训练、测试和验证数据集
数据挖掘FAQ—What
数据挖掘FAQ—What
数据分析能力的演进
数据挖掘FAQ—What
数据挖掘是从大量数据(包括文本)中挖掘 出隐含的、先前未知的、对决策有潜在价值 的关系、模式和趋势,并用这些知识和规则 建立用于决策支持的模型,提供预测性决策 支持的方法、工具和过程。
数据挖掘FAQ—Why
Why?
数据挖掘FAQ—Why
企业内产生了大量业务数据,这些数据和由 此产生的信息是企业的财富,它如实记录了 企业运作的本质状况。
数据挖掘有助于企业发现业务的趋势,揭示 已知的事实, 预测未知的结果。
“数据挖掘”已成为企业保持竟争力的必要 方法。
数据挖掘FAQ—Why
分析和执行能力远跟不上信息的增长
模型评估目的:从多个模型中找出最优模型 模型评估:1)直接用原来样本数据进行检验,2)
另外找一批新数据检验 评价指标:均方误差;平均绝对误差;平方和误差
;平均绝对误差
数据挖掘过程—模型评估
不管黑猫、白猫,抓到老鼠就是好猫。 建模必须建立在对业务充分理解的基础上。
内容
•数据挖掘FAQ
•数据挖掘过程
•应用案例
• 水质预测—分类与回归 • 流量预测—聚类分析 • 信用分析—关联规则 • 变形预测—时序模式 • 灾变预测—偏差检测 • 水产养殖生产结构优化
•总结
应用案例
案例均基于太普数据挖掘(www.tipdm.cn)实现
太普数据挖掘简介:
太普数据挖掘套件(TIP DM Suite,TipDM)是广州太普软件自主研 发的一个数据挖掘工具,基于SOA架构,使用JAVA语言开发,能从各 种数据源获取数据,建立各种不同的数据挖掘模型(目前已集成数 十种预测算法和分析技术,基本覆盖了国外主流挖掘系统支持的算 法,用户也可以嵌入其它自己开发的任何算法),使用TipDM操作接 口进行数据挖掘工作。工具支持数据挖掘流程所需的主要过程,完 成包括对数据进行预处理,包括空值处理、降维处理、离散处理, 因子分析、主成分分析、抽样、过滤等,创建、训练、评估模型, 预测,修改模型参数,误差分析等一系列功能。
数据挖掘过程—预测建模
预测建模是对采样数据轨迹或状态进行概括 反映采样数据内部结构的一般特征 与采样数据的具体结构并不完全吻合 模型的具体化就是预测公式,公式可以产生与
观察值有相似结构的输出,这就是预测值
数据挖掘过程—模型评估
同一采样数据可以用多种数据分析方法和模型进行 分析
分类与回归
分类预测 数值预测
聚类分析 关联规则 时序预测 偏差检测
数据挖掘FAQ—Which
分类与回归
分类预测 数值预测
聚类分析 关联规则 时序预测 偏差检测
数据挖掘FAQ—Which
分类与回归
分类预测 数值预测
聚类分析 关联规则 时序预测 偏差检测
应用案例—水质预测(分类与回归)
利用BP神经网络算法,进行分类预测 案例描述:
输入:温度、盐度、PH值和溶解氧的含量 输出:水质类别
算法原理|案例演示
应用案例—交通量预测(聚类分析)
利用k-Means聚类算法,进行短期交通量预测 案例描述:
公路隧道短期交通量是隧道监控系统的核心参数,车辆交通流量的 大小直接决定隧道内污染严重程度。
数据挖掘过程—数据探索
抽样数据中是否存在空值、异常值? 有没有什么明显的规律和趋势? 有没有出现从未设想过的数据状态? 因素之间的相关性如何? 是否有明显的组差别?
数据挖掘过程—模式发现
在数据集中发现模式,比如关联规则,分 类模型,序列模式等
对问题解决的要求进一步量化 重新审视数据样本,是否满足目标需要 过滤与挖掘目标无关的记录或属性 数据结构和内容进一步调整
件的最优解
内容
•数据挖掘FAQ •数据挖掘过程 •应用案例
•总结
• 问题回顾 • 挖掘过程总结
总结—问题回顾
如何进行股票短期预测? 如何进行个人信用评级? 如何进行交叉销售,获取最大利益? 在各种资源有限前提下,如何合理规划,达到
最大经济效益?
总结—问题回顾
数据挖掘关键点:
案例演示
应用案例—基坑变形预测(时序模式)
利用GM(1,1)灰色系统,进行时序预测 案例描述:
输入:历史基坑实际监测变形量 输出:未来基坑变形量
案例演示
应用案例—水产养殖丰欠年灾变预测
灾变是指系统行为特征量超过某个阈值而使系统的 活动产生异常的后果。年灾变预测是对灾变发生的 年份进行预测。
数据挖掘FAQ—Which
Which?
数据挖掘FAQ—Which
分类与回归
分类预测 数值预测
聚类分析 关联规则 时序预测 偏差检测
数据挖掘FAQ—Which
分类与回归
分类预测 数值预测
聚类分析 关联规则 时序预测 偏差检测
数据挖掘FAQ—Which
序号 1
2
3
4
5
6
7
8
9
10 11
年份 1985 1986 1987 1988 1999 2000 2001 2002 2003 2004 2005
产量 8.5 11.3 13.5 9.2 7.6 10.5 12.8 8.3 6.9 13.1 11.6
应用案例—水产养殖生产结构优化
应用灰色性线规划,对水产养殖生产结构进行优化 案例描述:
相关文档
最新文档