数据挖掘与标准化流程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘与标准化进程
CRISP-DM (CRoss-Industry Standard Process for Data Mining)
数据挖掘过程标准化
XML(Extensible Markup Language)
与数据预处理相结合,表示数据
SOAP(Simple Object Access Protocol )
数据库与系统互操作的标准
PMML(Predictive Model Markup Language)
预言模型交换标准, ,利用XML描述和存储数据挖掘模型
OLE DB For Data Mining
数据挖掘系统基于API的接口,可算为通用数据挖掘语言
2000年3月,微软公司推出了一个数据挖掘语言
数据挖掘标准流程
CRISP-DM(CRoss-Industry Standard Process-Data Mining),在1996年制定,是当今数据挖掘业界通用流行的标准之一,强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域
流程内容
商业理解
数据理解
数据准备
建立模型
模型评估
模型发布
数据挖掘流程
商业理解(Business Understanding)
确定目标,对现有资源评估,确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标,制定数据挖掘计划
数据理解(Data Understanding)
确定数据挖掘所需要的数据,对数据进行描述,数据的初步探索,检查数据的质量
数据准备(Data Preparation)
选择数据,清理数据,对数据进行重建,调整数据格式使之适合建模
数据挖掘流程
建立模型(Modeling)
对各个模型进行评价,选择数据挖掘模型,建立模型
模型评估(Evaluation)
评估数据挖掘的结果,对整个数据挖掘过程的前面步骤进行评估,确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型
模型发布(Deployment)
把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型
预言模型交换标准PMML
为什么需要PMML?
模型交换
对于复杂的数据挖掘任务,需要应用不同的数据挖掘工具,因而工具之间必须能够互相交换
结果
模型部署(deploy)
软件商能够更容易地将数据挖掘结果导入到其他支持这种标准的工具中。

从发展的眼光看,需要将商业智能跨越在Ineternet上进行实施部署,PMML为这项功能提供了的基础。

独立性
独立于平台、应用和操作系统,只定义模型描述,而不是模型执行的方法
标准化
标准化的模型描述就象HTML之于Internet一样,将开放模型的封闭性,开放数据挖掘行业。

PMML优缺点
优点
描述数据挖掘模型的标准
在数据挖掘工具之间,以及数据挖掘工具和其他应用之间交换数据挖掘模型
数据挖掘工具外部一种存储模型的有效的方式
将模型与数据和工具分离
用户易于编辑模型(作为XML文档,可以通过文本编辑器编辑)
缺陷
当前,模型并没有真正实现与数据的分离,因为,在建模前需要经过大量的数据转换
没有被所有的数据挖掘软件商采纳
对模型诊断(diagnostics)和期望的性能度量没有规定。

相关文档
最新文档