数据挖掘技术及应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 数据挖掘就是充分利用了统计学和人工智能技术的应用程序,并把这些高 深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功 能,并且更专注于自己所要解决的问题。
Contents
什么是数据挖掘? 数据挖掘与其他学科间的关系 数据挖掘的基本过程 数据挖掘的功能和算法 数据挖掘案例分析
数据挖掘(KDD)过程
Contents
什么是数据挖掘? 数据挖掘与其他学科间的关系 数据挖掘的基本过程 数据挖掘的功能和算法 数据挖掘案例分析
数据挖掘是多学科的产物
数据库技术
统计学
机器学习
数据 挖掘
可视化
人工智能
高性能计算
数据挖掘与统计学的关系
➢为什么数据挖掘不是传统的数据分析? ➢数据挖掘不是统计学的分支 ➢统计学是数据挖掘的核心
➢ 传统的统计学方法是数据挖掘的经典方法,统计学思 想在整个数据挖掘过程都有重要的体现,担负着不可 忽视的重任。
13
数据挖掘与人工智能、统计学
➢ 数据挖掘利用了人工智能和统计分析的进步所带来的好处。这两门学科都 致力于模式发现和预测。
➢ 数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学 的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技 巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算 机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相 对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领 域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能 力下,它们几乎不需人工干预就能自动完成许多有价值的功能。
数据挖掘技术与应用
——万千
Contents
什么是数据挖掘? 数据挖掘与其他学科间的关系 数据挖掘的基本过程 数据挖掘的功能和算法 数据挖掘案例分析
什么是数据挖掘
• 数据挖掘是从大量数据中提取或“挖掘”知识。 • 与数据挖掘类似但稍有不同含义的术语有:
从数据库中发现知识(Knowledge Discovery from/in Database, KDD)
数据挖掘是知识发现的核心 步骤
数据挖掘
解释/评价
知识
变换
模式
预处理
筛选 数据
已预处理 数据
目标数据
Leabharlann Baidu
变换后 数据
数据挖掘过程
数据挖掘是一个反复迭代的人机交互处理过程。该过程需 要经历多个步骤,并且很多决策需要由用户提供。
从宏观上看,数据挖掘过程主要由三个部分组成,即数据 整理、数据挖掘和结果的解释评估。
9
为什么数据挖掘不是传统的数据分析?
1、海量数据——高维、高复杂度的数据 ➢算法必须能够处理诸如千兆的海量数据。
2、统计学具有某种保守性,它倾向于尽 量地避免出现特殊方法的运用,而偏好于 数学上的严格性;数据挖掘分析问题喜欢 “冒险”的态度。
10
3、在现代统计学中,模型是主要的,而对 于模型的选择标准、如何计算等则都是次 要的。但是在数据挖掘中,算法也扮演着 重要的角色。
训练集另一部分做测试集计算错误率,做完之后把两部分数据交换再 计算一次,得到另一个错误率,最后再用所有的数据建立一个模型, 把上面得到的两个错误率进行平均作为最后用所有数据建立的模型的 错误率。
(5)建立模型
对建立模型来说要记住的最重要的事是它是一个反复的过程。需要
仔细考察不同的模型以判断哪个模型对你的商业问题最有用。
为了保证得到的模型具有较好的精确度和健壮性,需要一个定义完
善的“训练—验证”协议。有时也称此协议为带指导的学习。验证方
法主要分为:
a)简单验证法
b)交叉验证法:首先把原始数据随机平分成两份,然后用一部分做
➢统计假设检验使用的小概率原理是否还适 用?
因为假定小概率事件在一次实验中不会发生是合理的, 而数据量大到一定程度之后,小概率事件一定会发生。
12
统计学是数据挖掘的核心
统计学和数据挖掘有着共同的目标。
➢ 统计学和数据挖掘有着共同的目标:发现数据中的结 构或模式。
统计学在数据挖掘中起着重要的作用。
4、统计学方法的前提假设。而数据挖掘是 在没有明确假设的前提下去挖掘信息、发 现知识。数据挖掘所得到的信息应具有先 未知、有效和可实用三个特征。
11
5、在统计理论方面:
➢ 统计推断的基础“总体”和“样本”的概念是 否还继续适用?
面对如此大量的数据很难定义总体和样本;
➢大样本渐近性质是否满足?
由于数据量太大,传统的统计量无论真实情况如何 都会变得“显著”;
商业角度的定义
• 数据挖掘是一种新的商业信息处理技术,其主要 特点是对商业数据库中的大量业务数据进行抽取、 转换、分析和其他模型化处理,从中提取辅助商 业决策的关键性数据。
数据挖掘的定义(续)
• 人们给数据挖掘下过很多定义,内涵也各不相同, 目前公认的定义是由Fayyad等人提出的。
• 所谓基于数据库的知识发现(KDD)是指从大量 数据中提取有效的、新颖的、潜在有用的、最终 可被理解的模式的非平凡过程。
知识提取(Knowledge extract) 数据 /模式分析(Data / Model analysis )。 数据考古 数据捕捞
• 技术上的定义 • 商业角度的定义
技术上的定义
• 数据挖掘(Data Mining)就是从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数据 中,提取隐含在其中的、人们事先不知道的、但 又是潜在有用的信息和知识的过程。
建立数据挖掘库可分成如下几个部分:
a) 数据收集
b) 数据描述
c) 选择
d) 数据质量评估和数据清理 e) 合并与整合 f) 构建元数据 g) 加载数据挖掘库 h) 维护数据挖掘库
(3)分析数据
数据分析的目的:是找到对预测输出影响最大的数据字段,并决定 是否需要定义导出字段。
(4)准备数据
这是建立模型之前的最后一步数据准备工作。可分成4个部分: a)选择变量; b)选择记录; c)创建新变量; d) 转换变量。
(1)定义商业问题
要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确 的定义,即决定到底想干什么。否则,很难得到正确的结果。
(2)建立数据挖掘库
数据准备工作大概要花去整个数据挖掘项目的50%-90%的时
间和精力。一般来说,直接在公司的数据仓库上进行数据挖掘是不 合适的,最好建立一个独立的数据集。
相关文档
最新文档