数据挖掘算法的基础PPT适合入门
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)广义的数据挖掘是指知识发现的全过程;狭义的数据 挖掘是指统计分析、机器学习等发现数据模式的智能方法, 即偏重于模型和算法。
(4)数据库查询系统和专家系统不是数据挖掘!在小规模 数据上的统计分析和机器学习过程也不应算作数据挖掘。
精选课件
2
1.2 机器学习
(1)对于某类任务T和性能度量P,如果一个 计算机程序在T上以P衡量的性能随着经验E 而自我完善,那么这个计算机程序被称为在 从经验E学习。
(4)切片和切块:切片操作在给定的数据方的选择一个维 的部分属性,获得一个较小的子数据方。切块操作通过对 选择两个或多个维的部分属性,获得一个较小的子数据方。
(5)转轴:是一种改变数据方二维展现形式的操作。它将 数据方的二维展现中的某些维度由行改为列,或由列改为 行。
精选课件
9
二、数据准备
现实世界的数据是不完整的(有些感兴趣 的属性缺少属性值,或仅包含聚集数据), 含噪音的(包含错误,或存在偏离期望的 异常值),不一致的(例如,用于商品分 类的部门编码存在差异)。
(2)机器学习是知识发现的一种方法,是指 一个系统通过执行某种过程而改进它处理某 一问题的能力。
精选课件
3
1.3 数据挖掘的对象
(1)关系型数据库、事务型数据库、面向对象的数 据库;
(2)数据仓库 / 多维数据库;
(3)空间数据(如地图信息)
(4)工程数据(如建筑、集成电路的信息)
(5)文本和多媒体数据(如文本、图象、音频、视 频数据)
maxmin
无限区间的归一化:
数据挖掘算法
Wang Ye 2006.8
精选课件
1
一、概念和术语
1.1 数据挖掘 / 知识发现
(1)数据挖掘是从存放在数据集中的大量数据挖掘出有趣 知识的过程。
(2)数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Databases)或知识发现,它是一个从大量数 据中抽取挖掘出未知的、有价值的模式或规律等知识的非 平凡过程,它与数据仓库有着密切的联系。
(6)时间相关的数据(如历史数据或股票交换数据)
(7)万维网(如半结构化的HTML,结构化的XML 以及其他网络信息)
精选课件
4
1.4 数据挖掘的步骤
(1)数据清理(消除噪音或不一致数据,补缺); (2)数据集成(多种数据源可以组合在一起); (3)数据选择(从数据库中提取相关的数据); (4)数据变换(变换成适合挖掘的形式); (5)数据挖掘(使用智能方法提取数据模式); (6)模式评估(识别提供知识的真正有趣模式); (7)知识表示(可视化和知识表示技术)。
精选课件
5
1.5 支持数据挖掘的关键技术
(1)数据库 / 数据仓库 / OLAP
(2)数学 / 统计(回归分析:多元回归、自 回归;判别分析:Bayes判别、Fisher判别、 非参数判别;主成分分析、相关性分析; 模糊集;粗糙集)
(3)机器学习(聚类分析;关联规则;决策 树;范例推理;贝叶斯网络;神经网络; 支持向量机;遗传算法)
(4)可视化:将数据、知识和规则转化为图 形表现的形式。
精选课件
6
1.6 数据仓库
(1)数据仓库是一个面向主题的、Baidu Nhomakorabea成的、随时间变 化的、非易失性数据的集合,用于支持管理人员的 决策。
(2)数据仓库是一种多个异种数据源在单个站点以统 一的模式组织的存储,以支持管理决策。数据仓库 技术包括数据清理、数据集成和联机分析处理 (OLAP)。
精选课件
7
1.7 数据仓库的模型
(1)星形模式:最常见模型;其中数据仓库包 括一个大的、包含大批数据、不含冗余的中心 表(事实表);一组小的附属表(维表),每 维一个。
(2)雪花模式:雪花模式是星型模式的变种, 其中某些维表是规范化的,因而把数据进一步 分解到附加的表中。
(3)星系模式:多个事实表共享维表。这种模 式可以看作星形模式集,因此称为星系模式, 或事实星座。
(4)若集合满足IND(R) = IND(Q)且R中的每 一个属性都是独立的,则R被称为Q的一个 “约简”,记作R = RED(Q)。
(5)约简可以通过删除冗余的(不独立的) 属性而获得,约简包含的属性即为“对分 类有帮助”的属性。
精选课件
13
2.2 数据变换 2.2-1 归一化与模糊化
有限区间的归一化: v' vmin
精选课件
8
1.8 典型的OLAP操作
(1)OLAP是一种多维数据分析技术。包括汇总、合并和聚 集等功能,以及从不同的角度观察信息的能力。
(2)上卷:从某一维度的更高概念层次观察数据方,获得 更概要的数据。它通过沿维的概念分层向上或维归约来实 现。
(3)下钻:下钻是上卷的逆操作。它从某一维度的更低概 念层次观察数据方,获得更详细的数据。下钻可以通过沿 维的概念分层向下或引入新的维来实现。
精选课件
11
2.1-2 粗糙集归约
(1)粗糙集理论在数学意义上描述了知识的 不确定性,它的特点是把用于分类的知识 嵌入集合内,使分类与知识联系在一起。
(2)知识的粒度、不可分辨关系、上近似、 下近似、边界等概念见下图。
精选课件
12
2.1-2 粗糙集归约(续)
(3)令Q代表属性的集合 。q∈Q是一个属性, 如果IND(Q−q) = IND(Q),则q在S中不是独 立的;否则称q在S中是独立的。
(3)数据仓库的逻辑结构是多维数据库。数据仓库的 实际物理结构可以是关系数据存储或多维数据方 (Cube)。
(4)数据方是由维度(Dimension)和度量(Measure) 定义的一种数据集,度量存放在由维度索引的数据 方单元中。维度对应于模式中的属性组,度量对应 于与主题相关的事实数据。数据方的物化是指预计 算并存储全部或部分单元中的度量。
需要数据清理、数据集成、数据选择、数 据变换等技术对数据进行处理。
精选课件
10
2.1 维归约 / 特征提取
2.1-1 决策树归约
(1)决策树归约构造一个类似于流程图的结 构:其每个非叶子结点表示一个属性上的 测试,每个分枝对应于测试的一个输出; 每个叶子结点表示一个决策类。
(2)在每个结点,算法选择“当前对分类最 有帮助”的属性,出现在树中的属性形成 归约后的属性子集。
(4)数据库查询系统和专家系统不是数据挖掘!在小规模 数据上的统计分析和机器学习过程也不应算作数据挖掘。
精选课件
2
1.2 机器学习
(1)对于某类任务T和性能度量P,如果一个 计算机程序在T上以P衡量的性能随着经验E 而自我完善,那么这个计算机程序被称为在 从经验E学习。
(4)切片和切块:切片操作在给定的数据方的选择一个维 的部分属性,获得一个较小的子数据方。切块操作通过对 选择两个或多个维的部分属性,获得一个较小的子数据方。
(5)转轴:是一种改变数据方二维展现形式的操作。它将 数据方的二维展现中的某些维度由行改为列,或由列改为 行。
精选课件
9
二、数据准备
现实世界的数据是不完整的(有些感兴趣 的属性缺少属性值,或仅包含聚集数据), 含噪音的(包含错误,或存在偏离期望的 异常值),不一致的(例如,用于商品分 类的部门编码存在差异)。
(2)机器学习是知识发现的一种方法,是指 一个系统通过执行某种过程而改进它处理某 一问题的能力。
精选课件
3
1.3 数据挖掘的对象
(1)关系型数据库、事务型数据库、面向对象的数 据库;
(2)数据仓库 / 多维数据库;
(3)空间数据(如地图信息)
(4)工程数据(如建筑、集成电路的信息)
(5)文本和多媒体数据(如文本、图象、音频、视 频数据)
maxmin
无限区间的归一化:
数据挖掘算法
Wang Ye 2006.8
精选课件
1
一、概念和术语
1.1 数据挖掘 / 知识发现
(1)数据挖掘是从存放在数据集中的大量数据挖掘出有趣 知识的过程。
(2)数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Databases)或知识发现,它是一个从大量数 据中抽取挖掘出未知的、有价值的模式或规律等知识的非 平凡过程,它与数据仓库有着密切的联系。
(6)时间相关的数据(如历史数据或股票交换数据)
(7)万维网(如半结构化的HTML,结构化的XML 以及其他网络信息)
精选课件
4
1.4 数据挖掘的步骤
(1)数据清理(消除噪音或不一致数据,补缺); (2)数据集成(多种数据源可以组合在一起); (3)数据选择(从数据库中提取相关的数据); (4)数据变换(变换成适合挖掘的形式); (5)数据挖掘(使用智能方法提取数据模式); (6)模式评估(识别提供知识的真正有趣模式); (7)知识表示(可视化和知识表示技术)。
精选课件
5
1.5 支持数据挖掘的关键技术
(1)数据库 / 数据仓库 / OLAP
(2)数学 / 统计(回归分析:多元回归、自 回归;判别分析:Bayes判别、Fisher判别、 非参数判别;主成分分析、相关性分析; 模糊集;粗糙集)
(3)机器学习(聚类分析;关联规则;决策 树;范例推理;贝叶斯网络;神经网络; 支持向量机;遗传算法)
(4)可视化:将数据、知识和规则转化为图 形表现的形式。
精选课件
6
1.6 数据仓库
(1)数据仓库是一个面向主题的、Baidu Nhomakorabea成的、随时间变 化的、非易失性数据的集合,用于支持管理人员的 决策。
(2)数据仓库是一种多个异种数据源在单个站点以统 一的模式组织的存储,以支持管理决策。数据仓库 技术包括数据清理、数据集成和联机分析处理 (OLAP)。
精选课件
7
1.7 数据仓库的模型
(1)星形模式:最常见模型;其中数据仓库包 括一个大的、包含大批数据、不含冗余的中心 表(事实表);一组小的附属表(维表),每 维一个。
(2)雪花模式:雪花模式是星型模式的变种, 其中某些维表是规范化的,因而把数据进一步 分解到附加的表中。
(3)星系模式:多个事实表共享维表。这种模 式可以看作星形模式集,因此称为星系模式, 或事实星座。
(4)若集合满足IND(R) = IND(Q)且R中的每 一个属性都是独立的,则R被称为Q的一个 “约简”,记作R = RED(Q)。
(5)约简可以通过删除冗余的(不独立的) 属性而获得,约简包含的属性即为“对分 类有帮助”的属性。
精选课件
13
2.2 数据变换 2.2-1 归一化与模糊化
有限区间的归一化: v' vmin
精选课件
8
1.8 典型的OLAP操作
(1)OLAP是一种多维数据分析技术。包括汇总、合并和聚 集等功能,以及从不同的角度观察信息的能力。
(2)上卷:从某一维度的更高概念层次观察数据方,获得 更概要的数据。它通过沿维的概念分层向上或维归约来实 现。
(3)下钻:下钻是上卷的逆操作。它从某一维度的更低概 念层次观察数据方,获得更详细的数据。下钻可以通过沿 维的概念分层向下或引入新的维来实现。
精选课件
11
2.1-2 粗糙集归约
(1)粗糙集理论在数学意义上描述了知识的 不确定性,它的特点是把用于分类的知识 嵌入集合内,使分类与知识联系在一起。
(2)知识的粒度、不可分辨关系、上近似、 下近似、边界等概念见下图。
精选课件
12
2.1-2 粗糙集归约(续)
(3)令Q代表属性的集合 。q∈Q是一个属性, 如果IND(Q−q) = IND(Q),则q在S中不是独 立的;否则称q在S中是独立的。
(3)数据仓库的逻辑结构是多维数据库。数据仓库的 实际物理结构可以是关系数据存储或多维数据方 (Cube)。
(4)数据方是由维度(Dimension)和度量(Measure) 定义的一种数据集,度量存放在由维度索引的数据 方单元中。维度对应于模式中的属性组,度量对应 于与主题相关的事实数据。数据方的物化是指预计 算并存储全部或部分单元中的度量。
需要数据清理、数据集成、数据选择、数 据变换等技术对数据进行处理。
精选课件
10
2.1 维归约 / 特征提取
2.1-1 决策树归约
(1)决策树归约构造一个类似于流程图的结 构:其每个非叶子结点表示一个属性上的 测试,每个分枝对应于测试的一个输出; 每个叶子结点表示一个决策类。
(2)在每个结点,算法选择“当前对分类最 有帮助”的属性,出现在树中的属性形成 归约后的属性子集。