数据挖掘概念与技术第二章数据预处理1精品PPT课件
合集下载
数据挖掘第一与第二章PPT课件
散的目标变量;回归,用于预测连续的目标变 量。
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.
大数据本科系列教材PPT课件之《数据挖掘》:第2章 数据预处理与相似性
这种方法的缺点是对异常点比较敏 感,倾向于不均匀地把实例分布到 各个箱中。
等宽分箱法
将数据总记录数均匀分为n等份,每 份包含的数据个数相同。如果n=10, 那么每一份中将包含大约10%的数 据对象。
等频法可能将具有不相同类标号的 相同属性值分入不同的箱中以满足 箱中数据固定个数的条件。
等频分箱法
19 of 44
x ' x min (new _ max new _ min) new _ min max min
将x转换到区间[new_min,new_max]中,结果为 。这种方法有一个缺 陷就是当有新的数据加入时,可能导致max,min值的变化,需要重新 定义。如果要做0-1规范化,上述式子可以简化为:
18 of 44
2.2 数据预处理
第二章 数据预处理与相似性
2.2.5 数据离散化
连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。任务可分为两个步骤 完成。首先将连续属性排序,并通过指定n-1个分割点把它们分成n个区间。然后,将一个区间中 的所有值映射到相同的分类值。
将排好序的数据从最小值到最大值 均匀划分成n等份,每份的间距是相 等的。假设A和B分别是属性值的最 小值和最大值,那么划分间距为 w=(B-A)/n
图形数据对象之间存在显式或隐式的联系,相互之间有一定的复杂依 赖关系,构成图形或网状结构,如互联网中的超链接。
6 of 44
高级大数据人才培养丛书之一,大数据挖掘技术与应用
第二章 数据预处理与相似性
2.1 数据类型 2.2 数据预处理 2.3 数据的相似性 习题
7 of 44
2.2 数据预处理
数据挖掘工作始终是以数据为中心开 展的,分类、聚类、回归、关联分析 以及可视化等工作的顺利进行完全是 建立在良好的输入数据基础之上。软 件开发行业有句格言:“Garbage-InGarbage-Out”,这句话同样适用于 数据科学。
等宽分箱法
将数据总记录数均匀分为n等份,每 份包含的数据个数相同。如果n=10, 那么每一份中将包含大约10%的数 据对象。
等频法可能将具有不相同类标号的 相同属性值分入不同的箱中以满足 箱中数据固定个数的条件。
等频分箱法
19 of 44
x ' x min (new _ max new _ min) new _ min max min
将x转换到区间[new_min,new_max]中,结果为 。这种方法有一个缺 陷就是当有新的数据加入时,可能导致max,min值的变化,需要重新 定义。如果要做0-1规范化,上述式子可以简化为:
18 of 44
2.2 数据预处理
第二章 数据预处理与相似性
2.2.5 数据离散化
连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。任务可分为两个步骤 完成。首先将连续属性排序,并通过指定n-1个分割点把它们分成n个区间。然后,将一个区间中 的所有值映射到相同的分类值。
将排好序的数据从最小值到最大值 均匀划分成n等份,每份的间距是相 等的。假设A和B分别是属性值的最 小值和最大值,那么划分间距为 w=(B-A)/n
图形数据对象之间存在显式或隐式的联系,相互之间有一定的复杂依 赖关系,构成图形或网状结构,如互联网中的超链接。
6 of 44
高级大数据人才培养丛书之一,大数据挖掘技术与应用
第二章 数据预处理与相似性
2.1 数据类型 2.2 数据预处理 2.3 数据的相似性 习题
7 of 44
2.2 数据预处理
数据挖掘工作始终是以数据为中心开 展的,分类、聚类、回归、关联分析 以及可视化等工作的顺利进行完全是 建立在良好的输入数据基础之上。软 件开发行业有句格言:“Garbage-InGarbage-Out”,这句话同样适用于 数据科学。
浙江大学王灿《数据挖掘》课程PPT_数据预处理
价值 可解释性 内在的、上下文的、表象的以及可访问性
跟数据本身的含义相关的
数据预处理的主要任务
数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性
集成多个数据库、数据立方体或文件 规范化和聚集
数据集成
median L1 ( n / 2 ( f )l f median )c
中位数:有序集的中间值或者中间两个值平均
度量中心趋势 (2)
众数(Mode,也叫模):集合中出现频率最 高的值
单峰的(unimodal,也叫单模态)、双峰的( bimodal)、三峰的(trimodal);多峰的( multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以 使用以下经验公式计算众数
数据预处理
第二章 数据预处理
为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成
为什么进行数据预处理?
现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10
有噪声
数据不一致
e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据为什么会变“脏”?
跟数据本身的含义相关的
数据预处理的主要任务
数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性
集成多个数据库、数据立方体或文件 规范化和聚集
数据集成
median L1 ( n / 2 ( f )l f median )c
中位数:有序集的中间值或者中间两个值平均
度量中心趋势 (2)
众数(Mode,也叫模):集合中出现频率最 高的值
单峰的(unimodal,也叫单模态)、双峰的( bimodal)、三峰的(trimodal);多峰的( multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以 使用以下经验公式计算众数
数据预处理
第二章 数据预处理
为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成
为什么进行数据预处理?
现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10
有噪声
数据不一致
e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据为什么会变“脏”?
数据挖掘ppt课件(2024)
医疗数据类型及特点
电子病历、医学影像、基因测序等 。
数据预处理与特征提取
针对不同类型的医疗数据进行预处 理和特征提取,如文本处理、图像 识别、基因表达谱分析等。
2024/1/29
模型评估与应用
通过准确率、灵敏度、特异度等指 标评估模型性能,将模型应用于实 际医疗场景中,提高医生诊断效率 和准确性。
疾病预测与辅助诊断模型构建
贝叶斯分类器应用案例
03
如垃圾邮件识别、新闻分类、情感分析等。
17
神经网络在分类预测中应用
1 2
神经网络基本概念
模拟人脑神经元连接方式的计算模型,通过训练 学习输入与输出之间的映射关系。
神经网络在分类预测中的应用
通过构建多层感知机、卷积神经网络等模型,对 输入数据进行自动特征提取和分类预测。
3
神经网络应用案例
5
数据挖掘与机器学习关系
机器学习是数据挖掘的重 要工具之一。
2024/1/29
数据挖掘包括数据预处理 、特征提取、模型构建等 步骤,其中模型构建可以 使用机器学习算法。
机器学习算法如决策树、 神经网络、支持向量机等 在数据挖掘中有广泛应用 。
6
2024/1/29
02
数据预处理技术
7
数据清洗与去重
推荐模型构建
利用机器学习、深度学习等技 术构建推荐模型,如逻辑回归 、神经网络等。
模型评估与优化
通过准确率、召回率、F1值等 指标评估模型性能,采用交叉 验证、网格搜索等方法优化模
型参数。
32
金融欺诈检测模型构建与优化
金融欺诈类型及特点
信用卡欺诈、贷款欺诈、洗钱等。
2024/1/29
数据来源与处理
数据挖掘——数据预处理 共48页PPT资料共50页文档
60、人民的幸福是至高无个的法。— —西塞 罗
ห้องสมุดไป่ตู้
谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
数据挖掘——数据预处理 共48页PPT资 料
56、极端的法规,就是极端的不公。 ——西 塞罗 57、法律一旦成为人们的需要,人们 就不再 配享受 自由了 。—— 毕达哥 拉斯 58、法律规定的惩罚不是为了私人的 利益, 而是为 了公共 的利益 ;一部 分靠有 害的强 制,一 部分靠 榜样的 效力。 ——格 老秀斯 59、假如没有法律他们会更快乐的话 ,那么 法律作 为一件 无用之 物自己 就会消 灭。— —洛克
ห้องสมุดไป่ตู้
谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
数据挖掘——数据预处理 共48页PPT资 料
56、极端的法规,就是极端的不公。 ——西 塞罗 57、法律一旦成为人们的需要,人们 就不再 配享受 自由了 。—— 毕达哥 拉斯 58、法律规定的惩罚不是为了私人的 利益, 而是为 了公共 的利益 ;一部 分靠有 害的强 制,一 部分靠 榜样的 效力。 ——格 老秀斯 59、假如没有法律他们会更快乐的话 ,那么 法律作 为一件 无用之 物自己 就会消 灭。— —洛克
数据挖掘原理与算法02精品PPT课件
2020/10/8
8
数据的选择与整理
没有高质量的数据就不可能有高质量的挖掘结果。为了得 到一个高质量的适合挖掘的数据子集,一方面需要通过数 据清洗来消除干扰性数据,另一方面也需要针对挖掘目标 进行数据选择。数据选择的目的是辨别出需要分析的数据 集合,缩小处理范围,提高数据采掘的质量。数据选择可 以使后面的数据挖掘工作聚焦到和挖掘任务相关的数据子 集中。不仅提高了挖掘效率,而且也保证了挖掘的准确性。
2020/10/8
3
1.问题定义阶段的功能
KDD是为了在大量数据中发现有用的令人感兴趣 的信息,因此发现何种知识就成为整个过程中第 一个也是最重要的一个阶段。
在问题定义过程中,数据挖掘人员必须和领域专 家以及最终用户紧密协作
一方面了解相关领域的有关情况,熟悉背景知识,弄清 用户要求,确定挖掘的目标等要求;
本章也对KDD系统项目的过程化管理、交互式数据挖掘过 程以及通用的KDD原型系统进行讨论,使读者从软件项目 管理角度来更好地理解KDD过程。最后对数据挖掘语言的 类型和特点进行介绍。
2020/10/8
2
知识发现是一个系统化的工作
从源数据中发现有用知识是一个系统化的工作。 首先必须对可以利用的源数据进行分析,确定合 适的挖掘目标。然后才能着手系统的设计和开发。
2020/10/8
7
数据清洗与预处理
在开始一个知识发现项目之前必须清晰地定义挖掘目标。虽然挖掘的 最后结果是不可预测的,但是要解决或探索的问题应该是可预见的。 盲目性地挖掘是没有任何意义的。如果所集成的数据不正确,数据挖 掘算法输出的结果也必然不正确,这样形成的决策支持是不可靠的。 因此,要提高挖掘结果的准确率,数据预处理是不可忽视的一步。
数据挖掘——第二章认识数据PPT课件
合计
200
1
100
Mo=商品广告
定序数据:中位数(median)
• 排序后处于中间位置上的值
• 用Me表示 • 不受极端值的影响
• 主要用于定序数据,也可用数值型数据, 但不能用于定类数据
• 各变量值与中位数的离差绝对值之和最小
,即
最小 n
Xi Me
i 1
中位数
中位数位置N1 2
Me 12XNX21N2当 NX为 N2奇 1 数 当 时N为偶数时
• 定类尺度(列名尺度):按照事物的某种 属性对其进行平行的分类或分组。
– 例:人口的性别(男、女);企业的所有制性 质(国有、集体、私营等)
• 计量层次最低 • 对事物进行平行的分类 • 各类别可以指定数字代码表示 • 具有=或的数学特性 • 数据表现为“类别”
定类尺度
• 定类尺度只测度了事物之间的类别差,而对各 类之间的其他差别却无法从中得知,因此各类 地位相同,顺序可以任意改变。
四种计量尺度的比较
四种计量尺度的比较
定类尺度 定序尺度 定距尺度 定比尺度
分类(=,≠ )
√
√
√
√
排序( < ,> )
√
√
√
间距( + ,- )
√
√
比值( × ,÷)
√
“√”表示该尺度所具有的特性
四种计量尺度的区别与联系
• 高层次的计量尺度具有低层次计量尺度的全部特 性,但反之不行
• 可将高层次计量尺度的计量结果转换为低层次计 量尺度的计量结果,但不能反过来
• 对事物分类的同时给出各类别的顺序 • 比定类尺度精确 • 不仅可以测度类别差(分类),还可以测
《数据挖掘》课件
NumPy、Pandas、 Matplotlib等,能够方便地进 行数据处理、建模和结果展示
。
Python的易读性和灵活性使得 它成为一种强大的工具,可以 快速地开发原型和实现复杂的 算法。
Python在数据挖掘中主要用于 数据清洗、特征工程、机器学 习模型训练和评估等任务。
R在数据挖掘中的应用
01
等。
02
数据挖掘技术
聚类分析
聚类分析的定义
聚类分析是一种无监督学习方法 ,用于将数据集中的对象分组, 使得同一组(即聚类)内的对象 尽可能相似,而不同组的对象尽
可能不同。
常见的聚类算法
包括K-means、层次聚类、 DBSCAN等。
聚类分析的应用
在市场细分、模式识别、数据挖 掘、统计学等领域有广泛应用。
04
Spark提供了Spark SQL、Spark MLlib和Spark GraphX等组件,可以进行结构化和非结构化数据的 处理、机器学习、图计算等任务。
Tableau在数据可视化中的应用
01 02 03 04
Tableau是一款可视化数据分析工具,能够帮助用户快速创建各种图 表和仪表板。
Tableau提供了直观的界面和强大的功能,支持多种数据源连接和数 据处理方式。
03
到了广泛应用。
数据挖掘的应用场景
商业智能
通过数据挖掘技术,企业可以 对市场趋势、客户行为等进行 深入分析,从而制定更好的商
业策略。
金融
金融机构可以利用数据挖掘技 术进行风险评估、客户细分和 欺诈检测等。
医疗
数据挖掘在医疗领域的应用包 括疾病诊断、药物研发和患者 管理等。
科学研究
数据挖掘在科研领域的应用包 括基因组学、天文学和气候学
。
Python的易读性和灵活性使得 它成为一种强大的工具,可以 快速地开发原型和实现复杂的 算法。
Python在数据挖掘中主要用于 数据清洗、特征工程、机器学 习模型训练和评估等任务。
R在数据挖掘中的应用
01
等。
02
数据挖掘技术
聚类分析
聚类分析的定义
聚类分析是一种无监督学习方法 ,用于将数据集中的对象分组, 使得同一组(即聚类)内的对象 尽可能相似,而不同组的对象尽
可能不同。
常见的聚类算法
包括K-means、层次聚类、 DBSCAN等。
聚类分析的应用
在市场细分、模式识别、数据挖 掘、统计学等领域有广泛应用。
04
Spark提供了Spark SQL、Spark MLlib和Spark GraphX等组件,可以进行结构化和非结构化数据的 处理、机器学习、图计算等任务。
Tableau在数据可视化中的应用
01 02 03 04
Tableau是一款可视化数据分析工具,能够帮助用户快速创建各种图 表和仪表板。
Tableau提供了直观的界面和强大的功能,支持多种数据源连接和数 据处理方式。
03
到了广泛应用。
数据挖掘的应用场景
商业智能
通过数据挖掘技术,企业可以 对市场趋势、客户行为等进行 深入分析,从而制定更好的商
业策略。
金融
金融机构可以利用数据挖掘技 术进行风险评估、客户细分和 欺诈检测等。
医疗
数据挖掘在医疗领域的应用包 括疾病诊断、药物研发和患者 管理等。
科学研究
数据挖掘在科研领域的应用包 括基因组学、天文学和气候学
《数据预处理》课件
缺失数据处理
删除含有缺失值的记录
这种方法简单直接,但可能导致数据 丢失,影响分析的准确性。
填充缺失值
使用插值算法预测缺失值
如线性插值、多项式插值等,这种方 法更精确,但需要具备一定的数学基 础。
使用固定值、平均值、中位数等填充 缺失值,保持数据的完整性。
异常值处理
统计学方法
基于数据的分布特性,如Z分数、 IQR等。
pandas提供了DataFrame和Series两种数 据结构,可以方便地存储和处理表格型数 据。
数据清洗
数据合并与分组
pandas提供了许多数据清洗功能,如缺失 值处理、重复值处理、数据类型转换等。
pandas提供了merge、concat等函数,可 以实现数据的横向和纵向合并,同时支持 数据的分组聚合操作。
数据预处理的流程
01
02
03
04
数据清洗
去除重复、错误或不完整的数 据,对缺失值进行填充或删除
。
数据转换
将数据转换为适合分析和挖掘 的格式或类型,如将分类数据
转换为数值型数据。
数据整合
将多个数据源进行整合,形成 一个统一、完整的数据集。
数据规约
对数据进行规约和降维处理, 减少数据的维度和计算量。
02 数据清洗
THANKS FOR WATCHING
感谢您的观看
简介
matplotlib是一个Python绘图库 ,可以方便地绘制各种图表,包 括散点图、折线图、条形图等。
数据可视化
在进行数据预处理时,可以通过 matplotlib将数据进行可视化,帮 助我们更好地理解数据的分布和特 征。
数据探索
通过绘制图表,可以发现数据中的 异常值和离群点,有助于进一步的 数据清洗和处理。
数据挖掘基础知识培训精品PPT课件
2020/10/13
7
数据挖掘系统的结构
智慧数据 财富未来
图形用户接口
模式评价 数据挖掘引擎
数据库或数据仓库服务器
数据清洗和集成
过滤
数据库
数据仓库
2020/10/13
知识库
8
数据挖掘标准流程
业务理解、数据预处理(数据理解和 数据准备)包含60%工作量;
60
CRISP-DM1999年欧盟机构联合起草. 通过近几年的 发展,在各种KDD过程模型中成为标准流程。
联机分析处理( OLAP) 对数据汇总、合并、聚集,验证假设
数据挖掘(DM,Data Mining) 数据建模、算法(非常规方法)
上世纪70年代以来,关系式数据库
上世纪80年代后期,数据仓库
1995年后,数据挖掘
数据挖掘是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 知识发现(Knowledge Discovery in Database, KDD)
-美林数据挖掘研究中心
© 2011 MERIT. All Rights Reserved. MERIT & its logo, are trademarks of MERIT.
目录
2020/10/13
智慧数据 财富未来
1.数据挖掘基本原理 2.数据预处理技术 3.数据挖掘技术 4.最优化技术 5.文本挖掘技术 6.图像和视频分析技术 7.可视化技术
需要注意的是,以上6个步骤并非完全按照此顺序 来执行。在实际应用中,需要针对不同的应用环境 和实际情况作出必要的调整。
此外,一个数据挖掘项目通常并不是一次性地执行 了上述6个步骤就结束了,它往往是一个反复迭代、 不断完善的过程。
数据挖掘概念、技术--数据预处理.ppt
离散化和概念分层
离散化技术用来减少给定连续属性的个数 通常是递归的。 大量时间花在排序上。 对于给定的数值属性,概念分层定义了该 属性的一个离散化的值。
数值数据离散化和概念分层生成
分箱 直方图分析 聚类分析 基于熵的离散化 通过自然划分分段 3-4-5规则
• 如果一个区间最高有效位上包括3 6 9 个不同的值, 划分为3个等宽区间。 7个不同值,按2-3-3划分为3 个区间 • 最高位包含2,4,8个不同值,划分为4个等宽区间 • 最高位包含1 ,5,10个不同值,划分为5个等宽区间 • 最高分层一般在第5个百分位到第95个百分位上进行
3.3 数据集成和变换
数据集成
将多个数据源中的数据结合起来存放在一 个一直得数据存贮中。 实体识别 实体和模式的匹配 冗余:某个属性可以由别的属性推出。
• 相关分析 • 相关性rA,B . rA,B>0,正相关。A随B的值得增大而增大 rA,B>0,正相关。AB无关 rA,B>0,正相关。A随B的值得增大而减少
数据压缩 cont.
主要成分分析
数值规约
回归和对数线形模型
• 线形回归 • 对数线形模型
直方图
• 等宽 • 等深 • V-最优 • maxDiff
数值规约 cont
聚类
• 多维索引树 : 对于给定的数据集合,索引树 动态的划分多维空间。
选样
• 简单选择n个样本,不放回 • 简单选择n个样本,放回 • 聚类选样 • 分层选样
• 数据聚集 • 维规约 • 数据压缩 • 数据规约
3.2 数据清理
空缺值
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/10/28
数据挖掘:概念与技术
7
Chapter 2: Data Preprocessing
Why preprocess the data? 描述性数据汇总
Data cleaning
Data integration and transformation
Data reduction
s2n 1 1i n 1(xi x)2n 1 1 [i n 1xi21 n(i n 1xi)2]
2N 1i n1(xi)2N 1i n1xi22
标准差 s (or σ) 是方差的平方根 s2 (or σ2)
2020/10/28
数据挖掘:概念与技术
14
正态分布曲线的属性
正态分布曲线 从 μ–σ 到 μ+σ: 大约包含68%的观测值 (μ: mean, σ: standard deviation) 从 μ–2σ 到 μ+2σ:大约包含95%的观测值 从 μ–3σ 到 μ+3σ:大约包含99.7%的观测值
2020/10/28
数据挖掘:概念与技术
12
度量数据的离散程度(1) (数据已经递增排序)
极差,四分位数, 离群点 与 盒图
极差(range):最大值与最小值之差
四分位数: Q1 (第25个百分位数), Q3 (第75个百分位数)
中间四分位数极差: IQR = Q3 – Q1 五数概括: min, Q1, Median, Q3, max 盒图:
代数度量
采用多个分布式度量函数来导出计算数据集的度量值。如 average()=sum()/count() 。
整体度量
必须对整个数据集计算的度量,计算开销较大,可以寻找 近似计算的方法。
2020/10/28
数据挖掘:概念与技术
10
度量数据的中心趋势(1)
平均值mean (代数度量,分布式度量,SQL中AVG()):
数据挖掘: 概念与技术
— 第二章 数据预处理 —
2020/10/28
数据挖掘:概念与技术
1
第二章: 数据预处理
为什么需要数据预处理? 描述性数据汇总 数据清理 数据集成和变换 数据归约 数据离散化和概念分层产生 总结
2020/10/28
数据挖掘:概念与技术
2
为什么需要预处理数据?
现实世界的数据容易“变脏” 不完整: 缺省属性值,缺少感兴趣的属性, 或者仅 仅包含聚集数据。
Discretization and concept hierarchy generation
Summary
2020/10/28
数据挖掘:概念与技术
8
挖掘数据的描述性特征(1)
动机 更好地理解数据分布:中心趋势,变化和传播趋势
数据的中心趋势度量 均值(mean)、中位数(median)、众数(mode)、中列 数(midrange)等。
2020/10/28
数据挖掘:概念与技术
3
为什么数据会变脏?
不完整的数据可能来自
收集数据时该数据值(属性)没有用 在收集数据和分析数据时的存在不同考虑 人员/硬件/软件故障的
噪声数据(不正确的数值)可能来自
仪器设备产生错误数据 数据输入时人为错误或计算机错误 数据传输错误
不一致数据可能来自
2020/10/28
数据挖掘:概念与技术
6
数据预处理的主要任务
数据清理
填充缺失值,光滑噪声数据, 识 别和删除离群值,解决不一致性
数据集成
集成多个数据库、数据立方体 或平面文件
数据转换
规范化和聚集
数据归约
获得大量数据的简化表示,但 能够产生同样的结果
数据离散化
数据归约的一种,对于数值数 据自动产生概念分层非常重要。
2020/10/28
数据挖掘:概念与技术
11
度量数据的中心趋势(2)
众数Mode 集合中出现频率最高的值 单峰的 Unimodal, 双峰的 bimodal, 三峰的trimodal
经验公式: mem an o 3 d (m e em an e)dian
中列数 数据集中最大和最小值的平均值
x
1 n
n i 1
xi
x N
n
w ixi
加权算术平均:
x
i1 n
wi
i1
截断平均(Trimmed mean): 去掉极值
中值median: (整体度量值)
奇数个值的中间值, 偶数个值的中间两个的平均值
插值估计 (for 分组分区间数据):
Байду номын сангаас
n/2( f)l
mediL1a(n
)c fme d ia n
不同的数据源 违反函数依赖 (e.g., 修改一些关联数据(FK))
重复元组也需要数据清理
2020/10/28
数据挖掘:概念与技术
4
为什么数据预处理很重要?
低质量的数据导致低质量的挖掘结果 高质量的决策必须依赖于高质量的数据
e.g., 重复数据和缺失数据可能引起不正确,甚至令 人误解的统计结果。
e.g., occupation=“ ”
噪声: 包含错误数据或者离群数据
e.g., Salary=“-10”
不一致: 编码或名称有差异的数据
e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C”
数据的离中趋势度量 四分位数(quartiles)、四分位数极差(interquartile range, IQR)、极差(range)、方差(variance)等。
2020/10/28
数据挖掘:概念与技术
9
挖掘数据的描述性特征(2)
数据度量类型
分布式度量
将数据集划分为较小的子集,计算每个子集的度量,然后 合并计算结果而得到原数据集的度量值。如sum(), count(), min(), max()等。
盒的端点在四分位数上使得盒的长度是中 间四分位数极差IQR
中位数用盒内的线标记
盒的另外两条线(胡须)延伸到最小和最 大观测值
离群点单独个别绘出
离群点:高于Q3或低于Q1的1.5 x IQR
2020/10/28
数据挖掘:概念与技术
13
度量数据的离散程度(2)
方差和标准差 方差: (代数度量, 可伸缩的计算)
数据仓库需要集成高质量的一致性数据 数据抽取、清理和转换是构建数据仓库的主要工作。
2020/10/28
数据挖掘:概念与技术
5
数据质量的度量
被广泛接受的数据质量观点: 精确性 完全性 一致性 合时性 可信性 增值性 可解释性 可访问性
广泛分类: 内在的,上下文关系的,代表性的,可访问性的