关于数据预处理ppt
合集下载
《遥感导论》Erdas上机课件-(3.数据预处理)
仿射变换前后的图像对比
4
图像的拼接处理(Mosaic Image)
ห้องสมุดไป่ตู้
图像拼接处理是要将具有地理参考的若干相邻图像合并成一幅图 像或一组图像,需要拼接的输入图像必须含有地图投影信息,或 者说输入图像必须经过几何校正处理(Rectified)或进行过校正 标定(Calibrated)。虽然所有的输入图像可以具有不同的投影 类型、不同的像元大小,但必须具有相同的波段数。在进行图像 拼接时,需要确定一幅参考图像,参考图像将作为输出拼接图像 的基准,决定拼接图像的对比度匹配以及输出图像的地图投影、 像元大小和数据类型。
,进入设
—>打开Matching Option对话框
第四步:运行Mosaic工具
第二步:加载Mosaic图像
第三步:图像匹配设置(Image Matching)
Mosaic Tool视窗菜单条:Edit—>Image Matching —>打开Matching Option对话框
Mosaic Tool视窗工具条:点击Set Input Model图标 置输入图像模式
—>点击Image Matching图标
选择1,必须是已经打开了需要进 行几何校正的图像。
—>打开Set Geometric Model对话框
—>选择几何校正计算模型(Select Geometric Model) —>OK
—>打开校正模型参数与投影参数设置对话框 —>定义校正模型参数与投影参数—>Apply —>Close —>打开GCP Tool Reference Setup 对话框 —>确定采点模式,采点校正….
第三章 数据预处理
大数据预处理技术 第1章 数据预处理概述
11500
25000
24
噪声处理 噪声是被测量的变量的随机误差或偏差。 孤立点:不符合数据模型的数据。
噪声处理的目的:降低对数据分析和结果的影响
引起噪声数据的原因:
• 数据收集工具的问题 • 数据输入错误 • 数据传输错误 • 技术的限制 • 命名规则不一致
噪声处理的方法: 分箱法 回归 聚类
25
13
02
数据预处理目的
--提升数据质量
14
数据预处理的目的
数据 采集
数据 预处理
数据 存储
数据 分析挖掘
数据 可视化
重要性:数据预处理是数据挖掘中必不可少的关键一步, 更是进行数据挖掘前的准备工作。
目的:达到改进数据的质量,提高数据挖掘过程的准确率和效率。 • 保证数据挖掘的正确性和有效性。 • 通过对数据格式和内容的调整,使得数据更符合挖掘的需要。
一致性 记录规范不一致
9
数据质量因素
在数据库中是指在不同地方存储和使用的同一数据应 当是等价的,表示数据有相等的值和相同的含义
一致性 数据冗余时数据内容不一致
学号 95001 95002 95003 95004
姓名 张晓云 刘一天 邓茹 王小刚
表 3-1 学生信息表 性别 女 男 女 男
年龄 18 19 18 20
李木
2
0006
王权
1
收入 8000 12000 11000 20000 NULL 25000
缺失值处理方法:
• 忽略元组 • 人工填写 • 属性的中心度量来填充 • 使用于给定元组同一类的所有样本平均值 • 使用最可能的值
21
缺失值处理
客户信息表
客户编号 客户名称 ...... 风险等级
25000
24
噪声处理 噪声是被测量的变量的随机误差或偏差。 孤立点:不符合数据模型的数据。
噪声处理的目的:降低对数据分析和结果的影响
引起噪声数据的原因:
• 数据收集工具的问题 • 数据输入错误 • 数据传输错误 • 技术的限制 • 命名规则不一致
噪声处理的方法: 分箱法 回归 聚类
25
13
02
数据预处理目的
--提升数据质量
14
数据预处理的目的
数据 采集
数据 预处理
数据 存储
数据 分析挖掘
数据 可视化
重要性:数据预处理是数据挖掘中必不可少的关键一步, 更是进行数据挖掘前的准备工作。
目的:达到改进数据的质量,提高数据挖掘过程的准确率和效率。 • 保证数据挖掘的正确性和有效性。 • 通过对数据格式和内容的调整,使得数据更符合挖掘的需要。
一致性 记录规范不一致
9
数据质量因素
在数据库中是指在不同地方存储和使用的同一数据应 当是等价的,表示数据有相等的值和相同的含义
一致性 数据冗余时数据内容不一致
学号 95001 95002 95003 95004
姓名 张晓云 刘一天 邓茹 王小刚
表 3-1 学生信息表 性别 女 男 女 男
年龄 18 19 18 20
李木
2
0006
王权
1
收入 8000 12000 11000 20000 NULL 25000
缺失值处理方法:
• 忽略元组 • 人工填写 • 属性的中心度量来填充 • 使用于给定元组同一类的所有样本平均值 • 使用最可能的值
21
缺失值处理
客户信息表
客户编号 客户名称 ...... 风险等级
《预处理技术》课件
提高数据质量: 通过清洗、转换、 集成等操作,提 高数据的准确性、 完整性和一致性
提高数据分析效 率:预处理技术 可以减少数据分 析过程中的重复 工作,提高数据 分析的效率
支持决策制定: 预处理技术可以 帮助企业更好地 理解和利用数据, 支持决策制定
提高数据安全性: 预处理技术可以 保护数据隐私, 防止数据泄露和 滥用
数据可视化:将数据转换为易 于理解的图表和图形,便于分 析和决策
Part Three
数据预处理
数据清洗
目的:提高数据 质量,去除噪声 和异常值
方法:包括缺失 值处理、异常值 处理、重复值处 理等
工具:可以使用 Python的 Pandas库进行数 据清洗
应用:数据清洗 在数据分析、机 器学习等领域具 有广泛应用
特征变换
特征提取:从原始数据中提取出有用的特征 特征选择:选择对模型性能影响最大的特征 特征缩放:将特征缩放到相同的范围,避免特征之间的差异过大 特征编码:将类别特征转换为数值特征,便于模型处理
特征降维
目的:降低特征维度,提高模型效 率
应用场景:图像识别、语音识别、 自然语言处理等领域
添加标题
添加标题
模型融合:将多个 模型融合以提高预 测精度
模型更新:根据新 的数据对模型进行 更新和优化
Part Six
结果预处理
结果展示与解释
结果展示:将预处理后的数据以图表、图形等形式展示出来 解释:对展示的结果进行解释,包括数据的含义、数据的变化趋势等 结论:根据展示的结果得出结论,如数据的变化趋势、数据的异常情况等 建议:根据结论提出建议,如改进措施、下一步研究方向等
数ห้องสมุดไป่ตู้清洗:去除异常值、 缺失值等
3-第三章 新媒体数据预处理
相当于实体的ID。
冗余问题
数据冗余是指同一属性在不同 的数据库中会有不同的字段名。 一个属性可以由另一个表中导 出。如一个顾客数据表中的平 均月收入属性,它可以根据月 收入属性计算出来。数据处理 者一方面可以通过相关性检测, 另一方面要结合数据所在的背 景意义和情境进行判断。
数据值冲突问题
对于一个现实世界的实体,其来 自不同数据源的属性值或许不同。 产生数据值冲突的原因主要有表 示的差异、比例尺度的不同或者 编码的差异等。例如,重量属性 在一个系统中采用公制,而在另 一个系统中却采用英制。同样价 格属性在不同的地点采用不同的
缺失值的存在有如下影响:
对于缺失值的处理,主要是通过推断进行填补,大多数情况 下缺失的值必须手工填入(即手工清洗),依据和做法包括: (1)忽略该记录; (2)去掉属性; (3)使用默认值; (4)使用属性平均值; (5)使用同类样本平均值; (6)使用最大值、最小值或者更为复杂的概率估计或代替 缺失的值; (6)预测最可能的值。
第二节 新媒体数据预处理方法 >> 一、数据清洗 >> 重复值处理
(2)COUNTIF函数简单查询删除重复值 COUNTIF函数是Excel中对指定区域中符合指定条件的单元格计数的函数。 以下将仍以上述要处理的数据为例,阐释应用COUNTIF函数进行查询删除重复值的方法。
① 选中B2,公式-插入函数-全部函数-COUNTIF ② 设置参数。第一行的Range是要计算其中非空单元格数目的区域,选中D列;第二行的Criteria是以数字、表达式或文本形式 定义的条件,设置为A2。如图所示。 ③拖拽B2右下方的小方块填充至B20,可见B5、B12和B18为三个重复单号,在核对列有数值为1,如图所示。 ④筛选出核对列数值为1的结果,并删除重复项,如图所示。
冗余问题
数据冗余是指同一属性在不同 的数据库中会有不同的字段名。 一个属性可以由另一个表中导 出。如一个顾客数据表中的平 均月收入属性,它可以根据月 收入属性计算出来。数据处理 者一方面可以通过相关性检测, 另一方面要结合数据所在的背 景意义和情境进行判断。
数据值冲突问题
对于一个现实世界的实体,其来 自不同数据源的属性值或许不同。 产生数据值冲突的原因主要有表 示的差异、比例尺度的不同或者 编码的差异等。例如,重量属性 在一个系统中采用公制,而在另 一个系统中却采用英制。同样价 格属性在不同的地点采用不同的
缺失值的存在有如下影响:
对于缺失值的处理,主要是通过推断进行填补,大多数情况 下缺失的值必须手工填入(即手工清洗),依据和做法包括: (1)忽略该记录; (2)去掉属性; (3)使用默认值; (4)使用属性平均值; (5)使用同类样本平均值; (6)使用最大值、最小值或者更为复杂的概率估计或代替 缺失的值; (6)预测最可能的值。
第二节 新媒体数据预处理方法 >> 一、数据清洗 >> 重复值处理
(2)COUNTIF函数简单查询删除重复值 COUNTIF函数是Excel中对指定区域中符合指定条件的单元格计数的函数。 以下将仍以上述要处理的数据为例,阐释应用COUNTIF函数进行查询删除重复值的方法。
① 选中B2,公式-插入函数-全部函数-COUNTIF ② 设置参数。第一行的Range是要计算其中非空单元格数目的区域,选中D列;第二行的Criteria是以数字、表达式或文本形式 定义的条件,设置为A2。如图所示。 ③拖拽B2右下方的小方块填充至B20,可见B5、B12和B18为三个重复单号,在核对列有数值为1,如图所示。 ④筛选出核对列数值为1的结果,并删除重复项,如图所示。
数据的预处理
数据预处理是数据分析的关键步骤,包括数据筛选、数据分类汇总和数据透视图/表等多个环节。数据筛选是根据分析需求,从原始数据中筛选出符合条件的数据,如筛选出统计学成绩等于75分的学生或英语成绩最高的前三名学生等。数据分类汇总则是将数据按照某个字段进行分类,并对各类数据进行汇总统计,以便更好地了解数据的整体分布和特征,例如对MAX公司笔记本电脑月销售记录按生产商进行分类汇总,比较分析不同厂家的销售业绩。而数据透视图形化的方式展现出来,便于发现数据间的关联和规律,如分析销售员对不同生产厂家电脑的销售总金额。通过这些预处理步骤,可以有效地提升数据质量和分析效率,为后续的数据分析工作奠定坚实基础。
最新3-第三讲(数据预处理)课件PPT
用箱平均值平滑: 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29
用箱边界平滑(以左边界为例): 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34
聚类
通过聚类分析检测离群点,消除噪声
聚类将类似的值聚成簇。直观的,落在簇集合之外的值 被视为离群点,往往就是噪声点
3-第三讲(数据预处理)
主要内容
为什么要预处理数据? 数据清理 数据集成和变换 数据归约
数据预处理的主要任务
数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性
数据集成
集成多个数据库、数据立方体或文件
数据变换
规范化和聚集
数据归约
通过一些技术(概念分层上卷等)得到数据集的压缩表示, 它小得多,但可以得到相同或相近的结果
数据归约
数据归约可以用来得到数据集的归约表示,它小得多,但可 以产生相同的(或几乎相同的)分析结果
数据归约策略
数据立方体聚集(根据不同维度对数据进行往上汇总) 维归约(检测删除基本不相关的冗余的属性、维) 数据压缩(使用编码机制压缩数据集,应用于多媒体技术) 数值归约(用替代的较小数据替换或估计数据集,如参数模
回归
y
Y1 Y1’
y=x+1
X1
x
回归去噪一般是将Y1调整到Y1’,不是删除数据集成和Biblioteka 据变换数据集成(三个方面)
数据集成:
将多个数据源中的数据整合到一个一致的存储中
模式集成:
整合不同数据源中的元数据(描述数据的数据) 实体识别问题:匹配整合来自不同数据源的现实世
界中相同的实体,比如:A.cust-id=B.customer_no
检测并解决数据值的冲突
用箱边界平滑(以左边界为例): 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34
聚类
通过聚类分析检测离群点,消除噪声
聚类将类似的值聚成簇。直观的,落在簇集合之外的值 被视为离群点,往往就是噪声点
3-第三讲(数据预处理)
主要内容
为什么要预处理数据? 数据清理 数据集成和变换 数据归约
数据预处理的主要任务
数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性
数据集成
集成多个数据库、数据立方体或文件
数据变换
规范化和聚集
数据归约
通过一些技术(概念分层上卷等)得到数据集的压缩表示, 它小得多,但可以得到相同或相近的结果
数据归约
数据归约可以用来得到数据集的归约表示,它小得多,但可 以产生相同的(或几乎相同的)分析结果
数据归约策略
数据立方体聚集(根据不同维度对数据进行往上汇总) 维归约(检测删除基本不相关的冗余的属性、维) 数据压缩(使用编码机制压缩数据集,应用于多媒体技术) 数值归约(用替代的较小数据替换或估计数据集,如参数模
回归
y
Y1 Y1’
y=x+1
X1
x
回归去噪一般是将Y1调整到Y1’,不是删除数据集成和Biblioteka 据变换数据集成(三个方面)
数据集成:
将多个数据源中的数据整合到一个一致的存储中
模式集成:
整合不同数据源中的元数据(描述数据的数据) 实体识别问题:匹配整合来自不同数据源的现实世
界中相同的实体,比如:A.cust-id=B.customer_no
检测并解决数据值的冲突
《数据预处理》课件
缺失数据处理
删除含有缺失值的记录
这种方法简单直接,但可能导致数据 丢失,影响分析的准确性。
填充缺失值
使用插值算法预测缺失值
如线性插值、多项式插值等,这种方 法更精确,但需要具备一定的数学基 础。
使用固定值、平均值、中位数等填充 缺失值,保持数据的完整性。
异常值处理
统计学方法
基于数据的分布特性,如Z分数、 IQR等。
pandas提供了DataFrame和Series两种数 据结构,可以方便地存储和处理表格型数 据。
数据清洗
数据合并与分组
pandas提供了许多数据清洗功能,如缺失 值处理、重复值处理、数据类型转换等。
pandas提供了merge、concat等函数,可 以实现数据的横向和纵向合并,同时支持 数据的分组聚合操作。
数据预处理的流程
01
02
03
04
数据清洗
去除重复、错误或不完整的数 据,对缺失值进行填充或删除
。
数据转换
将数据转换为适合分析和挖掘 的格式或类型,如将分类数据
转换为数值型数据。
数据整合
将多个数据源进行整合,形成 一个统一、完整的数据集。
数据规约
对数据进行规约和降维处理, 减少数据的维度和计算量。
02 数据清洗
THANKS FOR WATCHING
感谢您的观看
简介
matplotlib是一个Python绘图库 ,可以方便地绘制各种图表,包 括散点图、折线图、条形图等。
数据可视化
在进行数据预处理时,可以通过 matplotlib将数据进行可视化,帮 助我们更好地理解数据的分布和特 征。
数据探索
通过绘制图表,可以发现数据中的 异常值和离群点,有助于进一步的 数据清洗和处理。
数据预处理ppt课件
划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
28
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
右[Redmen],[Orr98]
3
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 15
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分
用箱边界(去替换箱中的每个数 据)
28
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
右[Redmen],[Orr98]
3
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 15
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
加强交互性
数据清理工具:Potter’s Wheel 开发数据变换操作规范说明语言
2.4 数据集成和变换
数据集成合并多个数据源中的数据, 存放在一个一致的数据库(如数据仓 库)中。
源数据可能包括多个数据库,数据立 方体或一般文件。
数据变换将数据转换或统一成适合于 挖掘的形式。
2.4.1 数据集成
整体度量 必须对整个数据集计算的度量。 中位数、众数
代数度量
mean():
1n x n i1 xi
加权平均:
n
wi xi
x
i 1 n
wi
i 1
截断均值:去掉高、低极端值得到的均 值。减小极端值对均值的影响。
中列数(midrange ):(max+min)/2
整体度量
中位数(median):适用于倾斜的数据。近
:用较高层的概念替换较低层的概念。
概念分层
(-$400 -$5,000)
(0 $200)
(0 - $1,000)
($200 $400)
($400 $600)
($600 $800)($800 $ Nhomakorabea,000)
($1,000 - $2, 000)
($1,000 $1,200)
($1,200 $1,400)
如:立方体内存储季度销售额,若对 年销售额感兴趣,可对数据执行聚集 操作,例如sum()等。
2.5.2 属性子集选择
通过删除不相关或冗余的属性(或维)减小数据 集。
其目标是找出最小属性集,使得数据类的概率分 布尽可能地接近使用所有属性得到的原分布。
通过穷举搜索找出有属性的最佳子集是不现实的 。通常采用压缩搜索空间的启发式算法。如贪心 算法:从局部最优到全局最优。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
22
直方图 Histogram 概括给定属性分布的图形方法 每个矩形等宽
s个样本有放回简单随机抽样(SRSWR) 聚类抽样 分层抽样
2.6 数据离散化和概念分层产生
数据离散化技术用少数区间标记替换连续 属性的数值,从而减少和简化了原来的数 据。
可以对一个属性递归地进行离散化,产生 属性值的分层或多分辨率划分,称作概念 分层。
概念分层(concept hierarchy)用于归约数据
对海量数据进行复杂的数据分析和挖掘将需要很 长时间,使得这种分析不现实或不可行。
数据归约技术可以用来得到数据集的归约表示, 它小得多,但仍接近保持原数据的完整性。
对归约后的数据集挖掘将更有效,并产生相同( 或几乎相同)的结果。
数据归约
数据归约策略:
(1)数据立方体聚集:对数据立方体做聚集操作 (2)属性子集选择:检测并删除不相关、弱相关
或冗余的属性和维。 (3)维度归约:删除不重要的属性 (4)数值归约:
用规模较小的数据表示、替换或估计原始数据
(5)离散化和概念分层(concept hierarchy)产生
属性的原始数值用区间值或较高层的概念替换
2.5.1 数据立方体聚集
数据立方体存储多维聚集信息,提供 对预计算的汇总数据进行快速访问。
2.2 描述性数据汇总
获得数据的总体印象对于成功的数据预处理是 至关重要的。
描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。
动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、
描述数据汇总的图形显示。
2.2.1 度量数据的中心趋势
算数平均值 最常用
逐步向前选择 逐步向后删除 向前选择和向后删除的结合 决策树归纳
2.5.3 维度归约
维度归约使用数据编码或变换,以便得到 原数据的归约或“压缩”表示。分为无损 和有损两种。
主要方法:
串压缩:无损,但只允许有限的数据操作。 小波变换(DWT):有损,适合高维数据。 主成分分析(PCA):有损,能更好地处理稀
实体识别
元数据可帮助避免错误
属性冗余
相关分析
数据重复(元组冗余) 数据值冲突的检测与处理
表示、比例或编码不同
37
2.4.2 数据变换
平滑:去掉数据中的噪声。技术包括分箱、回归、
聚类。
聚集Aggregation :对数据进行汇总或聚集。 数据泛化(概化):使用概念分层,用高层概念
疏数据。
2.5.4 数值归约
通过选择替代的、“较小的”数据 表示形式来减少数据量。
可以分为参数方法和非参数方法。
参数方法:回归(regression )和对 数线性模型
非参数方法:直方图、聚类、抽样
抽样
用数据的小得多的随机样本(子集) 不是大型数据集。
抽样方法
s个样本无放回简单随机抽样(SRSWOR )
30
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
mean mode 3(mean median)
中位数、均值和众数
16
2.2.2 度量数据的离散程度
极差
最大值与最小值之差
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
数据预处理的形式
小结
现实世界的数据一般是脏的、不完整的和不一 致的。
数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。
高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。
检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报。
X1
x
聚类Cluster Analysis
2.3.3 数据清理作为一个过程
偏差检测
使用“元数据” 编码使用的不一致、数据表示的不一致、字段过载等 一些规则:唯一性规则、连续性规则、空值规则。 商业工具:数据清洗工具、数据审计工具
数据变换(纠正偏差)
数据迁移工具 提取/变换/载入(ETL)工具
($1,400 $1,600)
($1,600 $1,800)
($1,800 $2,000)
($2,000 - $5, 000)
右[Redmen],[Orr98]
5
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
数据预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
简化数据、但产生同样或相似的结果 7
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 17
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
最大观测值。
第2章 数据预处理
1
主要内容
2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生
2
2.1 数据预处理的原因
数据质量的含义
正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability)
回归:
用一个函数(回归函数)拟合数据来光 滑数据。
聚类:将类似的值聚集为簇。 其他:如数据归约、离散化和概念分
层。
29
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
分布式度量 可以通过如下方法计算度量(即函数):将 数据集划分成较小的子集,计算每个子集的 度量,然后合并计算结果,得到原(整个) 数据集的度量值。 sum()、count()、min()、max()
2.2.1 度量数据的中心趋势…
代数度量 可以通过应用一个代数函数于一个或多个分 布度量计算的度量。 mean()、中列数
3
现实世界的数据
不完整的
缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。
含噪声的
包含错误或存在偏离期望的离群值。
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
似值计算如下:
median L1
(n
/
2 ( f me dian
f
)l )c
设N个数值排序,若N为奇数,中位数是有序 集的中间值;若N为偶数,中位数是中间两个 值的平均值。
例如:1,3,5,7 中位数4
1,3,5,6,7 中位数5
整体度量
众数(mode):集合中出现频率最高的值。 单峰、多峰(双峰、三峰…)、无众数 对于适度倾斜的单峰频率曲线,有如下 的经验关系:
数据清理工具:Potter’s Wheel 开发数据变换操作规范说明语言
2.4 数据集成和变换
数据集成合并多个数据源中的数据, 存放在一个一致的数据库(如数据仓 库)中。
源数据可能包括多个数据库,数据立 方体或一般文件。
数据变换将数据转换或统一成适合于 挖掘的形式。
2.4.1 数据集成
整体度量 必须对整个数据集计算的度量。 中位数、众数
代数度量
mean():
1n x n i1 xi
加权平均:
n
wi xi
x
i 1 n
wi
i 1
截断均值:去掉高、低极端值得到的均 值。减小极端值对均值的影响。
中列数(midrange ):(max+min)/2
整体度量
中位数(median):适用于倾斜的数据。近
:用较高层的概念替换较低层的概念。
概念分层
(-$400 -$5,000)
(0 $200)
(0 - $1,000)
($200 $400)
($400 $600)
($600 $800)($800 $ Nhomakorabea,000)
($1,000 - $2, 000)
($1,000 $1,200)
($1,200 $1,400)
如:立方体内存储季度销售额,若对 年销售额感兴趣,可对数据执行聚集 操作,例如sum()等。
2.5.2 属性子集选择
通过删除不相关或冗余的属性(或维)减小数据 集。
其目标是找出最小属性集,使得数据类的概率分 布尽可能地接近使用所有属性得到的原分布。
通过穷举搜索找出有属性的最佳子集是不现实的 。通常采用压缩搜索空间的启发式算法。如贪心 算法:从局部最优到全局最优。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
22
直方图 Histogram 概括给定属性分布的图形方法 每个矩形等宽
s个样本有放回简单随机抽样(SRSWR) 聚类抽样 分层抽样
2.6 数据离散化和概念分层产生
数据离散化技术用少数区间标记替换连续 属性的数值,从而减少和简化了原来的数 据。
可以对一个属性递归地进行离散化,产生 属性值的分层或多分辨率划分,称作概念 分层。
概念分层(concept hierarchy)用于归约数据
对海量数据进行复杂的数据分析和挖掘将需要很 长时间,使得这种分析不现实或不可行。
数据归约技术可以用来得到数据集的归约表示, 它小得多,但仍接近保持原数据的完整性。
对归约后的数据集挖掘将更有效,并产生相同( 或几乎相同)的结果。
数据归约
数据归约策略:
(1)数据立方体聚集:对数据立方体做聚集操作 (2)属性子集选择:检测并删除不相关、弱相关
或冗余的属性和维。 (3)维度归约:删除不重要的属性 (4)数值归约:
用规模较小的数据表示、替换或估计原始数据
(5)离散化和概念分层(concept hierarchy)产生
属性的原始数值用区间值或较高层的概念替换
2.5.1 数据立方体聚集
数据立方体存储多维聚集信息,提供 对预计算的汇总数据进行快速访问。
2.2 描述性数据汇总
获得数据的总体印象对于成功的数据预处理是 至关重要的。
描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。
动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、
描述数据汇总的图形显示。
2.2.1 度量数据的中心趋势
算数平均值 最常用
逐步向前选择 逐步向后删除 向前选择和向后删除的结合 决策树归纳
2.5.3 维度归约
维度归约使用数据编码或变换,以便得到 原数据的归约或“压缩”表示。分为无损 和有损两种。
主要方法:
串压缩:无损,但只允许有限的数据操作。 小波变换(DWT):有损,适合高维数据。 主成分分析(PCA):有损,能更好地处理稀
实体识别
元数据可帮助避免错误
属性冗余
相关分析
数据重复(元组冗余) 数据值冲突的检测与处理
表示、比例或编码不同
37
2.4.2 数据变换
平滑:去掉数据中的噪声。技术包括分箱、回归、
聚类。
聚集Aggregation :对数据进行汇总或聚集。 数据泛化(概化):使用概念分层,用高层概念
疏数据。
2.5.4 数值归约
通过选择替代的、“较小的”数据 表示形式来减少数据量。
可以分为参数方法和非参数方法。
参数方法:回归(regression )和对 数线性模型
非参数方法:直方图、聚类、抽样
抽样
用数据的小得多的随机样本(子集) 不是大型数据集。
抽样方法
s个样本无放回简单随机抽样(SRSWOR )
30
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
mean mode 3(mean median)
中位数、均值和众数
16
2.2.2 度量数据的离散程度
极差
最大值与最小值之差
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
数据预处理的形式
小结
现实世界的数据一般是脏的、不完整的和不一 致的。
数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。
高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。
检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报。
X1
x
聚类Cluster Analysis
2.3.3 数据清理作为一个过程
偏差检测
使用“元数据” 编码使用的不一致、数据表示的不一致、字段过载等 一些规则:唯一性规则、连续性规则、空值规则。 商业工具:数据清洗工具、数据审计工具
数据变换(纠正偏差)
数据迁移工具 提取/变换/载入(ETL)工具
($1,400 $1,600)
($1,600 $1,800)
($1,800 $2,000)
($2,000 - $5, 000)
右[Redmen],[Orr98]
5
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
数据预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
简化数据、但产生同样或相似的结果 7
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 17
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
最大观测值。
第2章 数据预处理
1
主要内容
2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生
2
2.1 数据预处理的原因
数据质量的含义
正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability)
回归:
用一个函数(回归函数)拟合数据来光 滑数据。
聚类:将类似的值聚集为簇。 其他:如数据归约、离散化和概念分
层。
29
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
分布式度量 可以通过如下方法计算度量(即函数):将 数据集划分成较小的子集,计算每个子集的 度量,然后合并计算结果,得到原(整个) 数据集的度量值。 sum()、count()、min()、max()
2.2.1 度量数据的中心趋势…
代数度量 可以通过应用一个代数函数于一个或多个分 布度量计算的度量。 mean()、中列数
3
现实世界的数据
不完整的
缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。
含噪声的
包含错误或存在偏离期望的离群值。
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
似值计算如下:
median L1
(n
/
2 ( f me dian
f
)l )c
设N个数值排序,若N为奇数,中位数是有序 集的中间值;若N为偶数,中位数是中间两个 值的平均值。
例如:1,3,5,7 中位数4
1,3,5,6,7 中位数5
整体度量
众数(mode):集合中出现频率最高的值。 单峰、多峰(双峰、三峰…)、无众数 对于适度倾斜的单峰频率曲线,有如下 的经验关系: