数据预处理ppt资料

合集下载

数据预处理

数据预处理

o z-score规范化:属性A的值基于A的平均值和标准差规范化,计算
v'
vA
A
o小数定标规范化:通过移动属性A的小数点位置进行规范化,计算
v'
v 10 j
数据预处理
属性构造:由给定的属性构造和添加新的属性,以帮助 提高精度和对高维数据结构的理解。例如,我们可能根 据属性height和width添加属性area。通过组合属性, 属性构造可以发现关于数据属性间联系的丢失信息,这 对知识发现是有用的。
能地接近使用所有属性的原分布。 5. 优点:减少了出现在发现模式上的属性的数目,使得
模式更易于理解。
数据预处理
属性子集选择方法包括以下技术:
1) 逐步向前选择:由空属性集开始,每次都选择原属性集中最好 的属性,将其添加到集合中。
2) 逐步向后删除:由整个属性集开始,在每一步,删除掉尚在属 性集中的最坏属性。
问题2:冗余 一个属性若能由另一个表导出,它便是冗余的。例如年薪。属性或 维命名的不一致也可能导致数据集中的冗余。
解决方法:可利用相关分析的方法检测冗余。 除了检测属性间的冗余外,“重复”也当在元组级进行检测。 所谓重复是指对于同一数据,存在两个或多个相同的元组。
数据预处理
问题3:数据值冲突的检测和处理
2. 用于一些具体的web挖掘中的方法
3.
使用预处理:数据净化、用户识别、会话识别、

4.

页面识别、路径补缺、事务识别
5.
结构预处理:站点拓扑
6.
内容预处理:页面信息抽取、信息主观兴趣特
征定
数据预处理
I. 一般的预处理方法
II. 数据清理 原因:现实世界的数据一般是脏的、不完整和不一致的。 功能:填充空缺值、识别孤立点、消除噪声、纠正数据 不一致。 具体实现:

大数据预处理技术 第1章 数据预处理概述

大数据预处理技术 第1章   数据预处理概述
11500
25000
24
噪声处理 噪声是被测量的变量的随机误差或偏差。 孤立点:不符合数据模型的数据。
噪声处理的目的:降低对数据分析和结果的影响
引起噪声数据的原因:
• 数据收集工具的问题 • 数据输入错误 • 数据传输错误 • 技术的限制 • 命名规则不一致
噪声处理的方法: 分箱法 回归 聚类
25
13
02
数据预处理目的
--提升数据质量
14
数据预处理的目的
数据 采集
数据 预处理
数据 存储
数据 分析挖掘
数据 可视化
重要性:数据预处理是数据挖掘中必不可少的关键一步, 更是进行数据挖掘前的准备工作。
目的:达到改进数据的质量,提高数据挖掘过程的准确率和效率。 • 保证数据挖掘的正确性和有效性。 • 通过对数据格式和内容的调整,使得数据更符合挖掘的需要。
一致性 记录规范不一致
9
数据质量因素
在数据库中是指在不同地方存储和使用的同一数据应 当是等价的,表示数据有相等的值和相同的含义
一致性 数据冗余时数据内容不一致
学号 95001 95002 95003 95004
姓名 张晓云 刘一天 邓茹 王小刚
表 3-1 学生信息表 性别 女 男 女 男
年龄 18 19 18 20
李木
2
0006
王权
1
收入 8000 12000 11000 20000 NULL 25000
缺失值处理方法:
• 忽略元组 • 人工填写 • 属性的中心度量来填充 • 使用于给定元组同一类的所有样本平均值 • 使用最可能的值
21
缺失值处理
客户信息表
客户编号 客户名称 ...... 风险等级

第四章数据预处理 ppt课件

第四章数据预处理 ppt课件
4)回归
✓发现两个相关的变量之间的变化模式,利用回归分析方 法所获得的拟合函数,帮助平滑数据及除去噪声。
y
Y1 Y1’
y=x+1
X1
x
39
3. 不一致数据的处理?
41
不一致数据
处理不一致数据的方式: 人工更正 利用知识工程工具:如,如果知道属性间的函数依赖 关系,可以据此查找违反函数依赖的值。 数据字典:在将不同操作性数据库中的数据进行集成 时,也会带来数据的不一致。如:一个给定的属性在不 同的数据库中可能具有不同的名字,如姓名在一个数据 库中为Bill,在另一个数据库中可能为B。对此,可根据 数据字典中提供的信息,消除不一致。
10
数据预处理的重要性
4)噪声数据:数据中存在着错误或异常(偏离期望值) ❖ 如:血压和身高为0就是明显的错误 ❖ 噪声数据的产生原因:
➢数据采集设备有问题; ➢在数据录入过程发生人为或计算机错误; ➢数据传输过程中出现错误; ➢由于命名规则或数据代码不同而引起的不一致。
11
数据预处理的常见方法
43
1. 数据集成?
44
37
如何处理噪声数据
2)聚类(Clustering):
✓相似或相邻近的数据聚合在一起形成各个聚类集合,而那些 位于聚类集合之外的数据对象,被视为孤立点。
✓特点:直接形成簇并对簇进行描述,不需要任何先验知识。
通过聚类分 析查找孤立 点,消除噪 声
38
如何处理噪声数据
3)计算机和人工检查结合
✓计算机检测可疑数据,然后对它们进行人工判断
32
练习:
已知客户收入属性income排序后的值(人民币元): 800,1000,1200,1500,1500,1800,2000, 2300,2500,2800,3000,3500,4000,4500, 4800,5000 要求:分别用等深分箱方法(箱深为4)、等宽分箱方法 (宽度为1000)对其进行平滑,以对数据中的噪声进行 处理。

数据挖掘概念与技术第三章精品PPT课件

数据挖掘概念与技术第三章精品PPT课件

假设调查了1500个人,按性别分成男和女。每个
人投票是否喜欢阅读小说。这样,就有了两个属 性:gender和preferred_reading.观察到的每个 可能的联合事件的次数在表3.1中。圆括号中的表 示事件的期望次数,按照公式3.2计算出来的。
可以注意到,每一行中,期望次数的总和必须和这一 行的观察次数的总和相等;每一列中,期望次数的和 等于这一列的观察次数的和。 利用公式3.1,计算卡方值为:
如果rAB =0,则A和B相互独立,它们之间没有任 何关系。如果值<0,则A和B负相关,表示一个属性的 值随着另一个值的降低而增大。
散点图可以用来可视化属性之间的关联关系。
注意:关联并不表示因果。即如果A和B相关, 但并不意味着A导致B或者B导致A。
例如,在分析一个人口统计数据库时,我们发 现表示医院数目的属性和盗车数目相关。但这并不表 示一个属性导致了另外一个。两个属性实际上都是因 为人口数这第三个属性导致的。
第三章 数据预处理
3.1 数据预处理 3.2 数据清理 3.3 数据集成 3.4 数据规约 3.5 数据变换与数据离散化 3.6小结
3.3.1 为什么要对数据预处理
低质量的数据将导致低质量的挖掘结果
准确性
完整性
高质量数据
一致性 时效性
Байду номын сангаас
可信性
可解释性
3.1.2 数据处理的主要任务
考虑下表,这是一个观察到的5次AllElectronics和 Hightech公式的股票价格。如果股票是被同一个公 司的趋势影响,那么它们的价格是否一起涨落呢?
3)离群点分析:通过如聚类来检测利群点。
3.2.3 数据清理作为一个过程
✓ 数据清理的第一步是偏差检测。导致偏差的因素很多,认为输入错误、 有意错误、数据退化(过时数据)、编码不一致、设备错误、系统错 误。

第三章 数据预处理

第三章 数据预处理
27


对单位名称字段进行一致性的处理 为了避免在同一数据库中,用两种形式、说 法来代表同一事物,制定单位名称表,使单 位代码与名称一一对应,同时也减少了数据 库中多余的字段。 填充空缺值 检查数据记录中空缺值的情况,按照以上所 述方法处理,这里不赘述。
28
对带有空间信息的数据进行清理

下图是市规划局周边的规划红线图, 乍一看,看不出其中出现错误的地 方,但是根据其空间信息的数据, 可以发现这一个地方有重复申报的 错误。
5
不一致数据
许多情况下,所记录的数据可能不一致,这是 多方面的因素,比如,由于编码或表示不同, 在数据集成的时候,就有可能造成不一致。
6
3.3数据集成和变换

数据集成:将多个数据源中的数据结合 起来存放在一个一致的数据存储(如数 据仓库)中。源数据可能包括多个数据 库,数据立方体或一般文件。
7
三个重要的问题要考虑
11
3)小数定标化:就是科学表示法的形式,将 属性的值映射到[0,1]之间。将小数点的位置 规范化,小数点的移动根据属性的最大绝对值。 如将A属性的值35规范后为:35/100=0.35
பைடு நூலகம்
12
属性构造:是由给定的属性构造和添加 新的属性,以有利于挖掘。比如,我们 根据属性heigh 和 width可以构造 area属 性。通过这种组合属性,属性构造可以 发现关于数据属性间联系的丢失信息, 这对知识发现有用的。
4
噪声数据




一个测量变量中的随机错误或偏差。可以用以下方法: 分箱 包括按箱平均值平滑,即就是将属性值根据等深, 例如每箱3个进行分箱,然后用这三个值的平均值代替 箱中的值。类似有按箱中值平滑,按箱边界平滑; 聚类 聚类将相似的值组织成群或类,落在群或类外的 值就是孤立点,也就是噪声数据; 计算机和人工检查结合,比如,在一种应用中,使用 信息理论度量,帮助识别手写体字符数据库中的孤立 点; 回归,让数据适合一个函数(如回归函数)来平滑数 据。

第6章-数据预处理

第6章-数据预处理

6.2.2噪声数据处理

6.2数据清理
(4)人机结合检查方法。通过人与计算机检查相
结合方法,可以帮助发现异常数据。如:利用基于信息
论方法可帮助识别用于分类识别手写符号库中的异常模 式;所识别出的异常模式可输出到一个列表中;然后由
人对这一列表中的各异常模式进行检查,并最终确认无
用的模式(真正异常的模式)。这种人机结合检查方法 比单纯利用手工方法手写符号库进行检查要快许多。
第6章 数据预处理
宋杰鲲
®中国石油大学(华东)管理科学与工程系
数据预处理

由于数据库系统所获数据量的迅速膨胀 (已达GB或TB数量级),从而导致了现实世 界数据库中常常包含许多含有噪声、不完整、 甚至是不一致的数据。显然对数据挖掘所涉及 的数据对象必须进行预处理。数据预处理主要 包括:数据清理、数据集成、数据选择、数据 变换、数据归约等。
6.2.2噪声数据处理

6.2数据清理
①按平均值平滑:对同一箱值中的数据求平均值, 然后用这个平均值替代该箱子中的所有数据。 ②按边界值平滑:对于箱子中的每一个数据,观察 它和箱子两个边界值的距离,用距离较小的那个边界值 替代该数据。 ③按中值平滑:取箱子的中值,用来替代箱子中的 所有数据。中值也称中数,将数据排序之后,如果这些 数据是奇数个,中值就是最中间位置的那个数;如果是 偶数个,中值应该是中间两个数的平均值。
性值,可以采用以下方法进行遗漏数据处理:

(1)忽略该条记录。当一个记录中有多个属性值 空缺,特别是关键信息丢失时,即使是采用某些方法把
所有缺失的属性值填充好,该记录也不能反映真实情况, 对于数据挖掘算法来说,这样的数据性质很差,应该忽 略该条记录。
6.2.1遗漏数据处理

大数据挖掘导论与案例课件:数据预处理

大数据挖掘导论与案例课件:数据预处理

实际业务中,数据预处理已成为数据挖掘流程的基本步骤。
目录/Contents
01
数据预处理任务
02
数据清洗
03
数据规约
04
离散化与二元化
05
数据规范化和数据泛化
4.1
数据预处理任务
4.1 数据预处理任务
大数据挖掘导论与案例
数据预处理过程
数据预处理过程涉及到的方法很多,且作用各不相同。在具体的数据挖掘任务中,
数据归约技术可以得到数据集的归约表示,它仍然接近地保持原数据的完整性,但
数据规模小得多。在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分
析结果。
数据归约技术主要通过属性选择和数据采样两个途径对原始数据集进行压缩。
本节介绍聚集、抽样、维归约、特征子集选择和特征创建等数据归约方法。
4.3.1 聚集
需要注意的是,大多数数据挖掘过程都会在数据预处理阶段采用删除样本或数据填充的方法
对缺失数据进行处理。但是,并不存在一种处理缺失值的方法可以适合于任何数据集或任何
数据挖掘任务,无论哪种缺失值处理方法,都会无法避免地对数据集产生影响,继而影响模
型结果。
同时,在缺失值过多时,更值得关注的问题是数据集出现大量缺失值的原因。
“种豆,其苗必豆;种瓜,其苗必瓜。”
《吕语集粹·存养》
“Garbage in, garbage out.”
谚语
数据预处理(data preprocessing)是在开始业务分析之前对数据进行的预先处理过程。
完成预处理加工后的数据,具有更好的完整性、准确性和一致性,数据质量更高,更适应数据
挖掘模型的计算。
完整性和一致性。
数据清洗过程通常包括数据集的缺失值处理和噪声数据处理。

《数据预处理》课件

《数据预处理》课件

缺失数据处理
删除含有缺失值的记录
这种方法简单直接,但可能导致数据 丢失,影响分析的准确性。
填充缺失值
使用插值算法预测缺失值
如线性插值、多项式插值等,这种方 法更精确,但需要具备一定的数学基 础。
使用固定值、平均值、中位数等填充 缺失值,保持数据的完整性。
异常值处理
统计学方法
基于数据的分布特性,如Z分数、 IQR等。
pandas提供了DataFrame和Series两种数 据结构,可以方便地存储和处理表格型数 据。
数据清洗
数据合并与分组
pandas提供了许多数据清洗功能,如缺失 值处理、重复值处理、数据类型转换等。
pandas提供了merge、concat等函数,可 以实现数据的横向和纵向合并,同时支持 数据的分组聚合操作。
数据预处理的流程
01
02
03
04
数据清洗
去除重复、错误或不完整的数 据,对缺失值进行填充或删除

数据转换
将数据转换为适合分析和挖掘 的格式或类型,如将分类数据
转换为数值型数据。
数据整合
将多个数据源进行整合,形成 一个统一、完整的数据集。
数据规约
对数据进行规约和降维处理, 减少数据的维度和计算量。
02 数据清洗
THANKS FOR WATCHING
感谢您的观看
简介
matplotlib是一个Python绘图库 ,可以方便地绘制各种图表,包 括散点图、折线图、条形图等。
数据可视化
在进行数据预处理时,可以通过 matplotlib将数据进行可视化,帮 助我们更好地理解数据的分布和特 征。
数据探索
通过绘制图表,可以发现数据中的 异常值和离群点,有助于进一步的 数据清洗和处理。

数据预处理ppt课件

数据预处理ppt课件
划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
28
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
右[Redmen],[Orr98]
3
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 15
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分

《实验数据处理》课件

《实验数据处理》课件

深度学习的常见模型有卷积神经 网络(CNN)、循环神经网络 (RNN)和长短期记忆网络(
LSTM)等。
PART 06
实验数据处理案例分析
案例一:医学数据可视化分析
总结词
通过数据可视化技术,将医学数据转化为直观的图形 和图像,帮助医生更好地理解和分析数据。
详细描述
医学数据可视化分析是利用数据可视化技术,将大量的 医学数据转化为直观的图形和图像,帮助医生更好地理 解和分析数据。例如,通过将患者的生理参数、医疗影 像等数据可视化,医生可以更准确地诊断病情、制定治 疗方案和评估治疗效果。
案例三:金融市场数据分析与预测
总结词
通过数据分析方法和技术,对金融市场的历史数据进 行处理和分析,预测未来的市场走势和风险。
详细描述
金融市场数据分析与预测是利用数据分析方法和技术 ,对金融市场的历史数据进行处理和分析,以预测未 来的市场走势和风险。例如,通过对股票市场的历史 数据进行处理和分析,可以预测未来的股票价格走势 和风险,为投资者提供决策依据。此外,金融市场数 据分析与预测还可以用于评估金融市场的稳定性和风 险程度,为政策制定者和监管机构提供参考。
数据异常值处理
总结词
识别和去除异常值的方法
详细描述
异常值是指远离数据集主体的极端值,可能 会对数据分析产生负面影响。常见的异常值
检测方法有Z分数法、IQR法等,可以根据 数据的分布和特征选择合适的方法。去除异 常值可以采用简单的删除或更复杂的平滑技
术。
数据标准化处理
总结词
将数据调整到统一尺度的过程
数据来源与类型
定量数据
数值型数据,如实验测量值。
定性数据
描述性数据,如调查问卷的文本答案。

SPSS数据文件的建立和预处理PPT课件

SPSS数据文件的建立和预处理PPT课件

A、变量名(name):
变量名的字符个数不多于8个;
首字符应以英文字母开头,后面可以跟除了!? *之外的字母或数字。下划线、圆点不能为变量 名的最后一个字符
变量名不区分大小写字母
SPSS有默认的变量名,以‘VAR’开题,后面 补足5位数字。如:VAR00001等。
2020/1/11
2020/1/11
可编辑
21
C、变量宽度(width):变量可显示的最大字符位

D、小数位数(decimals)
E、变量名标签(label):对变量名含义的进一步解
释说明,可增强变量名的可视性和统计结果的可读性。
2020/1/11
可编辑
22
F、变量值标签(value)
• SPSS变量的数据类型大多应定 义为数值型,这样有利于以后的 数据分析;
6
窗口主菜单4: Data数据的操作和管理操作菜 单
• 对数据编辑窗口中的数据进行加工整理,如:数据的排序、转置、
2020选/1/取11 、分类汇总、加权等
可编辑
7
窗口主菜单5: Transform数据基本处理操作菜 单
• 对数据编辑窗口中的数据进行基本处理,如:生成新变量、计数、
2020分/1/组11 等。
定义SPSS数据的结构 录入和修改SPSS数据
统计分析SPSS数据
解释SPSS分析结果
2020/1/11
可编辑
15
2.SPSS数据文件的建立
建立方式之一:直接录入。即利用SPSS数据编 辑窗口定义SPSS数据的结构并输入数据。
建立方式之二:其他数据格式导入方式。即直 接读取其他格式的数据文件并将其转为SPSS格 式数据
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
似值m 计算e如下d :iL1a(nn/2f m(e dfi)al)nc
设N个数值排序,若N为奇数,中位数是有序 集的中间值;若N为偶数,中位数是中间两个 值的平均值。
例如:1,3,5,7 中位数4
1,3,5,6,7 中位数5
整体度量
众数(mode):集合中出现频率最高的值。
单峰、多峰(双峰、三峰…)、无众数
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 16
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
数据预处理的形式
小结
现实世界的数据一般是脏的、不完整的和不一 致的。
数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。
高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。
检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报。
2.2 描述性数据汇总
获得数据的总体印象对于成功的数据预处理是 至关重要的。
描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。
动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、
描述数据汇总的图形显示。
2.2.1 度量数据的中心趋势
算数平均值 最常用
整体度量 必须对整个数据集计算的度量。 中位数、众数
代数度量
mean():
x
1 n
n i 1
xi
n
w ixi
加权平均:
x
i1 n
wi
i1
截断均值:去掉高、低极端值得到的均 值。减小极端值对均值的影响。
中列数(midrange ):(max+min)/2
整体度量
中位数(median):适用于倾斜的数据。近
对于适度倾斜的单峰频率曲线,有如下
m 的经验e 关m a 系:n o 3 d (m e em an e)dia
中位数、均值和众数
15
2.2.2 度量数据的离散程度
极差
最大值与最小值之差
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
右[Redmen],[Orr98]
4
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
数ห้องสมุดไป่ตู้预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
简化数据、但产生同样或相似的结果 6
回归:
用一个函数(回归函数)拟合数据来光 滑数据。
聚类:将类似的值聚集为簇。 其他:如数据归约、离散化和概念分
层。
28
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
21
直方图 Histogram
分布式度量 可以通过如下方法计算度量(即函数):将 数据集划分成较小的子集,计算每个子集的 度量,然后合并计算结果,得到原(整个) 数据集的度量值。 sum()、count()、min()、max()
2.2.1 度量数据的中心趋势…
代数度量 可以通过应用一个代数函数于一个或多个分 布度量计算的度量。 mean()、中列数
概括给定属性分布的图形方法 每个矩形等宽
分位数图 Quantile Plot
观察单变量数据分布的简单有效方法
散布图scatter plot
直接观察是否存在簇(cluster),离群点等 每个点对应一个坐标对
局部回归(Loess)曲线 添加一条光滑曲线到散布图
2.3 数据清理
现实世界的数据一般是不完整的、有 噪声的和不一致的。
数据清理的任务: 填充缺失的值,光滑噪声并识别离群
点,纠正数据中的不一致。
2.3.1 缺失值
忽略元组 人工填写空缺值 使用一个全局常量填充空缺值 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本
的平均值 使用最可能的值填充空缺值
27
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
2
现实世界的数据
不完整的
缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。
含噪声的
包含错误或存在偏离期望的离群值。
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
29
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
主要内容
2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生
1
2.1 数据预处理的原因
数据质量的含义
正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability)
相关文档
最新文档