数据清洗与数据预处理.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-log100/1000 + (-log10/1000) = -log10/1000 =log100
只要可能性范围缩小了,获得的信息量总是正的。如果为0, 获得的信息为○。如果为负,反而扩大了其可能性范围。
熵——信息的度量
▪ 信息量大小的单位用比特来衡量。1比特的信息量是指含 有两个独立均等概率状态的事件所具有的不确定性能被全 部消除所需要的信息。
噪声数据的处理——分箱
➢ 分箱:把待处理的数据按照一定的规则放进一 些箱子中,考察每一个箱子中的数据,采用某 种方法分别对各个箱子中的数据进行处理。
➢ 箱子:按照属性值划分的子区间,如果一个属 性值处于某个子区间范围内,就称把该属性值 放进这个子区间代表的“箱子”里。
➢ 分箱技术需要确定的主要问题:
(1) 数据的一致性问题 (2)数据的噪声问题 (3)原始数据的不完整和高维 度问题
数据预处理 的方法
(1) 掌握数据清洗的主要任务 与常用方法
(2) 掌握数据集成的主要内容 和常用方法
(3) 掌握数据变换的主要内容 和常用方法
(4)掌握数据归约的主要内容和 常用方法
(1) 数据清洗 (2) 数据集成 (3) 数据变换 (4) 数据归约
离期望值)的数据 5.高维度
数据预处理的方法
▪ 1.数据清洗
➢ 去掉噪声和无关数据
▪ 2.数据集成
➢ 将多个数据源中的数据结合起来存放在一个一致的数 据存储中
▪ 3.数据变换
➢ 把原始数据转换成为适合数据挖掘的形式
▪ 4.数据归约
➢ 主要方法包括:数据立方体聚集,维归约,数据压缩, 数值归约,离散化和概念分层等
噪声数据的处理——分箱
▪ 等深分箱法(统一权重 )
➢ 按记录行数分箱,每箱具有相同的记录数,每 箱记录数称为箱的权重,也称箱子的深度。
▪ 设定权重(箱子深度)为4,上述例子分箱 后的结果如下。
箱1:800 1000 1200 1500 箱2:1500 1800 2000 2300 箱3:2500 2800 3000 3500 箱4:4000 4500 4800 5000
扫地机 http://www.chinachijie.c om/ wenku1
数据清洗和数据预处理
教学目标
▪ 认识数据挖掘前数据进行适当处理的必要 性
▪ 掌握常用数据预处理的方法。
教学要求
知识要点
能力要求
相关知识点
数据预处理 的原因
(1) 了解原始数据存在的主要 问题
(2) 明白数据预处理的作用和 工作任务
数据清洗——处理空缺值
▪ 数据并不总是完整的
➢ 在分析一个商场销售数据时,发现有多个记录中的属性 值为空,如:顾客的收入属性对于为空的属性值
▪ 引起空缺值的原因
➢ 设备异常 ➢ 与其他已有数据不一致而被删除 ➢ 因为误解而没有被输入的数据 ➢ 在输入时,有些数据应为得不到重视而没有被输入 ➢ 对数据的改变没有进行日志记载
噪声数据的处理——分箱
▪ 等宽分箱法(统一区间)
➢ 在整个属性值的区间上平均分布,即每个箱的 区间范围是一个常量,称为箱子宽度。
▪ 设定区间范围(箱子宽度)为1000元人民 币,分箱后
箱1:800 1000 1200 1500 1500 1800 箱2:2000 2300 2500 2800 3000 箱3:3500 4000 4500 箱4:4800 5000
噪声数据的处理——分箱
▪ 最小熵
➢ 使在各区间分组内的记录具有最小的熵。
▪ 信息是信号、符号或消息所表示的内容, 用以消除对客观事物认识的不确定性
▪ 信息量的直观定义:信息量的大小取决于 信息内容消除人们认识的“不确定程度”, 所消除的不确定程度越大,则所包含的信 息量就越大。
熵——信息的度量(利用概率来度量)
分箱方法,即如何分箱 数据平滑方法,即如何对每个箱子中的数据进行平
滑处理
噪声数据的处理——分箱
▪ 分箱的方法:分箱前对记录集按目标属性值的大 小进行排序。
➢ 等深分箱法 ➢ 等宽分箱法 ➢ 用户自定义区间 ➢ 最小熵
▪ 例:客户收入属性income排序后的值(人民币 元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000
A到1000人的学校去找B。传达室人告诉他,“B是信息管理系”,而管 理系有100人。他获得的信息是100/1000=0.1,也就是将可能性空间缩 小到原来的1/10. 用概率来表示:-log(1/10)=log10 又有人告诉他:B在信息管理与信息系统教研室(10人),则第2个信息 的确定性又缩小到原来的100/1000*10/100=10/1000,其信息量为
数据清洗
▪ 数据选取参考原则:
➢ 1.尽可能赋予属性名和属性值明确的含义 ➢ 2.统一多数据源的属性值编码 ➢ 3.去除惟一属性 ➢ 4.去除重复属性 ➢ 5.去除可忽略字段 ➢ 6.合理选择关联字段
▪ 进一步处理:
➢ 通过填补遗漏数据、消除异常数据、平滑噪声数据, 以及纠正不一致的数据,去掉数据中的噪音、填充空值、 丢失值和处理不一致数据
▪ 信息量: H(x)=-∑ P(Xi)log2P(Xi) i=1,2,3,…,n 其中Xi表示第i个状态(共n个状态); P(Xi)代表出现第i个状态时的概率; H(x)为消除不确定性所需的信息量,单位为比特(bit)。
数据清洗——处理空缺值
▪ 空缺值要经过推断而补上
➢ 1.忽略该记录 ➢ 2.去掉属性 ➢ 3.手工填写空缺值 ➢ 4.使用默认值 ➢ 5.使用属性平均值 ➢ 6.使用同类样本平均值 ➢ 7.预测最可能的值
数据清洗——噪声数据的处理
▪ 噪声:在测量一个变量时可能出现的测量值相对 于真实值的偏差或者错误。
为什么要预处理数据?
▪ 现实世界的数据是“肮脏的”
➢ 不完整的 ➢ 含噪声的 ➢ 不一致的
▪ 没有高质量的数据,就没有高质量的挖掘结 果
➢ 高质量的决策必须依赖高质量的数据 ➢ 数据仓库需要对高质量的数据进行一致地集成
原始数据中存源自文库的问题
1.不一致——数据内涵出现不一致情况 2.重复 3.不完整——感兴趣的属性没有值 4.含噪声——数据中存在着错误、或异常(偏
只要可能性范围缩小了,获得的信息量总是正的。如果为0, 获得的信息为○。如果为负,反而扩大了其可能性范围。
熵——信息的度量
▪ 信息量大小的单位用比特来衡量。1比特的信息量是指含 有两个独立均等概率状态的事件所具有的不确定性能被全 部消除所需要的信息。
噪声数据的处理——分箱
➢ 分箱:把待处理的数据按照一定的规则放进一 些箱子中,考察每一个箱子中的数据,采用某 种方法分别对各个箱子中的数据进行处理。
➢ 箱子:按照属性值划分的子区间,如果一个属 性值处于某个子区间范围内,就称把该属性值 放进这个子区间代表的“箱子”里。
➢ 分箱技术需要确定的主要问题:
(1) 数据的一致性问题 (2)数据的噪声问题 (3)原始数据的不完整和高维 度问题
数据预处理 的方法
(1) 掌握数据清洗的主要任务 与常用方法
(2) 掌握数据集成的主要内容 和常用方法
(3) 掌握数据变换的主要内容 和常用方法
(4)掌握数据归约的主要内容和 常用方法
(1) 数据清洗 (2) 数据集成 (3) 数据变换 (4) 数据归约
离期望值)的数据 5.高维度
数据预处理的方法
▪ 1.数据清洗
➢ 去掉噪声和无关数据
▪ 2.数据集成
➢ 将多个数据源中的数据结合起来存放在一个一致的数 据存储中
▪ 3.数据变换
➢ 把原始数据转换成为适合数据挖掘的形式
▪ 4.数据归约
➢ 主要方法包括:数据立方体聚集,维归约,数据压缩, 数值归约,离散化和概念分层等
噪声数据的处理——分箱
▪ 等深分箱法(统一权重 )
➢ 按记录行数分箱,每箱具有相同的记录数,每 箱记录数称为箱的权重,也称箱子的深度。
▪ 设定权重(箱子深度)为4,上述例子分箱 后的结果如下。
箱1:800 1000 1200 1500 箱2:1500 1800 2000 2300 箱3:2500 2800 3000 3500 箱4:4000 4500 4800 5000
扫地机 http://www.chinachijie.c om/ wenku1
数据清洗和数据预处理
教学目标
▪ 认识数据挖掘前数据进行适当处理的必要 性
▪ 掌握常用数据预处理的方法。
教学要求
知识要点
能力要求
相关知识点
数据预处理 的原因
(1) 了解原始数据存在的主要 问题
(2) 明白数据预处理的作用和 工作任务
数据清洗——处理空缺值
▪ 数据并不总是完整的
➢ 在分析一个商场销售数据时,发现有多个记录中的属性 值为空,如:顾客的收入属性对于为空的属性值
▪ 引起空缺值的原因
➢ 设备异常 ➢ 与其他已有数据不一致而被删除 ➢ 因为误解而没有被输入的数据 ➢ 在输入时,有些数据应为得不到重视而没有被输入 ➢ 对数据的改变没有进行日志记载
噪声数据的处理——分箱
▪ 等宽分箱法(统一区间)
➢ 在整个属性值的区间上平均分布,即每个箱的 区间范围是一个常量,称为箱子宽度。
▪ 设定区间范围(箱子宽度)为1000元人民 币,分箱后
箱1:800 1000 1200 1500 1500 1800 箱2:2000 2300 2500 2800 3000 箱3:3500 4000 4500 箱4:4800 5000
噪声数据的处理——分箱
▪ 最小熵
➢ 使在各区间分组内的记录具有最小的熵。
▪ 信息是信号、符号或消息所表示的内容, 用以消除对客观事物认识的不确定性
▪ 信息量的直观定义:信息量的大小取决于 信息内容消除人们认识的“不确定程度”, 所消除的不确定程度越大,则所包含的信 息量就越大。
熵——信息的度量(利用概率来度量)
分箱方法,即如何分箱 数据平滑方法,即如何对每个箱子中的数据进行平
滑处理
噪声数据的处理——分箱
▪ 分箱的方法:分箱前对记录集按目标属性值的大 小进行排序。
➢ 等深分箱法 ➢ 等宽分箱法 ➢ 用户自定义区间 ➢ 最小熵
▪ 例:客户收入属性income排序后的值(人民币 元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000
A到1000人的学校去找B。传达室人告诉他,“B是信息管理系”,而管 理系有100人。他获得的信息是100/1000=0.1,也就是将可能性空间缩 小到原来的1/10. 用概率来表示:-log(1/10)=log10 又有人告诉他:B在信息管理与信息系统教研室(10人),则第2个信息 的确定性又缩小到原来的100/1000*10/100=10/1000,其信息量为
数据清洗
▪ 数据选取参考原则:
➢ 1.尽可能赋予属性名和属性值明确的含义 ➢ 2.统一多数据源的属性值编码 ➢ 3.去除惟一属性 ➢ 4.去除重复属性 ➢ 5.去除可忽略字段 ➢ 6.合理选择关联字段
▪ 进一步处理:
➢ 通过填补遗漏数据、消除异常数据、平滑噪声数据, 以及纠正不一致的数据,去掉数据中的噪音、填充空值、 丢失值和处理不一致数据
▪ 信息量: H(x)=-∑ P(Xi)log2P(Xi) i=1,2,3,…,n 其中Xi表示第i个状态(共n个状态); P(Xi)代表出现第i个状态时的概率; H(x)为消除不确定性所需的信息量,单位为比特(bit)。
数据清洗——处理空缺值
▪ 空缺值要经过推断而补上
➢ 1.忽略该记录 ➢ 2.去掉属性 ➢ 3.手工填写空缺值 ➢ 4.使用默认值 ➢ 5.使用属性平均值 ➢ 6.使用同类样本平均值 ➢ 7.预测最可能的值
数据清洗——噪声数据的处理
▪ 噪声:在测量一个变量时可能出现的测量值相对 于真实值的偏差或者错误。
为什么要预处理数据?
▪ 现实世界的数据是“肮脏的”
➢ 不完整的 ➢ 含噪声的 ➢ 不一致的
▪ 没有高质量的数据,就没有高质量的挖掘结 果
➢ 高质量的决策必须依赖高质量的数据 ➢ 数据仓库需要对高质量的数据进行一致地集成
原始数据中存源自文库的问题
1.不一致——数据内涵出现不一致情况 2.重复 3.不完整——感兴趣的属性没有值 4.含噪声——数据中存在着错误、或异常(偏