数据预处理ppt资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
整体度量 必须对整个数据集计算的度量。 中位数、众数
代数度量
mean():
x
1 n
n i 1
xi
n
w ixi
加权平均:
x
i1 n
wi
i1
截断均值:去掉高、低极端值得到的均 值。减小极端值对均值的影响。
中列数(midrange ):(max+min)/2
整体度量
中位数(median):适用于倾斜的数据。近
回归:
用一个函数(回归函数)拟合数据来光 滑数据。
聚类:将类似的值聚集为簇。 其他:如数据归约、离散化和概念分
层。
28
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
2
现实世界的数据
不完整的
缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。
含噪声的
包含错误或存在偏离期望的离群值。
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
29
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
分布式度量 可以通过如下方法计算度量(即函数):将 数据集划分成较小的子集,计算每个子集的 度量,然后合并计算结果,得到原(整个) 数据集的度量值。 sum()、count()、min()、max()
2.2.1 度量数据的中心趋势…
代数度量 可以通过应用一个代数函数于一个或多个分 布度量计算的度量。 mean()、中列数
对于适度倾斜的单峰频率曲线,有如下
m 的经验e 关m a 系:n o 3 d (m e em an e)dia
中位数、均值和众数
15
2.2.2 度量数据的离散程度
极差
最大值与最小值之差
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
主要内容
2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生
1
2.1 数据预处理的原因
数据质量的含义
正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability)
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 16
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
数据预处理的形式
小结
现实世界的数据一般是脏的、不完整的和不一 致的。
数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。
高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。
检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报。
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
21
直方图 Histogram
2.2 描述性数据汇总
获得数据的总体印象对于成功的数据预处理是 至关重要的。
描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。
动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、
描述数据汇总的图形显示。
2.2.1 度量数据的中心趋势
算数平均值 最常用
数据清理的任务: 填充缺失的值,光滑噪声并识别离群
点,纠正数据中的不一致。
2.3.1 缺失值
忽略元组 人工填写空缺值 使用一个全局常量填充空缺值 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本
的平均值 使用最可能的值填充空缺值
27
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
似值m 计算e如下d :iL1a(nn/2f m(e dfi)al)nc
设N个数值排序,若N为奇数,中位数是有序 集的中间值;若N为偶数,中位数是中间两个 值的平均值。
例如:1Байду номын сангаас3,5,7 中位数4
1,3,5,6,7 中位数5
整体度量
众数(mode):集合中出现频率最高的值。
单峰、多峰(双峰、三峰…)、无众数
右[Redmen],[Orr98]
4
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
数据预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
简化数据、但产生同样或相似的结果 6
概括给定属性分布的图形方法 每个矩形等宽
分位数图 Quantile Plot
观察单变量数据分布的简单有效方法
散布图scatter plot
直接观察是否存在簇(cluster),离群点等 每个点对应一个坐标对
局部回归(Loess)曲线 添加一条光滑曲线到散布图
2.3 数据清理
现实世界的数据一般是不完整的、有 噪声的和不一致的。
代数度量
mean():
x
1 n
n i 1
xi
n
w ixi
加权平均:
x
i1 n
wi
i1
截断均值:去掉高、低极端值得到的均 值。减小极端值对均值的影响。
中列数(midrange ):(max+min)/2
整体度量
中位数(median):适用于倾斜的数据。近
回归:
用一个函数(回归函数)拟合数据来光 滑数据。
聚类:将类似的值聚集为簇。 其他:如数据归约、离散化和概念分
层。
28
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
2
现实世界的数据
不完整的
缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。
含噪声的
包含错误或存在偏离期望的离群值。
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
29
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
分布式度量 可以通过如下方法计算度量(即函数):将 数据集划分成较小的子集,计算每个子集的 度量,然后合并计算结果,得到原(整个) 数据集的度量值。 sum()、count()、min()、max()
2.2.1 度量数据的中心趋势…
代数度量 可以通过应用一个代数函数于一个或多个分 布度量计算的度量。 mean()、中列数
对于适度倾斜的单峰频率曲线,有如下
m 的经验e 关m a 系:n o 3 d (m e em an e)dia
中位数、均值和众数
15
2.2.2 度量数据的离散程度
极差
最大值与最小值之差
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
主要内容
2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生
1
2.1 数据预处理的原因
数据质量的含义
正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability)
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 16
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
数据预处理的形式
小结
现实世界的数据一般是脏的、不完整的和不一 致的。
数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。
高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。
检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报。
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
21
直方图 Histogram
2.2 描述性数据汇总
获得数据的总体印象对于成功的数据预处理是 至关重要的。
描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。
动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、
描述数据汇总的图形显示。
2.2.1 度量数据的中心趋势
算数平均值 最常用
数据清理的任务: 填充缺失的值,光滑噪声并识别离群
点,纠正数据中的不一致。
2.3.1 缺失值
忽略元组 人工填写空缺值 使用一个全局常量填充空缺值 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本
的平均值 使用最可能的值填充空缺值
27
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
似值m 计算e如下d :iL1a(nn/2f m(e dfi)al)nc
设N个数值排序,若N为奇数,中位数是有序 集的中间值;若N为偶数,中位数是中间两个 值的平均值。
例如:1Байду номын сангаас3,5,7 中位数4
1,3,5,6,7 中位数5
整体度量
众数(mode):集合中出现频率最高的值。
单峰、多峰(双峰、三峰…)、无众数
右[Redmen],[Orr98]
4
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
数据预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
简化数据、但产生同样或相似的结果 6
概括给定属性分布的图形方法 每个矩形等宽
分位数图 Quantile Plot
观察单变量数据分布的简单有效方法
散布图scatter plot
直接观察是否存在簇(cluster),离群点等 每个点对应一个坐标对
局部回归(Loess)曲线 添加一条光滑曲线到散布图
2.3 数据清理
现实世界的数据一般是不完整的、有 噪声的和不一致的。