数据挖掘第二章认识数据总结

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二章认识数据
数据的统计描述
概念：数据对象，属性类型，属性(维，特征，变量，标称<分类，枚举，二元/序数>/数值<区间标度/比率标度>，定性/定量，连续/离散)。

数据对称性和中心趋势度量：
(1)均值(Mean)：x算术均值，xi是观测值/样本，数值型；受极端值，倾斜数据影响
(2)加权均值：x加权算术均值，权值wi描述对应观测值的意义，重要性或出现频率等；优劣
同上。

截尾均值：丢弃高低极端值后的均值
(3)中位数(Median)：应用于数值数据，把所有数值数据排序，位于有序队伍正中的数据；计
算时间复杂度高于算术均值，不受极端值影响；
(4)众数(Mode)：多个众数，单峰/多峰，每个数据出现一次，则没有众数；不受极端值影响，
计算简单，多用于非数值型数据，可靠性差；
(5)中列数(Midrange)：最大和最小值的均值；易受极端值影响，计算简单，应用于数值型数
据
数据对称性：算术均值和众数之差用来度量偏态（正负），偏态skewness = Mean − Mode
数据散布度量：
(1)第k个q分位数：把排好序的样本，均分为q等分，子集的边界可能就是分位数；在有序
样本中的下标计算：⌈Nkq⌉，取上整,k = 1, 2,..., q-1。

单个值描述分布；中位数，四分位数，百分位数常使用，Q3-Q1四分位数极差(IRQ，用于判定盒图的离群点)；
(2)五数概括：最小值，Q1，Q2，Q3，最大值；用均匀分布的5个点来描述分布，不是单个
值；用于描述倾斜数据的分布；
(3)盒图：盒的上下边界是Q3，Q1，中位数是盒内线，盒外胡须可延伸到；可以看成是直观
地表示了五数概括；计算时间O(nlogn)；
(4)方差：
(5)标准差：当均值作为中心趋势度量时，适用。

大部分观测样本，其偏离中心不会超过很多
倍标准差；
统计描述的图形显示：
(1)分位数图：用来观察单变量数据分布，数据值低于或等于在一个单变量分布中独立的变量
的粗略百分比。

这样，他可以展示所有数的分位数信息，而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来；
(2)分位数-分位数图：纵轴表示一种单变量分布的分位数，用横轴表示另一单变量分布的分位
数。

两个坐标轴显示它们的测量值相应分布的值域，且点按照两种分布分位数值展示。

一条线（y=x）可画到图中，以增加图像的信息。

落在该线以上的点表示在 y 轴上显示的值的分布比 x 轴的相应的等同分位数对应的值的分布高。

反之，对落在该线以下的点则低。

直方图：
直方图（数值型属性），频率直方图，条形图（标称型属性），概率密度函数；
横坐标是变量的取值（或者类别）；纵坐标是变量出现的次数；
桶(bucket)/箱(bin)，bin 的宽度。

可以用来比较多组数据分布的差异具有相同的盒图/boxplot，但是数据的分布完全不一样；直方图具备更强的描述能力；
散点图（一般超过四维就不太有效了）：
绘法：两个数值型变量的任何一组取值，看成一个二维坐标；
用于：描述两个数值变量/数值型属性之间是否存在关系/模式/趋势；
解释：两个变量（线性）相关，可能是正相关，也可能是负相关；
相关性的理解：知道一个变量的值，能大致（用直线）估计出另一个变量的值。

基于像素的可视化技术：
几何投影可视化技术：散点图矩阵：
平行坐标：
(1)横坐标的每个取值代表一维，n维数据有n个纵坐标，一个纵坐标上标记出对应维的各种
取值
(2)从左到右的一条折线对应于表中的一个数据（元组/行），可用不同颜色折线区分
(3)能看出每个维的数据分布情况
(4)主要局限性：平行坐标在数据较多时，折线太密，影响可读性
基于图符的可视化技术：
使用少量图符表示多维数据值，两个例子切尔诺夫脸和人物线条画
层次可视化技术：
世界中的世界：分为多层世界，每个世界的维数不超过3 维；最内层的世界是个3D 散点图；最内层世界在它的直接（相邻）外部世界(另外三维属性构成的3D 散点图）中就是一个点；依次类推。

树图：把层次数据显示成嵌套矩形的集合。

复杂数据的可视化：
(1)文本数据，标签云（tag cloud)，标签字体的大小，色彩代表不同的含义，如次数/重要性等
(2)网络，社会网络，信息网络，技术网络等等，顶点的色彩/大小，边的色彩/粗细，顶点和
边的权值等等，可以用来表示不同的关系，数据对象的重要性
度量数据的相似性与相异性（书本P44-P52）
第三章数据预处理
脏数据：缺失值（不完备的数据）、噪声数据（离群点）、不一致数据、故意、伪造数据（使用缺省值，即默认值）
缺失值定义：某些元组在部分属性上没有被记录下来的值
可能原因:数据产生设备故障；数据录入时因为觉得不重要或者理解错误，暂时放弃录入；因为和其它数据不一致而被删除。

噪声数据定义：被测变量的随机误差或方差
产生原因：产生数据的仪器设备精度不够；数据录入错误；数据传输误差；......(重复/不一致数据)。

数据挖掘 第二章 认识数据总结

数据挖掘第二章认识数据总结