数据挖掘 第二章 认识数据总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章认识数据
数据的统计描述
概念:数据对象,属性类型,属性(维,特征,变量,标称<分类,枚举,二元/序数>/数值<区间标度/比率标度>,定性/定量,连续/离散)。
数据对称性和中心趋势度量:
(1)均值(Mean):x算术均值,xi是观测值/样本,数值型;受极端值,倾斜数据影响
(2)加权均值:x加权算术均值,权值wi描述对应观测值的意义,重要性或出现频率等;优劣
同上。
截尾均值:丢弃高低极端值后的均值
(3)中位数(Median):应用于数值数据,把所有数值数据排序,位于有序队伍正中的数据;计
算时间复杂度高于算术均值,不受极端值影响;
(4)众数(Mode):多个众数,单峰/多峰,每个数据出现一次,则没有众数;不受极端值影响,
计算简单,多用于非数值型数据,可靠性差;
(5)中列数(Midrange):最大和最小值的均值;易受极端值影响,计算简单,应用于数值型数
据
数据对称性:算术均值和众数之差用来度量偏态(正负),偏态skewness = Mean − Mode
数据散布度量:
(1)第k个q分位数:把排好序的样本,均分为q等分,子集的边界可能就是分位数;在有序
样本中的下标计算:⌈Nkq⌉,取上整,k = 1, 2,..., q-1。
单个值描述分布;中位数,四分位数,百分位数常使用,Q3-Q1四分位数极差(IRQ,用于判定盒图的离群点);
(2)五数概括:最小值,Q1,Q2,Q3,最大值;用均匀分布的5个点来描述分布,不是单个
值;用于描述倾斜数据的分布;
(3)盒图:盒的上下边界是Q3,Q1,中位数是盒内线,盒外胡须可延伸到;可以看成是直观
地表示了五数概括;计算时间O(nlogn);
(4)方差:
(5)标准差:当均值作为中心趋势度量时,适用。
大部分观测样本,其偏离中心不会超过很多
倍标准差;
统计描述的图形显示:
(1)分位数图:用来观察单变量数据分布,数据值低于或等于在一个单变量分布中独立的变量
的粗略百分比。
这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来;
(2)分位数-分位数图:纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位
数。
两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。
一条线(y=x)可画到图中,以增加图像的信息。
落在该线以上的点表示在 y 轴上显示的值的分布比 x 轴的相应的等同分位数对应的值的分布高。
反之,对落在该线以下的点则低。
直方图:
直方图(数值型属性),频率直方图,条形图(标称型属性),概率密度函数;
横坐标是变量的取值(或者类别);纵坐标是变量出现的次数;
桶(bucket)/箱(bin),bin 的宽度。
可以用来比较多组数据分布的差异具有相同的盒图/boxplot,但是数据的分布完全不一样;直方图具备更强的描述能力;
散点图(一般超过四维就不太有效了):
绘法:两个数值型变量的任何一组取值,看成一个二维坐标;
用于:描述两个数值变量/数值型属性之间是否存在关系/模式/趋势;
解释:两个变量(线性)相关,可能是正相关,也可能是负相关;
相关性的理解:知道一个变量的值,能大致(用直线)估计出另一个变量的值。
基于像素的可视化技术:
几何投影可视化技术:散点图矩阵:
平行坐标:
(1)横坐标的每个取值代表一维,n维数据有n个纵坐标,一个纵坐标上标记出对应维的各种
取值
(2)从左到右的一条折线对应于表中的一个数据(元组/行),可用不同颜色折线区分
(3)能看出每个维的数据分布情况
(4)主要局限性:平行坐标在数据较多时,折线太密,影响可读性
基于图符的可视化技术:
使用少量图符表示多维数据值,两个例子切尔诺夫脸和人物线条画
层次可视化技术:
世界中的世界:分为多层世界,每个世界的维数不超过3 维;最内层的世界是个3D 散点图;最内层世界在它的直接(相邻)外部世界(另外三维属性构成的3D 散点图)中就是一个点;依次类推。
树图:把层次数据显示成嵌套矩形的集合。
复杂数据的可视化:
(1)文本数据,标签云(tag cloud),标签字体的大小,色彩代表不同的含义,如次数/重要性等
(2)网络,社会网络,信息网络,技术网络等等,顶点的色彩/大小,边的色彩/粗细,顶点和
边的权值等等,可以用来表示不同的关系,数据对象的重要性
度量数据的相似性与相异性(书本P44-P52)
第三章数据预处理
脏数据:缺失值(不完备的数据)、噪声数据(离群点)、不一致数据、故意、伪造数据(使用缺省值,即默认值)
缺失值定义:某些元组在部分属性上没有被记录下来的值
可能原因:数据产生设备故障;数据录入时因为觉得不重要或者理解错误,暂时放弃录入;因为和其它数据不一致而被删除。
噪声数据定义:被测变量的随机误差或方差
产生原因:产生数据的仪器设备精度不够;数据录入错误;数据传输误差;......(重复/不一致数据)。