第2章 数据可视化基础-数据可视化原理及应用-樊银亭-清华大学出版社

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 例如找出这组数据:23、29、20、32、23、21、33、25 的中位数。
• 中位数可以用来评估数值数据的中心趋势。
2.2 数据的基本统计描述
• 3.众数(Mode)
众数是另一种中心趋势度量。众数是集合(一组数据)中出现最频繁的值 。因此求一组数据的众数不需要排序,而只要计算出现次数较多的那个数 值。众数可能不唯一,具有一个、两个、三个众数的数据集合分别称为单 峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般地,具 有两个或更多众数的数据集是多峰的(multimodal)。例如: • 1、1、2、3、3、4、4、4、7、8、8、9的众数为4; • 1、2、3、3、3、4、4、5、5、5、7、8的众数为3和5。
2.1 数据对象与属性类型
2.1.3 属性类型 属性可分为标称、二元、序数和数值类型。 1.标称属性
• 标称属性(类别型属性)的值是一些符号或事物的名称。举个标称属 性的例子。假设hair_color(头发颜色)是描述人的属性,可能的值为 黑色、棕色、淡黄色、红色、赤褐色、灰色和白色。
2.二元属性
2.2 数据的基本统计描述
基本统计描述可以用来识别数据的性质,凸显哪些数据值 应该视为噪声或离群点。 • 2.2.1 中心趋势度量 中心趋势度量包括均值、中位数、众数。
2.2 数据的基本统计描述
• 2.中位数 中位数(又称中值Median)。对于倾斜(非对称)数据, 数据中心的更好度量是中位数。中位数是有序数据值的中 间值。它是把数据较高的一半与较低的一半分开的值。
2.2.2 数据分布度量
• 1.极差、四分位数和四分位数极差
• 4-分位数(四分位数)是3个数据点,它们把数据分布划分成4个相 等的部分,使得每部分表示数据分布的四分之一。其中每部分包含 25%的数据。如图2-2所示,中间的四分位数Q2就是中位数,通常在 25%位置上的Q1(称为下四分位数)和处在75%位置上的Q3(称为 上四分位数)。
社会关系网络等。这些数据集合由数据对象组成。一个 数据对象代表一个实体。例如,在销售数据库中,数据 对象可以是顾客、商品或销售。 • 通常,数据对象用属性描述。数据对象又称样本、实例 、数据点或对象。 • 如果数据对象存放在数据库中,则它们是记录(元组) 。也就是说,数据库的行对应于数据对象,而列对应于 属性。
• 二元属性是一种标称属性特例,只有两个类别或状态:0或1,其中0通 常表示该属性不出现,而1表示出现。如果两种状态对应于true和false 的话,二元属性又称布尔属性。
• 举个二元属性的例子。倘若属性smoker表示患者对象,1表示患者抽烟 ,0表示患者不抽烟。
2.1 数据对象与属性类型
3.序数属性
2.2.2 数据分布度量
• 1.极差、四分位数和四分位数极差
• 分位数是取自数据分布中每隔一定间隔上的点,把数据划分成基本 上大小相等的连贯集合。给定数据分布的第k个q-分位数是值x,使 得小于x的数据值所占百分比最多为k/q,而大于x的数据值所占百分 比最多为(q-k)/q,其中k是整数,使得0<k<q。我们有q-1个q-分位 数。
• 其中,每行对应于一个对象。
2.3 数据的相似性和相异性度量
• 2.3.1 数据矩阵与相异性矩阵
2.3 数据的相似性和相异性度量
• 2.3.2 标称属性的度量
2.2.2 数据分布度量
• 1.极差、四分位数和四分位数极差
• 极差又称范围误差或全距(Range),以R表示。设x1,x2,…,xn为某 数值属性X上的观测的集合。该集合的极差是最大值与最小值之差 。
• R=Xmax-Xmin(其中,Xmax为最大值,Xmin为最小值) • 例如 :12、12、13、14、16、21 • 这组数的极差就是 :21-12=9。
• 4-分位数中的四分位差(interquartile range,IQR)定义为: • IQR=Q3-Q1
例如由 7 人组成的旅游小团队年龄分别为:17、19、22、24、25、28、34,求其年龄 的四分位差。
2.2.2 数据分布度量
• 2.五数概括、盒图与离群点
• 因为下四分位数Q1、中位数和上四分位数Q3不包含数据的端点信息 ,可以通过同时提供最高和最低数据值得到数据分布形状更完整的 概括。这称作五数概括。数据分布的五数概括由中位数(Q2),四 分位数Q1和Q3、最小和最大观测值组成。
2.1 数据对象与属性类型
2.1.2 属性 • 属性是一个数据字段,表示数据对象的一个特征。在文献
中,属性、维、特征和变量可以互换地使用。术语“维” 一般用在数据仓库中。机器学习文献更倾向于使用术语“ 特征”,而统计学家则更愿意使用术语“变量”。数据挖 掘和数据库的专业人士一般使用术语“属性”。 • 一个属性的类型由该属性可能具有的值的集合决定。属性 可以是标称的(类别型)、二元的、序数的或数值的。
序数属性是一种有序型属性,其可能的值之间具有有意义的序或等级。 举个序数属性的例子。例如高校教师职称等级,对于教师有助教、讲师、 副教授和教授。 4.数值属性 数值属性是定量的,即它是可度量的量,用整数或实数值表示。例如长度 、重量、体积、温度等常见物理属性。数值属性又可以分为区间型数值属 性和比值(比率)型数值属性。
数据可视化原理及应用
樊银亭 夏敏捷 主编 清华大学出版社
第2章 数据可视化基础
2.1 数据对象与属性类型 2.2 数据的基本统计描述 2.3 数据的相似性和相异性度量 2.4 视觉感知 2.5 视觉通道 2.6 可视化的组件
2.1 数据对象与属性类型
• 2.1.1 数据对象 • 现实生活中常见的数据集合包括各种表格、文本语料和

2.2.2 数据分布度量
• 3.方差和标准差
• 方差和标准差都是数据散布度量,它们指出数据分布的散布程度。 低标准差意味着数据观测趋向于非常靠近均值,而高标准差表示数 据散布在一个大的值域中。
• 观测值的标准差是方差 的平方根。

2.3 数据的相似性和相异性度量
• 2.3.1 数据矩阵与相异性矩阵
相关文档
最新文档