韩家炜-数据挖掘:概念与技术-第2章ppt教学提纲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
举例如:发色和婚姻状态。发色可以是 黑色,棕色,红色,灰色,白色。婚姻状态 可以是单身、已婚、离异或者丧偶。这些都 是名词属性。
尽管名词属性是标号或者名称,但也可 以是数值的表示形式。比如,发色,可以用0 表示黑色,1表示棕色等。顾客ID可以是数字。
但是,在这种情况,数字并不被当成数值来 使用。
因为名词属性不包含任何顺序信息也非 数值型,所以不用终止或者平均数去衡量这 类属性。可以使用属性最多出现的值,“众 数”来做中心性测量。
举例:温度属性是间隔尺度。20摄氏度高于15 摄氏度。日历也是间隔尺度,以及年份。
Celsius和Fahrenhet是两个温度,没有绝对0点, 并且我们能计算温度的差值,但是不能说一个值是另 一个值的多少倍,例如10摄氏度比5摄氏度温暖2倍。
间隔尺度是数值型的,可以计算平均值,中值 和众数。
比例尺度
• 2.2 Basic Statistical Desciptions of Data • 2.3 Data Visualization • 2.4 Measuring Data Similarity and Dissimilarity • 2.5 Summary
2.1 数据对象和属性类型
数据集是由数据对象构成的。一个数据对 象表示一个实体——在销售数据库中,对象可以 是顾客、商品或者销售记录。在医学数据库中, 数据对象可以是病人。在大学数据库中,数据对 象可以是学生、教授和课程。
对给定的属性的可观察值被称为观察。刻画一 个给定对象的属性集合被称为属性向量(或特征向 量)。
包含单个属性的数据分布被称为单变量 的分布;包含2个属性的被称为二变量的分布。
属性的类型是有属性可取的值决定的, 有名词、二进制型、顺序值或者数值类型。
2.1.2 名词属性
名词属性的值是事物的标号或者名称。 每一个值表示类别、编码或者状态。因此名 词属性被称为是分类。值没有次序信息。在 计算机领域,也可以称为枚举型。
2.1.2 二进制属性
二进制属性是只有两个类别或状态:0和1.0一般 表示属性缺失,1表示存在。二进制属性也即bool型, 两个状态表示真和假。
举例。如,病人对象的吸烟属性,1表示吸烟, 0表示不吸烟。再比如,病人的某个医学检查结果有 两种情况。1表示结果为阳性,0表示为阴性。
如果二进制属性的两个状态是同等有价值的具 有相同的权重,则为对称的。2个属性被标为1或者0 都可以,比如性别属性的两个值男和女。
比例尺度属性是数值型的,有固定 的0值。
如果一个测量是比例尺度,则可以以比 率来衡量两个值,也可以计算值的差值,以 及中值,均数和众数。
例如:Kelvin温度有一个真正的0点。另 外,计数属性,经验年数,单词个数,体重, 身高,速度,货币都是比例尺度。
2.1.6 离散和连续属性
• 离散属性有有限的或者可数的值集合,可能不 能表示为整数。例如发色,是否吸烟,医学检 查结果,饮料尺寸,都有有限的值,因此是离ห้องสมุดไป่ตู้散的。
数据对象用属性来描述。
数据对象可以是一个抽样、举例、实例、 数据点或者对象。如果数据对象存放在数据库中, 它们是数据元组。即数据库中行对应数据对象, 列对应于属性。
2.1.1 什么是属性?
一个属性是一个域,表示一个数据对象的一个 特征。
“属性”、“维度”、“特征”和“变量”这 些词在语义上是可交换的。“维度”通常被用在数据 仓库中,机器学习中倾向于使用“特征”;统计学倾 向使用“变量”,数据挖掘和数据库经常使用“属 性”。 属性描述一个顾客对象,如:顾客ID,姓名, 地址。
第二章 了解你的数据
2014.10
目录
• 2.1 数据对象和属性类型 • 2.2 数据的基本统计描述 • 2.3 数据可视化 • 2.4 衡量数据相似性和相异性 • 2.5 总结
• 2.1 Data Objects and Attribute Types
– 2.1.1 What is an Attribute? – 2.1.2 Nominal Attributes – 2.1.3 Binary Attributes – 2.1.4 Ordinal Attributes – 2.1.5 Numeric Attributes – 2.1.6 Discrete versus Continuous Attributes
• 离散值可能是数值型的,比如二进制的0和1, 年龄的0到110.
• 一个属性是可数无限的如果可能的值集合是无 限的但是值和自然数有一一对应的关系。比如, 顾客ID是可数无限的。邮政编码也是。
• 如果值不是离散的,则是连续的。数值属 性或者连续属性是含义上是一样的。
2.2 数据的基本统计描述
• 为了更好的做数据预处理,对数据有整体 的了解很关键。基本的统计描述能鉴别数 据,分辨出噪声和离群点。
名词属性、二进制属性和次序属性都是 定性的。它们在描述一个对象的特征时不给 出具体的尺寸和数量。值通常是一个词表示 类别,即使以整数的方式表现,也不是表示 数量。
2.1.5 数值型属性
• 数值型属性是定量的,是可测量的数值, 为整数或实数。分为间隔尺度和比例尺度。
间隔尺度属性
间隔尺度使用同等大小的单元来衡量。间隔尺 度属性有大小,可以是正,0或者负值。除了能对属 性值排序,还可以比较和衡量不同值的差值大小。
如果两个状态不是同等重要的,则为非对称的。 比如HIV检查的结果呈阴性和阳性。通常,用1表示更 重要的通常是更稀少的结果,其他的用0表示。
2.1.4 次序属性
次序属性具有次序或者级别的意义。但是 相邻值的级别未知。 举例:例如饮料尺寸,可以是“小杯”,“中 杯”,“大杯”。值有顺序的意义,但是不能分 辨中杯比大杯大多少。再比如,成绩等级A+, A,A-,B+职称:助理,副教授,教授
次序属性被用来衡量无法客观衡量的属性, 用主观的评估定质量。在调查中常用来排序。比 如,参与者作为顾客,他们的满意度可以是:0: 非常不满意,1 有点不满意,2 中立 3 满意 4 很 满意
把数值数据离散化,把它们按照值的范 围分类,也可以得到次序属性的数据。
次序属性的中心性可以用众数和中值来 衡量,但是不能计算平均数。
尽管名词属性是标号或者名称,但也可 以是数值的表示形式。比如,发色,可以用0 表示黑色,1表示棕色等。顾客ID可以是数字。
但是,在这种情况,数字并不被当成数值来 使用。
因为名词属性不包含任何顺序信息也非 数值型,所以不用终止或者平均数去衡量这 类属性。可以使用属性最多出现的值,“众 数”来做中心性测量。
举例:温度属性是间隔尺度。20摄氏度高于15 摄氏度。日历也是间隔尺度,以及年份。
Celsius和Fahrenhet是两个温度,没有绝对0点, 并且我们能计算温度的差值,但是不能说一个值是另 一个值的多少倍,例如10摄氏度比5摄氏度温暖2倍。
间隔尺度是数值型的,可以计算平均值,中值 和众数。
比例尺度
• 2.2 Basic Statistical Desciptions of Data • 2.3 Data Visualization • 2.4 Measuring Data Similarity and Dissimilarity • 2.5 Summary
2.1 数据对象和属性类型
数据集是由数据对象构成的。一个数据对 象表示一个实体——在销售数据库中,对象可以 是顾客、商品或者销售记录。在医学数据库中, 数据对象可以是病人。在大学数据库中,数据对 象可以是学生、教授和课程。
对给定的属性的可观察值被称为观察。刻画一 个给定对象的属性集合被称为属性向量(或特征向 量)。
包含单个属性的数据分布被称为单变量 的分布;包含2个属性的被称为二变量的分布。
属性的类型是有属性可取的值决定的, 有名词、二进制型、顺序值或者数值类型。
2.1.2 名词属性
名词属性的值是事物的标号或者名称。 每一个值表示类别、编码或者状态。因此名 词属性被称为是分类。值没有次序信息。在 计算机领域,也可以称为枚举型。
2.1.2 二进制属性
二进制属性是只有两个类别或状态:0和1.0一般 表示属性缺失,1表示存在。二进制属性也即bool型, 两个状态表示真和假。
举例。如,病人对象的吸烟属性,1表示吸烟, 0表示不吸烟。再比如,病人的某个医学检查结果有 两种情况。1表示结果为阳性,0表示为阴性。
如果二进制属性的两个状态是同等有价值的具 有相同的权重,则为对称的。2个属性被标为1或者0 都可以,比如性别属性的两个值男和女。
比例尺度属性是数值型的,有固定 的0值。
如果一个测量是比例尺度,则可以以比 率来衡量两个值,也可以计算值的差值,以 及中值,均数和众数。
例如:Kelvin温度有一个真正的0点。另 外,计数属性,经验年数,单词个数,体重, 身高,速度,货币都是比例尺度。
2.1.6 离散和连续属性
• 离散属性有有限的或者可数的值集合,可能不 能表示为整数。例如发色,是否吸烟,医学检 查结果,饮料尺寸,都有有限的值,因此是离ห้องสมุดไป่ตู้散的。
数据对象用属性来描述。
数据对象可以是一个抽样、举例、实例、 数据点或者对象。如果数据对象存放在数据库中, 它们是数据元组。即数据库中行对应数据对象, 列对应于属性。
2.1.1 什么是属性?
一个属性是一个域,表示一个数据对象的一个 特征。
“属性”、“维度”、“特征”和“变量”这 些词在语义上是可交换的。“维度”通常被用在数据 仓库中,机器学习中倾向于使用“特征”;统计学倾 向使用“变量”,数据挖掘和数据库经常使用“属 性”。 属性描述一个顾客对象,如:顾客ID,姓名, 地址。
第二章 了解你的数据
2014.10
目录
• 2.1 数据对象和属性类型 • 2.2 数据的基本统计描述 • 2.3 数据可视化 • 2.4 衡量数据相似性和相异性 • 2.5 总结
• 2.1 Data Objects and Attribute Types
– 2.1.1 What is an Attribute? – 2.1.2 Nominal Attributes – 2.1.3 Binary Attributes – 2.1.4 Ordinal Attributes – 2.1.5 Numeric Attributes – 2.1.6 Discrete versus Continuous Attributes
• 离散值可能是数值型的,比如二进制的0和1, 年龄的0到110.
• 一个属性是可数无限的如果可能的值集合是无 限的但是值和自然数有一一对应的关系。比如, 顾客ID是可数无限的。邮政编码也是。
• 如果值不是离散的,则是连续的。数值属 性或者连续属性是含义上是一样的。
2.2 数据的基本统计描述
• 为了更好的做数据预处理,对数据有整体 的了解很关键。基本的统计描述能鉴别数 据,分辨出噪声和离群点。
名词属性、二进制属性和次序属性都是 定性的。它们在描述一个对象的特征时不给 出具体的尺寸和数量。值通常是一个词表示 类别,即使以整数的方式表现,也不是表示 数量。
2.1.5 数值型属性
• 数值型属性是定量的,是可测量的数值, 为整数或实数。分为间隔尺度和比例尺度。
间隔尺度属性
间隔尺度使用同等大小的单元来衡量。间隔尺 度属性有大小,可以是正,0或者负值。除了能对属 性值排序,还可以比较和衡量不同值的差值大小。
如果两个状态不是同等重要的,则为非对称的。 比如HIV检查的结果呈阴性和阳性。通常,用1表示更 重要的通常是更稀少的结果,其他的用0表示。
2.1.4 次序属性
次序属性具有次序或者级别的意义。但是 相邻值的级别未知。 举例:例如饮料尺寸,可以是“小杯”,“中 杯”,“大杯”。值有顺序的意义,但是不能分 辨中杯比大杯大多少。再比如,成绩等级A+, A,A-,B+职称:助理,副教授,教授
次序属性被用来衡量无法客观衡量的属性, 用主观的评估定质量。在调查中常用来排序。比 如,参与者作为顾客,他们的满意度可以是:0: 非常不满意,1 有点不满意,2 中立 3 满意 4 很 满意
把数值数据离散化,把它们按照值的范 围分类,也可以得到次序属性的数据。
次序属性的中心性可以用众数和中值来 衡量,但是不能计算平均数。