数据挖掘第二章——认识数据(1)2

合集下载

数据挖掘 第二章 认识数据总结

数据挖掘 第二章 认识数据总结

第二章认识数据数据的统计描述概念:数据对象,属性类型,属性(维,特征,变量,标称<分类,枚举,二元/序数>/数值<区间标度/比率标度>,定性/定量,连续/离散)。

数据对称性和中心趋势度量:(1)均值(Mean):x算术均值,xi是观测值/样本,数值型;受极端值,倾斜数据影响(2)加权均值:x加权算术均值,权值wi描述对应观测值的意义,重要性或出现频率等;优劣同上。

截尾均值:丢弃高低极端值后的均值(3)中位数(Median):应用于数值数据,把所有数值数据排序,位于有序队伍正中的数据;计算时间复杂度高于算术均值,不受极端值影响;(4)众数(Mode):多个众数,单峰/多峰,每个数据出现一次,则没有众数;不受极端值影响,计算简单,多用于非数值型数据,可靠性差;(5)中列数(Midrange):最大和最小值的均值;易受极端值影响,计算简单,应用于数值型数据数据对称性:算术均值和众数之差用来度量偏态(正负),偏态skewness = Mean − Mode数据散布度量:(1)第k个q分位数:把排好序的样本,均分为q等分,子集的边界可能就是分位数;在有序样本中的下标计算:⌈Nkq⌉,取上整,k = 1, 2,..., q-1。

单个值描述分布;中位数,四分位数,百分位数常使用,Q3-Q1四分位数极差(IRQ,用于判定盒图的离群点);(2)五数概括:最小值,Q1,Q2,Q3,最大值;用均匀分布的5个点来描述分布,不是单个值;用于描述倾斜数据的分布;(3)盒图:盒的上下边界是Q3,Q1,中位数是盒内线,盒外胡须可延伸到;可以看成是直观地表示了五数概括;计算时间O(nlogn);(4)方差:(5)标准差:当均值作为中心趋势度量时,适用。

大部分观测样本,其偏离中心不会超过很多倍标准差;统计描述的图形显示:(1)分位数图:用来观察单变量数据分布,数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。

数据挖掘第一与第二章PPT课件

数据挖掘第一与第二章PPT课件
散的目标变量;回归,用于预测连续的目标变 量。
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.

数据挖掘第三版第二章课后习题答案

数据挖掘第三版第二章课后习题答案

1.1什么是数据‎挖掘?(a)它是一种广告‎宣传吗?(d)它是一种从数‎据库、统计学、机器学和模式‎识别发展而来‎的技术的简单‎转换或应用吗‎?(c)我们提出一种‎观点,说数据挖掘是‎数据库进化的‎结果,你认为数据挖‎掘也是机器学‎习研究进化的‎结果吗?你能结合该学‎科的发展历史‎提出这一观点‎吗?针对统计学和‎模式知识领域‎做相同的事(d)当把数据挖掘‎看做知识点发‎现过程时,描述数据挖掘‎所涉及的步骤‎答:数据挖掘比较‎简单的定义是‎:数据挖掘是从‎大量的、不完全的、有噪声的、模糊的、随机的实际数‎据中,提取隐含在其‎中的、人们所不知道‎的、但又是潜在有‎用信息和知识‎的过程。

数据挖掘不是‎一种广告宣传‎,而是由于大量‎数据的可用性‎以及把这些数‎据变为有用的‎信息的迫切需‎要,使得数据挖掘‎变得更加有必‎要。

因此,数据挖掘可以‎被看作是信息‎技术的自然演‎变的结果。

数据挖掘不是‎一种从数据库‎、统计学和机器‎学习发展的技‎术的简单转换‎,而是来自多学‎科,例如数据库技‎术、统计学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处‎理以及空间数‎据分析技术的‎集成。

数据库技术开‎始于数据收集‎和数据库创建‎机制的发展,导致了用于数‎据管理的有效‎机制,包括数据存储‎和检索,查询和事务处‎理的发展。

提供查询和事‎务处理的大量‎的数据库系统‎最终自然地导‎致了对数据分‎析和理解的需‎要。

因此,出于这种必要‎性,数据挖掘开始‎了其发展。

当把数据挖掘‎看作知识发现‎过程时,涉及步骤如下‎:数据清理,一个删除或消‎除噪声和不一‎致的数据的过‎程;数据集成,多种数据源可‎以组合在一起‎;数据选择,从数据库中提‎取与分析任务‎相关的数据;数据变换,数据变换或同‎意成适合挖掘‎的形式,如通过汇总或‎聚集操作;数据挖掘,基本步骤,使用智能方法‎提取数据模式‎;模式评估,根据某种兴趣‎度度量,识别表示知识‎的真正有趣的‎模式;知识表示,使用可视化和‎知识表示技术‎,向用户提供挖‎掘的知识1.3定义下列数‎据挖掘功能:特征化、区分、关联和相关性‎分析、分类、回归、聚类、离群点分析。

数据挖掘 第二章 认识数据

数据挖掘 第二章 认识数据

Schneiderman@UMD: Tree-Map to support large data sets of a million items
35
可视化复杂对象和关系

非数值数据的可视化: 文本与社交网络 标签云:用户产生标签的统计量可视化 除了文本数据,还有用 于可视化社交网络关系 的技术

(a) Income
(b) Credit Limit
(c) transaction volume
(d) age
23
圆弓分割技术

圆弓分割是一种节约空间且简明扼要展示多维间关系的方法
(a) 在圆弓内表示一个数据记录
(b) 在圆弓内安排像素
24
几何投影可视化

基于像素:对理解多维空间数据分布帮助不大
(trimodal)

经验公式: mean mode 3 (mean median )

中列数(midrange)

最大数和最小数的平均值
12
对称数据和非对称数据

对称、正倾斜、负倾斜数据的中位 数、均值和众数
November 27, 2014
Data Mining: Concepts and Techniques
13
数据统计常识

Quartiles, outliers and boxplots

四分位数 Quartiles: Q1 (25th percentile), Q3 (75th percentile) 四位分数极差 Inter-quartile range: IQR = Q3 – Q1 五数概括 Five number summary: min, Q1, median, Q3, max 盒图 Boxplot: 分布直观表示,体现五数概括 离群点 Outlier: 第三个四分位数之上或者第一个四分位数之下至少1.5 x IQR的值

数据挖掘(1)--认识数据

数据挖掘(1)--认识数据

数据挖掘之认识数据1.认识数据数据是将一个事物抽象为对象后,通过数据做为对象的属性值来描述对象的一个或一组数据。

对象的属性名称众多,不同领域称呼不一。

可称为:字段、属性、特征、维、变量等,但意义相同。

对象通过使用一组属性来进行描述,对象的一组属性称为属性向量。

属性向量有单向量和双向量之分,单向量即一个属性的值的分布状态;双向量是两个属性的值分布态势。

属性根据值的类型可分为标称属性、二元属性、序数属性、数值属性、离散属性、连续属性等。

1)标称属性:属性的值是无序的且可以是符号或事物名称,如职业的名称(公务员、医生、教师等)、车辆的品牌等(大众、宝马、奔驰等);可以进行枚举,一般情况下不适合用来做计算,如求平均值、中位数等,适合用来找到众数做中心趋势度量;2)二元属性:是一种标称属性,其属性值为布尔型0或1。

二元属性可细分为对称属性和非对称属性。

对称属性其值无权重、无偏好之分,如男和女可以用0和1标识也可以用1和0标识;非对称属性是有偏好和重要性之分的,可以用0表示不重要或常出现的、用1来表示重要或不常出现的状态或事件;3)序数属性:未知的、有序的数值但一般不用来做计算的值。

如满意度代码,0->不满意、1->满意、2->非常满意等;4)数据属性:定量、可度量、可计算的属性值。

可分为区间标度和比率标度,区间标度如温度,在一个区间内,且可求平均值、中位数等,但没有倍数关系;比率标度是有倍数关系的属性值,如速度的值;5)离散属性:有限或无限的可数的属性值,如年龄就是有限的值,值的范围应该在0-100区间内;销售数据是一个无限的值但可数;6)连续属性:是一个数值属性,值是一组连续的数值。

2.数据的基本统计描述对数据进行预处理可以有效地把握数据的全貌,可识别出数据集中的噪声、极值和离群点。

1、中心趋势度量:均值、中位数、众数:1)均值:均值即观测数据集中的所有数值的平均值,均值对于数据集中的极值或离群点比较敏感。

数据挖掘导论 第二章 数据

数据挖掘导论 第二章 数据
– Object is also known as record, point, case, sample, entity, or instance
Divorced 220K Single Married Single 85K 75K 90K
© Tan,Steinbach, Kumar
Introduction to Data Mining
Ratio
temperature in Kelvin, monetary quantities, counts, age, mass, length, electrical current
Attribute Level
Transformation
Comments
Nominal
Any permutation of values
‹#›
What is Data?

Collection of data objects and their attributes
Attributes

An attribute is a property or characteristic of an object
– Examples: eye color of a person, temperature, etc.

– ID has no limit but age has a maximum and minimum value
© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 ‹#›
Measurement of Length

The way you measure an attribute is somewhat may not match the attributes properties.

数据挖掘 第二章 认识数据ppt课件

数据挖掘 第二章 认识数据ppt课件

4
属性类型Attribute Types


序数属性(ordinal attribute) 其可能的值之间具有有意义的序或者秩评定(ranking), 但是相继值之间的差是未知的。 成绩={优,良,中,差} 其中心趋势可以用它的众数和中位数表示,但不能定义 均值。 注意 标称、二元和序数属性都是定性的,即只描述对象的特 征,不给出实际的大小。
数据挖掘 第二 章 认识数据
数据对象Data Objects

数据集由数据对象组成。
一个数据对象代表一个实体(entity)。

销售数据库: 顾客, 商品, 销售 医疗数据库:患者

大学数据库: 学生、教授、课程

数据对象又称为样本、实例、数据点、或对象。 数据对象用属性(attribute)描述。 数据行对应数据对象; 列对应属性。
5
属性类型Attribute Types

数值属性(numeric attribute) 区间标度(interval-scaled)属性 使用相等的单位尺度度量。 值有序,可以评估值之间的差,不能评估倍数。 没有绝对的零点。 如:摄氏温度,华氏温度 比率标度(ratio-scaled)属性 具有固定零点的数值属性。 值有序,可以评估值之间的差,也可以说一个值是 另一个的倍数。 如:开式温温标(K),重量,高度,速度
2
属性Attributes

属性(attribute)是一个数据字段,表示数据对象的一个特征。

如:customer _ID, name, address

类型: 标称属性(nominal) 二元属性(binary) 序数属性(ordinal) 数值属性(numeric) 区间标度属性(interval-scaled) 比率标度属性(ratio-scaled)

数据挖掘之---认识数据

数据挖掘之---认识数据

数据挖掘之认识数据
数据是将一个事物抽象为对象后,通过数据做为对象的属性值来描述对象的一个或一组数据。

对象的属性名称众多,不同领域称呼不一。

可称为:字段、属性、特征、维、变量等,但意义相同。

对象通过使用一组属性来进行描述,对象的一组属性称为属性向量。

属性向量有单向量和双向量之分,单向量即一个属性的值的分布状态;双向量是两个属性的值分布态势。

属性根据值的类型可分为标称属性、二元属性、序数属性、数值属性、离散属性、连续属性等。

标称属性:属性的值是无序的且可以是符号或事物名称,如职业的名称(公务员、医生、教师等)、车辆的品牌等(大众、宝马、奔驰等);可以进行枚举,一般情况下不适合用来做计算,如求平均值、中位数等,适合用来找到众数做中心趋势度量;
二元属性:是一种标称属性,其属性值为布尔型0或1。

二元属性可细分为对称属性和非对称属性。

对称属性其值无权重、无偏好之分,如男和女可以用0和1标识也可以用1和0标识;非对称属性是有偏好和重要性之分的,可以用0表示不重要或常出现的、用1来表示重要或不常出现的状态或事件;
序数属性:未知的、有序的数值但一般不用来做计算的值。

如满意度代码,0->不满意、1->满意、2->非常满意等;
数据属性:定量、可度量、可计算的属性值。

可分为区间标度和
比率标度,区间标度如温度,在一个区间内,且可求平均值、中位数等,但没有倍数关系;比率标度是有倍数关系的属性值,如速度的值;
离散属性:有限或无限的可数的属性值,如年龄就是有限的值,值的范围应该在0-100区间内;销售数据是一个无限的值但可数;
连续属性:是一个数值属性,值是一组连续的数值。

浙江大学远程教育2014年数据挖掘离线作业

浙江大学远程教育2014年数据挖掘离线作业

浙江大学远程教育学院《数据挖掘》课程作业姓名:学号:年级:学习中心:—————————————————————————————第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面(3)Web挖掘包括哪些步骤?答:数据清理: (这个可能要占全过程60%的工作量)数据集成将数据存入数据仓库建立数据立方体选择用来进行数据挖掘的数据数据挖掘(选择适当的算法来找到感兴趣的模式)展现挖掘结果将模式或者知识应用或者存入知识库(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。

其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

第二章认识数据一、填空题(1)两个文档向量d1和d2的值为:d1= (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),则它们的余弦相似度为:5/13(2)数据离散度的常用度量包括极差、分位数、四分位数、百分位数四分位数极差和标准差(3)一种常用的确定离群点的简单方法是:出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值。

数据挖掘 第2章--认识数据

数据挖掘 第2章--认识数据

二元属性
二元属性
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性 不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布 尔属性。 如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性 是对称的。如:属性gender中的男、女。 如果其状态的结果不是同等重要的,则称一个二元属性是非对称的。如:HIV化 验的阴性、阳性结果。
于部门1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100
美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值175和 202都超过IQR的1.5倍,这里IQR=40.
200 180 160 140 120 100 80 60 40 20 0 部门1 部门2 部门3 部门4
离散属性与连续属性
离散属性与连续属性
离散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性
hair_color 、 smoker 、 medical_test 和 drink_size 都有有限个值,因此是
离散的 如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以
互换使用
2.通过zif代替第i个对象的rif来实现数据规格化:
zif
rif 1 M f 1
3.利用数值属性的距离度量计算,使用zif作为第i个对象的f值。
28
32
相异性
混合类型属性的相异性
假设数据集包含p个混合类型的属性,对象i与j之间的相异性d(i,j)定义为:
(f) (f) p dij f 1 ij d (i, j) (f) p f 1 ij
第一个四分位数Q1 第三个四分位数Q3

学习数据挖掘的基本知识

学习数据挖掘的基本知识

学习数据挖掘的基本知识第一章:数据挖掘的定义和概念数据挖掘是指通过使用计算机技术和算法,从大量数据中自动发掘并提取出有价值的信息和知识的过程。

它可以帮助人们发现隐藏在数据背后的模式、关联和趋势,以辅助决策和预测未来的趋势。

在数据挖掘中,需要重点关注几个基本概念。

首先是数据采集,它包括从各种来源获取数据的过程,如数据库、互联网、传感器等。

其次是数据预处理,即对原始数据进行清洗和整理,以去除噪声、缺失值和异常样本,并进行归一化、编码等处理。

接下来是特征选择和转换,通过选择最具代表性的特征和将数据转换到合适的表示形式,以提高挖掘的精度和效率。

最后是模型构建和评估,选择适当的挖掘算法和模型进行训练和测试,并通过评估指标来评价挖掘结果的质量。

第二章:常用的数据挖掘技术和算法数据挖掘涵盖了多个技术和算法,下面介绍几种常用的技术和算法。

1. 关联规则挖掘:通过挖掘不同项之间的关联关系,发现在一个项集中某些项的出现往往导致了另一些项的出现。

例如,购买尿布的人也往往同时购买啤酒。

2. 分类和预测:通过对已有数据的特征和标签进行训练,构建分类模型或预测模型,用于对新数据进行分类或预测。

例如,通过分析患者的病历数据和疾病结果,建立疾病预测模型。

3. 聚类分析:将数据集中的对象按照相似性进行分组,使得组内的对象相似度高,组间的相似度低。

例如,将顾客按购买行为进行分组,以便进行精准推荐。

4. 时间序列分析:对具有时间属性的数据进行分析和预测,揭示数据随时间变化的规律。

例如,通过分析过去几年的销售数据,预测未来几个季度的销售趋势。

第三章:数据挖掘过程中的常见问题和挑战在进行数据挖掘的过程中,可能会遇到一些常见问题和挑战。

1. 维度灾难:随着数据维度的增加,计算和存储的成本呈指数级增长。

因此,如何进行特征选择和降维是一个关键问题。

2. 数据质量:原始数据中可能包含噪声、缺失值和异常样本,这会对数据挖掘结果的准确性造成影响。

如何进行数据清洗和整理是一个必须解决的问题。

学习数据挖掘的基础知识

学习数据挖掘的基础知识

学习数据挖掘的基础知识第一章:数据挖掘的定义和应用领域数据挖掘是指从大量数据中发现有用的信息和模式的过程。

它通过应用统计学、机器学习和数据库技术,从海量数据中提取、转换和加载数据,并运用算法和模型来识别隐藏的模式和规律。

数据挖掘在各个领域都有广泛的应用,如市场营销、金融风险管理、医疗诊断和预测分析等。

第二章:数据挖掘的主要任务数据挖掘的主要任务包括分类、预测、关联规则挖掘、聚类和异常检测等。

分类是一种将数据分为不同类别的任务,常用的分类算法包括决策树、朴素贝叶斯和支持向量机等;预测是通过观察已知数据的趋势来预测未来数据的值,常用的预测模型包括线性回归和时间序列分析等;关联规则挖掘用于发现数据集中的频繁项集和关联规则,常用的算法包括Apriori算法和FP-Growth算法等;聚类是将数据划分成不相交的组别,常用的聚类算法包括K均值聚类和层次聚类等;异常检测用于发现数据中的异常值,常用的方法包括箱线图和离群点分析等。

第三章:数据预处理数据预处理是数据挖掘过程中非常重要的一步,它包括数据清洗、数据集成、数据转换和数据规约等处理过程。

数据清洗用于处理数据中的错误、缺失和异常值等,常用的方法包括删除无用数据、插补缺失值和平滑异常值等;数据集成是将来自不同数据源的数据进行整合,常用的方法包括数据连接和数据合并等;数据转换用于将数据转换成挖掘算法所需的形式,常用的方法包括属性变换和规范化等;数据规约用于降低数据维度和大小,常用的方法包括属性选择、维度规约和数据压缩等。

第四章:数据挖掘的常用算法和技术数据挖掘中有许多常用的算法和技术,如决策树、神经网络、支持向量机、关联规则挖掘和聚类等。

决策树是一种用于分类和预测的算法,可以根据属性值将数据集划分为不同的类别;神经网络通过模拟人脑的神经元来进行数据挖掘,可以用于分类、预测和聚类等任务;支持向量机通过寻找一个最优超平面来进行分类和预测,具有较好的泛化性能;关联规则挖掘用于发现数据中的频繁项集和关联规则,可用于市场篮子分析;聚类是将数据划分为不同的组别,有助于研究数据的内在结构。

《数据挖掘基础及其应用》课件第2章

《数据挖掘基础及其应用》课件第2章

第2章 数据
3.序列数据 记录型数据与图数据都忽视了时间和空间因素,而序列 数据的特点是强调顺序关系,其信息提取与模式解释需要兼 顾顺序关系。典型的序列数据包括时间序列数据、遗传序列 数据及空间序列数据等。 (1)时间序列数据:在不同时间上收集的数据,用于描述与 刻画事物随时间变化的情况,反映了某一事物、现象等随时 间的变化状态或程度。很多计量经济学的模型也用到了时间 序列数据。
合,其中记录之间不存在明显的关联关系,而且每个记录具有 相同的属性。这些特性使得数据可以采用表格或者矩阵的 形式来展示与存储,例如关系型数据库中的数据表格都属于 记录型数据。典型的记录型数据包括表格数据、事务数据、 数据矩阵、词频矩阵等,如图2-2所示。
第2章 数据
图2-2-典型的记录型数据
第2章 数据
交易事务数据(又称购物篮数据)是一类特殊的记录型数 据,其中每一个事务(记录)包含顾客某次所购买商品的集合, 例如图2-2(b)中就是某超市5条交易事务数据,每一行表示一 条交易事务,所对应的表格记录该交易事务所包含的商品。
第2章 数据
2.图数据 图数据是指包含数据对象之间存在关联关系的数据,其 中图节点表示数据对象,边表示对应的数据对象之间存在一 定的关联关系。记录型数据对象具有都不存在关联性的特 点,而图数据比记录型数据包含更多的信息。 在生物网络中,基因采用节点表示,基因之间的相互作用 利用边来表示,如图1 8所示。
第2章 数据
定义2.6(严格定义) 相似度是一个函数f,给定数据对象a、 b,相似度函数f 刻画数据对象之间的相似程度,同时应满足如 下三个条件:
(1)非负性,即f(a,b)≥0; (2)对称性,即f(a,b) =f(b,a); (3)有界性,即f(a,b) ∈[0,1]。 相似度与相异度的区别与联系如图2-3所示。

数据挖掘第二章课件

数据挖掘第二章课件

五数概括
• Q1、中位数、Q3不包含两个端点,将最小 值和最大值加入,由这五个数组成的观测 值称为五数概括。 • 分布的五数概括按次序,最小、Q1、中位 值、Q3、最大值写出。
盒图
盒图 例
标准差和方差
• 方差:
• 标准差:观测值的标准差是方差的平方根。 • 标准差是发散性的度量,度量关于均值的 发散,当不存在发散时,所有观测值均等 于均值,方差为0。
• 截尾均值:丢弃高低极端值后的均值,一 般丢掉高端低端各2%。

中位数
• 中位数是有序数据的中间值。 • 如果数据是奇数,则中位数是中间值。 • 如果数据是偶数,中位数是中间两个值和它们之 间的任意值,如果是数值属性,则中位数是中间 两值的平均值。前例中位数为(52+56)/2=54。 • 插值计算中位数近似值:
第二章 认识数据
数据对象与属性类型
• 数据对象——代表一个实体 • 例如:大学数据库中,学生、教授、教务 人员等属于对象
• 数据属性——代表对象的一个特征 • 例如:学生的学号、姓名、成绩等为属性
属性
• • • • 1.属性也叫维、特征、变量。如学生学号。 2.一组属性叫属性向量或特征向量。 3.给定属性的观测值称为观测。 4.涉及一个属性的数据分布称为单变量的。 双变量分布涉及两个属性。 • 5.属性的类型分为标称的、二元的、序数的、 数值的。
离散属性和连续属性
• 离散属性 有限或无限可数个值;可以具有有效值;如 头发颜色、年龄、顾客数量均是离散的。 • 连续属性 如果不是离散的,则为连续的;又称为数值 属性;一般用浮点变量表示连续属性。
中心趋势度量
• 度量数据中心趋势 • 包括均值、中位数、众数和中列数。

数据挖掘-认识数据

数据挖掘-认识数据

数据挖掘-认识数据数据对象与属性类型数据集由数据对象组成。

⼀个数据对象代表⼀个实体。

例如销售数据库中,对象可以是顾客、商品。

属性是⼀个数据字段,表⽰数据对象的⼀个特征。

属性类型标称属性(nominal attribute):⼀些事物的名称,每个值代表某种类别、编码或者状态。

不具有有意义的序,不是定量的,其均值和中位数⽆意义,总数有意义。

例如,颜⾊这个对象的属性可能有⿊⾊、红⾊、⽩⾊等,职业可能值有教师、医⽣等。

⼆元属性(binary attribute):⼀种标称属性,只有两个类别或状态:0或1。

有对称和⾮对称两种情况,对称⽐如性别男⼥两种状态;⾮对称⽐如HIV检测中的阳性和阴性,为了⽅便,通常⽤1表⽰最重要的结果(通常是稀有的,另⼀个⽤0编码。

序数属性(ordinal attribute):值之间具有有意义的序,但是相继值之间的差未知。

其中⼼趋势可以⽤众数和中位数来表⽰,但不能定义均值。

⽐如成绩有A+、A、A-等。

上⾯三个都是定性的属性,即它们描述对象的特征⽽不给出实际⼤⼩或数量,其值只代表编码,⽽不是可测量的量。

数值属性(numeric attribute)是定量的,可度量,⽤整数或实数值表⽰。

区间标度属性(interval-scaled):允许⽐较和定量评估值之间的差,但是没有真正的零点,没有⽐率或者倍数关系,可以计算中位数,众数和均值。

例如,摄⽒温度,我们不能说10摄⽒度⽐5摄⽒度温暖2倍。

⽐率标度属性(ratio-scaled):具有固定零点,可以计算均值、中位数和众数。

例如,⼯作年限、⽂章字数等计数属性。

数据的基本统计描述我们为了把握数据的全貌,关注数据的中⼼趋势度量、数据的散布和图形显⽰。

中⼼趋势度量中⼼趋势度量度量数据分布的中部或中⼼位置,或者说,给定⼀个属性,它的值⼤部分落在何处?均值 (mean)最常⽤最有效的是的算术均值:\overline{x} = \frac{\sum_{i=1}^N x_i}{N}或者使⽤加权平均,反映对应值的意义、重要性或者出现频率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

定类尺度
定类尺度(列名尺度):按照事物的某种 属性对其进行平行的分类或分组。
例:人口的性别(男、女);企业的所有制性 质(国有、集体、私营等)

计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 具有=或的数学特性 数据表现为“类别”
定类尺度
定类尺度只测度了事物之间的类别差,而对各 类之间的其他差别却无法从中得知,因此各类 地位相同,顺序可以任意改变。 对定类尺度的计量结果,可以且只能计算每一 类别中各元素个体出现的频数 (frequency)。 对事物进行分类时,必须符合穷尽(exhaustive) 和互斥(mutually exclusive)要求。
数据的计量尺度
数据的计量尺度(Levels of Measurement)
一般认为,数据是对客观现象计量的结果。
按照对事物计量的精确程度,可将所采用的 计量尺度由低级到高级分为四个层次:
定类尺度(Nominal Level) 定序尺度(Ordinal Level) 定距尺度(Interval Level) 定比尺度(Ratio Level)
集中趋势的测度
定类数据:众数 定序数据:中位数和四分位数 定距和定比数据:平均数(均值) 众数、中位数和均值的比较
集中趋势 (Central tendency)
一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或 中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的集中趋势测度值适用于高层次的测 量数据,反过来,高层次数据的集中趋势测度值 并不适用于低层次的测量数据 选用哪一个测度值来反映数据的集中趋势,要根 据所掌握的数据的类型来确定
位置 N+1 6+1 3.5 2 2 8+9 中位数 8.5 2
定序数据:四分位数(quartile)
排序后处于25%和75%位置上的值 用ML和MU表示 不受极端值的影响 主要用于定序数据,也可用于数值型数据, 但不能用于定类数据
四分位数
方法1:定义算法
定比尺度
定比尺度(比率尺度):是能够测算两个测 度值之间比值的一种计量尺度。
例:职工月收入;企业产值;公制的距离、重量
与定距尺度属于同一层次,计量结果也表现 为数值; 除了具有其他三种计量尺度的全部特点外, 还具有可计算两个测度值之间比值的特点; “0‖表示“没有”,即它有一固定的绝对 “零点”,因此它可进行加、减、乘、除运 算(而定距尺度只可进行加减运算)
n i 1 i e
中位数
N 1 中位数位置 2
X N 1 当N 为奇数时 2 Me 1 X N X N 当N 为偶数时 2 1 2 2
中位数的例子(定序数据)
第2章
认识数据
• 数据对象
数据集由数据对象构成 一个数据对象代表一个实体 例子: 销售数据库sales database:客户/顾客,商店物品, sales
医学数据库: patients, treatments
大学数据库: students, professors, courses 又称为 样本, 事例,实例, 数据点, 对象,元组tuples. 数据对象由属性来描述 Database rows -> data objects; columns ->attributes.
属性
属性Attribute (or维度, 特征, 变量):一个数据字段, 表示 一个数据对象的某个特征. E.g., customer _ID, name, address 类型: 名词性Nominal 二元的 数字的Numeric: 数量的 Interval-scaled Ratio-scaled
中位数的例子(数值型数据)
原始数据: 排 序: 位 置: 24 20 1 22 21 2 21 26 22 24 3 4 20 26 5
N 1 5 1 位置 3 2 2 中位数 22
中位数的例子(数值型数据)
原始数据: 排 序: 位 置: 10 5 1 5 6 2 9 8 3 12 6 8 9 10 12 4 5 6
解:这里的变量为“广告类 型”,这是个定类变量,不 同类型的广告就是变量值。 我们看到,在所调查的 200 人当中,关注商品广告的人 数最多,为 112 人,占总被 调查人数的 56%,因此众数 为“商品广告”这一类别, 即 Mo=商品广告
定序数据:中位数(median)
排序后处于中间位置上的值 用Me表示 不受极端值的影响 主要用于定序数据,也可用数值型数据, 但不能用于定类数据 各变量值与中位数的离差绝对值之和最小, M 即 最小 X
定序尺度
定序尺度(顺序尺度):是对事物之间等 级或顺序差别的一种测度。
例:产品等级(一等品、二等品…);考试成 绩(优、良、中、可、差)
对事物分类的同时给出各类别的顺序 比定类尺度精确 不仅可以测度类别差(分类),还可以测 度次序差(比较优劣或排序) 数据表现为“类别”,但有序
四分位数的例子(定序数据)
甲城市家庭对住房状况评价的频数分布
解:QL位置= (300)/4 =75 QU位置 =(3³300)/4 =225 不 从累计频数看, QL 在“
甲城市 回答类别 非常不满意 不满意 一般 满意 非常满意 合计
户数 (户)
24 108 93 45 30 300
累计房状况评价的频数分布
解:中位数的位置为: 300/2=150 从累计频数看,中位数 的在“一般”这一组别 中。因此
回答类别 非常不满意 不满意 一般 满意 非常满意 合计
甲城市
户数 (户)
24 108 93 45 30 300
累计频数
24 132 225 270 300 —
Me=一般
满意”这一组别中; QU在 “一般”这一组别中 四分位数为 QL = 不满意 QU = 一般
四分位数的例子(数值型数据)


9个家庭的人均月收入数据
原始数据: 排 序: 位 置: 1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
众数的例子
例 某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数(人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
定序尺度
无法测出类别之间的准确差值 该尺度的计量结果只能排序,不能进行算 术运算。 具有>或<的数学特性
定距尺度
定距尺度(间隔尺度):是对事物类别或次序之 间间距的测度。
例:100分制考试成绩;摄氏温度对不同地区温度的测 量
不仅能将事物区分为不同类型并进行排序,而且 可准确指出类别之间的差距是多少 比定序尺度精确 定距尺度通常以自然或物理单位为计量尺度,因 此数据表现为“数值” 没有绝对零点;“0‖是测量尺度上的一个测量点, 并不代表“没有” 计量结果可以进行加减运算,具有 + 或 - 的数学 特性
可将高层次计量尺度的计量结果转换为低层次计 量尺度的计量结果,但不能反过来 练习:指出下面变量的测量尺度:
学生住址距学校的距离
学生某门课的一次测验成绩(5分制)
学生的出生地 按年级分类的高校学生 每周学生学习的小时数
数据分布特征的描述
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度)
属性类型
数值属性的类型
数量Quantity (integer or real-valued) 区间Interval
在某个同等大小的一个尺度单位上Measured on a scale of equal-sized units 值有序 E.g., temperature in C˚or F˚, calendar dates 没有真正的零点
1
2
方法1

3
4
5
6

7
8
9
9 QL 位置 2.25 4
3 9 QU 位置 6.75 4
QL 780 (850 780) 0.25 QU 1250 (1500 1250) 0.75 1437.5 797.5
四分位数的例子(数值型数据)


n QL 位置 4 Q 位置 3n U 4 n 1 QL 位置 4 Q 位置 3(n 1) U 4
方法2:较准确算法
四分位数
方法3: Q位置
n 1 1 2 2
其中[ ]表示中位数的位置取整。这样计算 出的四分位数的位置,要么是整数,要么 在两个数之间0.5的位置上
Continuous Attribute
属性值为实数 E.g., temperature, height, or weight 实际上,实值只能使用有限位数进行测量和代表 连续属性通常表示为浮点变量
数据概述
数据的计量与类型
数据的计量尺度 数据的类型 数据的表现形式
名词性Nominal:类别,状态, or ―名目‖ Hair_color = {auburn, black, blond, brown, grey, red, white} 婚姻状态, 职业occupation, ID numbers, zip codes 二元 只有2个状态的名词性属性 (0 and 1) 对称二元Symmetric binary: 同样重要的两相 e.g., gender 非对称Asymmetric binary: 非同等重要 e.g., 医疗检查 (positive vs. negative) 惯例Convention: assign 1 to most important outcome (e.g., HIV positive) 顺序的 Ordinal 值有一个有意义的顺序(排序) 但连续值之间的大小未知. Size = {small, medium, large},等级,军队排名
相关文档
最新文档