数据挖掘 第2章--认识数据PPT

合集下载

数据挖掘导论教材配套教学PPT——认识数据挖掘

数据挖掘导论教材配套教学PPT——认识数据挖掘

2022年3月23日星期三
第7页,共65页
1.2.1 概念学习
清华大学出版社
1、传统角度(Classical View)
– 所有概念都有明确的定义。
2、概率角度(Probabilistic View)
– 对个别样本实例进行概括性描述,概括性说明构成了概率角度 中的概念。
3、样本角度(Exemplar View)
Yes
No
Yes
Yes
Yes
Yes
Yes
No
No
Good
Yes
Viral
Yes
Not good
Yes
Bacterial
Yes
Good
Yes
Viral
No
Unknown
No
Viral
Yes
Unknown
No
Bacterial
Yes
Not good
No
Bacterial
Yes
Not good
No
Viral
– 样本角度中的概念是将某个概念中的典型实例组成一个集合, 使用该集合来描述概念定义。
2022年3月23日星期三
第8页,共65页
清华大学出版社
1.2.2 归纳学习(Induction-Based Learning)
• 基于归纳的学习
– 机器学习方式 – 人类学习最重要方式之一
• 人类通过对事物的特定实例的观察,对所掌握的已有 经验材料研究。
2022年3月23日星期三
第5页,共65页
1.2 机器学习
1.2.1 概念学习
清华大学出版社
• 通过对大量实例进行训练,从中发现经验化规律的过程。 • 机器学习结果的通常表现形式为概念。 • 机器最擅长的是学习概念。 • 概念(Concept)

数据挖掘第一与第二章PPT课件

数据挖掘第一与第二章PPT课件
散的目标变量;回归,用于预测连续的目标变 量。
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.

数据挖掘2

数据挖掘2
Introduction to Data Mining 4/18/2004 ‹#› 2016
©Inner Tan,Steinbach, Kumar Mongolia University wei wu
Attrription
The values of a nominal attribute are just different names, i.e., nominal attributes provide only enough information to distinguish one object from another. (=, )
5 A B 7 C 8 3 2 1
D 10 4
E
15
5
©Inner Tan,Steinbach, Kumar Mongolia University wei wu
Introduction to Data Mining
4/18/2004
‹#› 2016
Types of Attributes

There are different types of attributes
Data Mining: Data
Lecture Notes for Chapter 2 Introduction to Data Mining
©Inner Tan,Steinbach, Kumar Mongolia University wei wu
Introduction to Data Mining
– Nominal

Examples: ID numbers, eye color, zip codes
Examples: rankings (e.g., taste of potato chips on a scale from 1-10), grades, height in {tall, medium, short} Examples: calendar dates, temperatures in Celsius or Fahrenheit. Examples: temperature in Kelvin, length, time, counts

数据挖掘PPT2

数据挖掘PPT2
•18
数据转换
所谓数据转换就是将数据转换或归并成一 个适合数据挖掘的描述形式。
数据转换包含以下处理内容:
•19
数据变换
平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集(合计处理):对数据进行总结或合计
操作。例如:每天销售额(数据)可以进行合 计操作以获得每月或每年的总额。这一操作常 用于构造数据立方或对数据进行多细度的分析。
为什么要预处理数据?
数据预处理是数据挖掘(知识发现)过程 中的一个重要步骤,尤其是在对包含有噪 声、不完整,甚至是不一致数据进行数据 挖掘时,更需要进行数据的预处理,以提 高数据挖掘对象的质量,并最终达到提高 数据挖掘所获模式知识质量的目的。
•1
为什么要预处理数据?
现实世界的数据是“肮脏的”
不完整的:有些感兴趣的属性缺少属性值
箱3:29,29,29
用箱边界平滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34
•12
如何处理噪声数据
聚类方法:
通过聚类分析可帮助发现异常数据,相似或相 邻近的数据聚合在一起形成了各个聚类集合, 而那些位于这些聚类集合之外的数据对象,自 然而然就被认为是异常数据。
•13
等等
•11
数据平滑的分箱方法
给定一个数值型属性price:
price的排序后数据(单位:美元):4,8,15,21, 21,24,25,28,34
划分为(等深的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用箱平均值平滑:
箱1:9,9,9
箱2:22,22,22
•7
如何处理空缺值
人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:对一个属性的

大数据高职系列教材之数据挖掘基础PPT课件:第2章 分类

大数据高职系列教材之数据挖掘基础PPT课件:第2章 分类

2.1 分类概述
2.1.2 解决分类问题的一般方法
第二章 分类
2.1 分类概述
2.1.2 解决分类问题的一般方法
• 应用模
第二章 分类
2.1 分类概述
2.1.3 决策树
第二章 分类
1.决策树工作原理 通过提出一系列精心构思的关于检验记录属性的问题,解决分类问题。 类问题的决策树,树中包含三种节点: *根节点 没有进边,有0条或更多条出边; *内部节点 有一条进边,有2条或更多条出边; *叶节点有一条进边,没有出边。
2.4 分类在实际场景中的应用案例
第二章 分类
1案例:如何解决文章主题关键字与搜索引擎关键字带来的检索结果差异
• 在网页学术性判定方面,提出了基于贝叶斯算法的网页学术性判断算法, 通过对网页内容、 格式、结构三个维度的分析,完成网页学术性的判定;在分类方面,以中图法的分类大纲作为 分类目录,提出了基于改进空间向量模型的学术网页分类算法,通过利用网页主题关键字构 建网页向量空间,最后实现了网页的正确分类。通过两个关键算法,在系统中的网页主题提 取部分,采用Html Parser技术与正则表达式相结合的网页主题提取算法,实现对抓取的网页 主题内容的获取。
一个数据集,包含两个不同类的样本,分别用小黑加号块和小圆圈表示。数据集是线性可分的,即能找到一个 超平面,使得所有小黑方块位于这个超平面的一侧,所有小圆圈在它的另一侧。如图所示,可看到这种超平面可 能存在无穷多个。通过检验样本运行效果,分类器要从这些超平面中选一个作为它的决策边界。
2.3 支持向量机
有穷举覆盖。它确保每一条记录都至少被规则集里的一条规则覆盖。
2.2 贝叶斯决策与分类器
第二章 分类
2.2.1 规则分类器

数据挖掘概述ppt课件

数据挖掘概述ppt课件

• 缺陷
–只注重模型的生成,如何和预言模型系统集成导致了第三代
数据挖掘系统的开发
10
二、数据挖掘软件的发展 第二代数据挖掘软件 DBMiner
11
二、数据挖掘软件的发展 第二代软件 SAS Enterprise Miner
12
二、数据挖掘软件的发展
第三代数据挖掘软件
• 特点 –和预言模型系统之间能够无缝的集成,使得由数据挖掘软件 产生的模型的变化能够及时反映到预言模型系统中 –由数据挖掘软件产生的预言模型能够自动地被操作型系统吸 收,从而与操作型系统中的预言模型相联合提供决策支持的 功能 –能够挖掘网络环境下(Internet/Extranet)的分布式和高 度异质的数据,并且能够有效地和操作型系统集成
一、数据挖掘概念----技术
• 技术分类
– 预言(Predication):用历史预测未来 – 描述(Description):了解数据中潜在的规律
• 数据挖掘技术
– 关联分析 – 序列模式 – 分类(预言) – 聚集 – 异常检测
6
二、数据挖掘软件的发展
Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的观点
一、数据挖掘概念----发展
• 1989 IJCAI会议: 数据库中的知识发现讨论专题 – Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)
• 1991-1994 KDD讨论专题 – Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)

数据挖掘——第二章认识数据PPT课件

数据挖掘——第二章认识数据PPT课件

合计
200
1
100
Mo=商品广告
定序数据:中位数(median)
• 排序后处于中间位置上的值
• 用Me表示 • 不受极端值的影响
• 主要用于定序数据,也可用数值型数据, 但不能用于定类数据
• 各变量值与中位数的离差绝对值之和最小
,即
最小 n
Xi Me
i 1
中位数
中位数位置N1 2
Me 12XNX21N2当 NX为 N2奇 1 数 当 时N为偶数时
• 定类尺度(列名尺度):按照事物的某种 属性对其进行平行的分类或分组。
– 例:人口的性别(男、女);企业的所有制性 质(国有、集体、私营等)
• 计量层次最低 • 对事物进行平行的分类 • 各类别可以指定数字代码表示 • 具有=或的数学特性 • 数据表现为“类别”
定类尺度
• 定类尺度只测度了事物之间的类别差,而对各 类之间的其他差别却无法从中得知,因此各类 地位相同,顺序可以任意改变。
四种计量尺度的比较
四种计量尺度的比较
定类尺度 定序尺度 定距尺度 定比尺度
分类(=,≠ )




排序( < ,> )



间距( + ,- )


比值( × ,÷)

“√”表示该尺度所具有的特性
四种计量尺度的区别与联系
• 高层次的计量尺度具有低层次计量尺度的全部特 性,但反之不行
• 可将高层次计量尺度的计量结果转换为低层次计 量尺度的计量结果,但不能反过来
• 对事物分类的同时给出各类别的顺序 • 比定类尺度精确 • 不仅可以测度类别差(分类),还可以测

数据挖掘PPT全套课件

数据挖掘PPT全套课件

记录数据
记录(数据对象)的汇集,每个记录包含固定的数 据字段(属性)集
Tid Refund Marital Taxable Status Income Cheat
1 Yes 2 No 3 No 4 Yes 5 No 6 No 7 Yes 8 No 9 No 10 No
10
Single 125K No
和三维结构的DNA数据)
数据库技术、 并行技术、分 布式技术
数据挖掘的任务
预测 – 使用已知变量预测未知变量的值.
描述 – 导出潜在联系的模式(相关、趋势、聚类、异
常).
数据挖掘的任务
分类 [预测] 聚类 [描述] 关联分析 [描述] 异常检测 [预测]
分类 例子
Tid Refund Marital Taxable Status Income Cheat
矿石硬度、{好, 较好,最好}、 成绩
中值、百分位、 秩相关、游程 检验、符号检 验
日历日期、摄氏、 均值、标准差、
华氏温度
皮尔逊相关、
t和F检验
绝对温度、货币 量、计数、年龄 、质量、长度、 电流
几何平均、调 和平均、百分 比变差
属性类 型
标称
变换 任何一对一变换
序数
值的保序变换
新值 = f(旧值)
– (1)统计学的抽样、估计、假设检验
– (2)人工智能、模式识别、机器学习
的搜索算法/建摸技术、学习理论
– (3)最优化、进化算法、
信息论、信号处理、 可视化、信息检索
统计学
人工智能、 机器学习
– (4)数据库技术、并行计算
和模式识别
、分布式计算
传统的方法可能不适合
数据挖掘

《数据挖掘》课件

《数据挖掘》课件
NumPy、Pandas、 Matplotlib等,能够方便地进 行数据处理、建模和结果展示

Python的易读性和灵活性使得 它成为一种强大的工具,可以 快速地开发原型和实现复杂的 算法。
Python在数据挖掘中主要用于 数据清洗、特征工程、机器学 习模型训练和评估等任务。
R在数据挖掘中的应用
01
等。
02
数据挖掘技术
聚类分析
聚类分析的定义
聚类分析是一种无监督学习方法 ,用于将数据集中的对象分组, 使得同一组(即聚类)内的对象 尽可能相似,而不同组的对象尽
可能不同。
常见的聚类算法
包括K-means、层次聚类、 DBSCAN等。
聚类分析的应用
在市场细分、模式识别、数据挖 掘、统计学等领域有广泛应用。
04
Spark提供了Spark SQL、Spark MLlib和Spark GraphX等组件,可以进行结构化和非结构化数据的 处理、机器学习、图计算等任务。
Tableau在数据可视化中的应用
01 02 03 04
Tableau是一款可视化数据分析工具,能够帮助用户快速创建各种图 表和仪表板。
Tableau提供了直观的界面和强大的功能,支持多种数据源连接和数 据处理方式。
03
到了广泛应用。
数据挖掘的应用场景
商业智能
通过数据挖掘技术,企业可以 对市场趋势、客户行为等进行 深入分析,从而制定更好的商
业策略。
金融
金融机构可以利用数据挖掘技 术进行风险评估、客户细分和 欺诈检测等。
医疗
数据挖掘在医疗领域的应用包 括疾病诊断、药物研发和患者 管理等。
科学研究
数据挖掘在科研领域的应用包 括基因组学、天文学和气候学

《数据挖掘基础及其应用》课件第2章

《数据挖掘基础及其应用》课件第2章

第2章 数据
3.序列数据 记录型数据与图数据都忽视了时间和空间因素,而序列 数据的特点是强调顺序关系,其信息提取与模式解释需要兼 顾顺序关系。典型的序列数据包括时间序列数据、遗传序列 数据及空间序列数据等。 (1)时间序列数据:在不同时间上收集的数据,用于描述与 刻画事物随时间变化的情况,反映了某一事物、现象等随时 间的变化状态或程度。很多计量经济学的模型也用到了时间 序列数据。
合,其中记录之间不存在明显的关联关系,而且每个记录具有 相同的属性。这些特性使得数据可以采用表格或者矩阵的 形式来展示与存储,例如关系型数据库中的数据表格都属于 记录型数据。典型的记录型数据包括表格数据、事务数据、 数据矩阵、词频矩阵等,如图2-2所示。
第2章 数据
图2-2-典型的记录型数据
第2章 数据
交易事务数据(又称购物篮数据)是一类特殊的记录型数 据,其中每一个事务(记录)包含顾客某次所购买商品的集合, 例如图2-2(b)中就是某超市5条交易事务数据,每一行表示一 条交易事务,所对应的表格记录该交易事务所包含的商品。
第2章 数据
2.图数据 图数据是指包含数据对象之间存在关联关系的数据,其 中图节点表示数据对象,边表示对应的数据对象之间存在一 定的关联关系。记录型数据对象具有都不存在关联性的特 点,而图数据比记录型数据包含更多的信息。 在生物网络中,基因采用节点表示,基因之间的相互作用 利用边来表示,如图1 8所示。
第2章 数据
定义2.6(严格定义) 相似度是一个函数f,给定数据对象a、 b,相似度函数f 刻画数据对象之间的相似程度,同时应满足如 下三个条件:
(1)非负性,即f(a,b)≥0; (2)对称性,即f(a,b) =f(b,a); (3)有界性,即f(a,b) ∈[0,1]。 相似度与相异度的区别与联系如图2-3所示。

数据挖掘 第二章 认识数据ppt课件

数据挖掘 第二章 认识数据ppt课件

4
属性类型Attribute Types


序数属性(ordinal attribute) 其可能的值之间具有有意义的序或者秩评定(ranking), 但是相继值之间的差是未知的。 成绩={优,良,中,差} 其中心趋势可以用它的众数和中位数表示,但不能定义 均值。 注意 标称、二元和序数属性都是定性的,即只描述对象的特 征,不给出实际的大小。
数据挖掘 第二 章 认识数据
数据对象Data Objects

数据集由数据对象组成。
一个数据对象代表一个实体(entity)。

销售数据库: 顾客, 商品, 销售 医疗数据库:患者

大学数据库: 学生、教授、课程

数据对象又称为样本、实例、数据点、或对象。 数据对象用属性(attribute)描述。 数据行对应数据对象; 列对应属性。
5
属性类型Attribute Types

数值属性(numeric attribute) 区间标度(interval-scaled)属性 使用相等的单位尺度度量。 值有序,可以评估值之间的差,不能评估倍数。 没有绝对的零点。 如:摄氏温度,华氏温度 比率标度(ratio-scaled)属性 具有固定零点的数值属性。 值有序,可以评估值之间的差,也可以说一个值是 另一个的倍数。 如:开式温温标(K),重量,高度,速度
2
属性Attributes

属性(attribute)是一个数据字段,表示数据对象的一个特征。

如:customer _ID, name, address

类型: 标称属性(nominal) 二元属性(binary) 序数属性(ordinal) 数值属性(numeric) 区间标度属性(interval-scaled) 比率标度属性(ratio-scaled)

数据挖掘 第2章--认识数据

数据挖掘 第2章--认识数据

二元属性
二元属性
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性 不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布 尔属性。 如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性 是对称的。如:属性gender中的男、女。 如果其状态的结果不是同等重要的,则称一个二元属性是非对称的。如:HIV化 验的阴性、阳性结果。
于部门1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100
美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值175和 202都超过IQR的1.5倍,这里IQR=40.
200 180 160 140 120 100 80 60 40 20 0 部门1 部门2 部门3 部门4
离散属性与连续属性
离散属性与连续属性
离散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性
hair_color 、 smoker 、 medical_test 和 drink_size 都有有限个值,因此是
离散的 如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以
互换使用
2.通过zif代替第i个对象的rif来实现数据规格化:
zif
rif 1 M f 1
3.利用数值属性的距离度量计算,使用zif作为第i个对象的f值。
28
32
相异性
混合类型属性的相异性
假设数据集包含p个混合类型的属性,对象i与j之间的相异性d(i,j)定义为:
(f) (f) p dij f 1 ij d (i, j) (f) p f 1 ij
第一个四分位数Q1 第三个四分位数Q3

数据挖掘第二章课件

数据挖掘第二章课件

五数概括
• Q1、中位数、Q3不包含两个端点,将最小 值和最大值加入,由这五个数组成的观测 值称为五数概括。 • 分布的五数概括按次序,最小、Q1、中位 值、Q3、最大值写出。
盒图
盒图 例
标准差和方差
• 方差:
• 标准差:观测值的标准差是方差的平方根。 • 标准差是发散性的度量,度量关于均值的 发散,当不存在发散时,所有观测值均等 于均值,方差为0。
• 截尾均值:丢弃高低极端值后的均值,一 般丢掉高端低端各2%。

中位数
• 中位数是有序数据的中间值。 • 如果数据是奇数,则中位数是中间值。 • 如果数据是偶数,中位数是中间两个值和它们之 间的任意值,如果是数值属性,则中位数是中间 两值的平均值。前例中位数为(52+56)/2=54。 • 插值计算中位数近似值:
第二章 认识数据
数据对象与属性类型
• 数据对象——代表一个实体 • 例如:大学数据库中,学生、教授、教务 人员等属于对象
• 数据属性——代表对象的一个特征 • 例如:学生的学号、姓名、成绩等为属性
属性
• • • • 1.属性也叫维、特征、变量。如学生学号。 2.一组属性叫属性向量或特征向量。 3.给定属性的观测值称为观测。 4.涉及一个属性的数据分布称为单变量的。 双变量分布涉及两个属性。 • 5.属性的类型分为标称的、二元的、序数的、 数值的。
离散属性和连续属性
• 离散属性 有限或无限可数个值;可以具有有效值;如 头发颜色、年龄、顾客数量均是离散的。 • 连续属性 如果不是离散的,则为连续的;又称为数值 属性;一般用浮点变量表示连续属性。
中心趋势度量
• 度量数据中心趋势 • 包括均值、中位数、众数和中列数。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.
4
二元属性
二元属性
➢ 二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性 不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布 尔属性。
➢ 如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性 是对称的。如:属性gender中的男、女。
➢ 如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以 互换使用
.
7
• 数据的基本统计描述
.
中心趋势度量
中心趋势度量:均值、中位数和众数、均值:
N
xi
xi1
x1x2x3... xN
N
N
加权平均:
N
wi xi
x
i1 N
wi
w1x1w2x2 wNxN w1w2 wN
i1
主要问题:对极端值很敏感
.
12
盒图
盒图
➢ 一种流行的分布的直观表示。体现了五数概括: ➢ 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR ➢ 中位数用盒内的线标记 ➢ 盒外的两条线(称作胡须)延伸到最小(Minimum)和最大(Maximum)
.
13
盒图
盒图示例
➢ 如图在给定的时间段ALLElectronics的4个销售部门的商品单价数据的盒图。对
.
17
散点图
散点图
确定两个数值变量之间是否存在联系、模式或趋势的最有效的图形方法之一
.
18
散点图
散点图还可以用来发现属性之间的相关性
a.正相关
b.负相关
.
19
相关性
三种情况,其中每个数据集中两个属性之间都不存在观察到的相关性
.
20
数据统计
数据描述和图形统计显示提供了数据总体情况的有价值的洞察。这有助 于识别噪声和离群点,因此,它们对于数据清理特别有用
数值属性
➢ 数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是 区间标度的或比率标度的,其中心趋势度量可以用均值、中位数或众数来表示
➢ 区间标度属性用相等的单位尺度度量,比如温度 ➢ 比率标度属性是具有固定零点的数值属性,比如重量、高度
.
6
离散属性与连续属性
离散属性与连续属性
➢ 离散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性 hair_color、smoker、medical_test和drink_size都有有限个值,因此是 离散的
➢ 如果其状态的结果不是同等重要的,则称一个二元属性是非对称的。如:HIV化 验的阴性、阳性结果。
.
5
序数属性及数值属性
序数属性
➢ 序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之 间的差是未知的,其中心趋势可以用众数和中位数来表示。
➢ 如:professional_rank(职位)可以按顺序枚举,如对于教师有助教、讲师、副 教授和教授
.
21
• 度量数据的相似性和相异性
.
相似性及相异性
相似性
➢ 量化两组数据的相似性 ➢ 物体相似性越大时,值越大 ➢ 取值范围是[0,1]
相异性
➢ 量化两组数据的不同的程度 ➢ 物体相似性越大时,值越小 ➢ 最小的差异值取0 ➢ 上限值根绝实际不同而不同
相似性和相异性都称邻近性
.
23
数据矩阵及相异性矩阵
0
d(2,1)
0
d(3,1 ) d (3,2) 0
:
::
d (n,1) d (n,2) ... ... 0
24
邻近性度量
标称-属性结构:存放n个 对象两两之间的临近度。每行 对应一个对象
x 11 ...
... ...
x 1f ...
x i1
...
x if
... ... ...
x
n1
...
x nf
... ...
x 1p ...
...
x ip
... ...
...
x np
.
相异性矩阵
➢ 又称对象-对象结构:存放n个对象 之间的相邻度
标称属性
➢ 标称意味着与名称相关。标称属性的值是一些符号或事物的名称 ➢ 如:hair_color(头发颜色)和marital_status(婚姻状况)是描述人的两个特征。
hair_color的可能值为黑色、棕色、淡黄色等,marital_status的可能取值是单 身、已婚、离异和丧偶 ➢ 标称属性值并不具有有意义的序,并且不是定量的。给定一个对象集,找出这种 属性的均值或中位数是没有意义的,但可以用众数来表示
.
9
中心趋势度量
中位数
➢ 有序数据值的中间值 ➢ 适用于倾斜数据
众数
➢ 集合中出现最频繁的值 ➢ 可能最高频率对应多个不同值,导致多个众数
中列数
➢ 数据集的最大值和最小值的平均值
.
10
度量数据散布
度量数据散布:极差、四分位数、方差、标准差和四分位数极差
➢ 极差:极差(range)=max()-min() ➢ 四分位数
分位数图
分位数图
Q3 中位数 Q1
.
15
分位数-分位数图
分位数-分位数图
Q3 中位数 Q1
.
16
直方图
直方图
➢ 如果X是标称的,则对于X的每个已知值,画一个柱或竖直条 ➢ 如果X是数值的,X的值域被划分成不相交的连续子域,通常来讲,诸桶是等宽的 ➢ 对于比较单变量观测组,它可能不如分位数图、分位数图-分位数图、盒图方法有效
于部门1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100
美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值175和
202都超过IQR的1.5倍,这里IQR=40.
200 180 160 140 120 100 80 60 40 20
0
部门1
部门2
部门3
部门4
.
14
✓ 第一个四分位数Q1 ✓ 第三个四分位数Q3 ✓ 四分位数极差IQR=Q3-Q1
➢ 方差和标准差
2N 1i n1(xi)2N 1i n1xi22
➢ 标准差是方差的平方根
.
11
五数概括
五数概括
➢ 分布的五数概括由中位数Q2、四分位数Q1和Q3,最小和最大观测值组成, 按次序Minimum、Q1、Median、Q3、Maximum。
数据挖掘与商务智能
范勤勤 物流研究中心
.
第二章 认识数据 1 数据对象与属性类型 2 数据的基本统计描述 3 度量数据的相似性和相异性
.
• 数据对象与属性类型
.
属性及标称属性
什么是属性?
➢ 属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维数、特征 和变量可以互换的使用,属性可以是标称的、二元的、序数的或数值的。
相关文档
最新文档