韩家炜-数据挖掘:概念与技术-第2章ppt教学提纲

合集下载

数据挖掘第一与第二章PPT课件

数据挖掘第一与第二章PPT课件
散的目标变量;回归,用于预测连续的目标变 量。
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.

数据挖掘:概念与技术课件(英文)2dw

数据挖掘:概念与技术课件(英文)2dw

August 4, 2013
Data Warehouse—Time Variant

The time horizon for the data warehouse is significantly longer than that of operational systems.

Operational database: current value data. Data warehouse data: provide information from a historical perspective (e.g., past 5-10 years) Contains an element of time, explicitly or implicitly But the key of operational data may or may not contain “time element”.
Data Mining: Concepts and Techniques 3
August 4, 2013
Data Warehouse—Subject-Oriented

Organized around major subjects, such as customer,
product, sales. Focusing on the modeling and analysis of data for decision makers, not on daily operations or transaction processing. Provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process.

数据挖掘PPT2

数据挖掘PPT2
•18
数据转换
所谓数据转换就是将数据转换或归并成一 个适合数据挖掘的描述形式。
数据转换包含以下处理内容:
•19
数据变换
平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集(合计处理):对数据进行总结或合计
操作。例如:每天销售额(数据)可以进行合 计操作以获得每月或每年的总额。这一操作常 用于构造数据立方或对数据进行多细度的分析。
为什么要预处理数据?
数据预处理是数据挖掘(知识发现)过程 中的一个重要步骤,尤其是在对包含有噪 声、不完整,甚至是不一致数据进行数据 挖掘时,更需要进行数据的预处理,以提 高数据挖掘对象的质量,并最终达到提高 数据挖掘所获模式知识质量的目的。
•1
为什么要预处理数据?
现实世界的数据是“肮脏的”
不完整的:有些感兴趣的属性缺少属性值
箱3:29,29,29
用箱边界平滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34
•12
如何处理噪声数据
聚类方法:
通过聚类分析可帮助发现异常数据,相似或相 邻近的数据聚合在一起形成了各个聚类集合, 而那些位于这些聚类集合之外的数据对象,自 然而然就被认为是异常数据。
•13
等等
•11
数据平滑的分箱方法
给定一个数值型属性price:
price的排序后数据(单位:美元):4,8,15,21, 21,24,25,28,34
划分为(等深的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用箱平均值平滑:
箱1:9,9,9
箱2:22,22,22
•7
如何处理空缺值
人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:对一个属性的

《数据挖掘》PPT课件

《数据挖掘》PPT课件
➢ 数据挖掘应用系统开发 ➢ 数据挖掘技术的新应用 ➢ 数据挖掘软件发展
2020/12/9
数据库研究所
9
高级数据挖掘
课程的教学目的
➢ 让学生掌握数据挖掘的基本概念、算法和高级技术; ➢ 将这些概念、算法和技术应用于实际问题。
复旦大学计算机科学技术学 院基本情况
➢ 主要研究方向
▪ 媒体计算 ▪ 数据库与数据科学 ▪ 网络与信息安全 ▪ 智能信息处理 ▪ 人机接口和服务计算 ▪ 理论计算机科学 ▪ 软件工程与系统软件
2020/12/9
数据库研究所
6
复旦大学数据挖掘课程的设置
总体目标
➢ 掌握大规模数据挖掘与分析的基本流程 ➢ 掌握数据挖掘的基本算法 ➢ 掌握对实际数据集进行挖掘的系统能力
数据仓库与数据挖掘
数据库系统
2020/12/9
数据库研究所
8
数据仓库与数据挖掘
课程的教学目的
➢ 掌握数据仓库数据挖掘原理、技术和方法,掌握建立数据挖掘应用 系统的方法,了解相关前沿的研究。
教学内容
➢ 数据挖掘、数据仓库的基本概念
▪ 数据仓库设计和应用 ▪ 数据挖掘的基本技术
• 关联分析、分类分析、聚类分析、异常分析和演化分析等;联机分析处理OLAP技术;
➢ involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.
➢ The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.

数据挖掘概念与技术(jiawei Han授课全英文ppt)_05

数据挖掘概念与技术(jiawei Han授课全英文ppt)_05
© 2006 Jiawei Han and Micheline Kamber, All rights reserved
May 16, 2013 Data Mining: Concepts and Techniques 1
Chapter 5: Mining Frequent Patterns, Association and Correlations


Initially, scan DB once to get frequent 1-itemset Generate length (k+1) candidate itemsets from length k frequent itemsets Test the candidates against DB Terminate when no frequent or candidate set can be generated

Min_sup = 1.
<a1, …, a100>: 1 < a1, …, a50>: 2

What is the set of closed itemset?


What is the set of max-pattern?

<a1, …, a100>: 1 !!
Data Mining: Concepts and Techniques 8

Pattern analysis in spatiotemporal, multimedia, timeseries, and stream data
Classification: associative classification

韩家炜_数据挖掘:概念与技术-第2章ppt

韩家炜_数据挖掘:概念与技术-第2章ppt

众数
• 众数是另一个衡量中心性的测量。众数是 一系列数据中出现频率最高的值。 • 众数可以是定性的也可以是定量的属性。 有可能好几个不同的值都出现大量的频率, 导致众数不止一个。众数有1个、2个、3个 的分别称为unimodal(单峰值), bimodal (二峰值), trimodal(三峰值). • 一个极端的例子,如果每隔数据值都仅出 现一次,则没有众数。
• 举例:例子2.6中有2个众数:52和70.
• 对于单峰值的数值型数据来说,数据是适 度偏斜的(不对称),有一下的经验性关 系: • 这表明,如果平均数和中值已知,适度倾 斜的单峰频率曲线的众数可以近似得到。
中列数
• 中列数是数据集中最大值和最小值的平均 值。可以用来评估数值型数据的中心性趋 势。 • 利用sql语言的聚集函数max()和min()很容易 计算。 • 举例:例2.6中,中列数是:30+110/2=70.
第二章 了解你的数据
2014.10
目录
• • • • • 2.1 数据对象和属性类型 2.2 数据的基本统计描述 2.3 数据可视化 2.4 衡量数据相似性和相异性 2.5 总结
• 2.1 Data Objects and Attribute Types
– – – – – – 2.1.1 What is an Attribute? 2.1.2 Nominal Attributes 2.1.3 Binary Attributes 2.1.4 Ordinal Attributes 2.1.5 Numeric Attributes 2.1.6 Discrete versus Continuous Attributes
• 根据Chebyshev’s 不等式,至少 (11/k2)*100%的数据不会远离均值的K个标准 差的范围。所以,标准差是一个很好的衡 量数据分散度的指标。

数据挖掘课件.

数据挖掘课件.

欺骗性检测和管理(1)

应用

广泛应用于医疗系统, 零售系统,信用卡服务, 电信(电 话卡欺骗行为), 等等. 利用历史性数据建立欺骗性行为模型并使用数据挖掘 帮助识别同类例子 汽车保险:检测出那些故意制造车祸而索取保险金的 人 来路不明钱财的追踪: 发现可疑钱财交易(美国财政部 的财政犯罪执行网) 医疗保险: 检测出潜在的病人,呼叫医生和证明人

了解应用领域:

相关的预备知识和应用目标

创建一个目标数据集:数据选择 数据清理和预加工(可能占用60%精力) 数据变换:

发现有用的特征,维/变量的变换,常量的表示
汇总,分类,关联,聚集

选择数据挖掘功能


选择挖掘算法 数据挖掘:搜索兴趣模式 模式评估和知识表达

可视化,变形,去掉冗余模式等等

其他应用


文本挖掘(新闻组,电子邮件,文件) 和WEB分 析 智能询问回答
市场分析和管理(1)

用于分析的数据从何来?

信用卡交易,信誉卡,折扣券,用户投诉电话,公众 生活方式调查。 找出具有相同特征(兴趣,收入水平,消费习惯等等) 的“模式”顾客群。 从单独银行账户向联合银行账户的转变。例如:结婚 不同产品之间的销售关联关系 在此关联信息上进行预测
数据挖掘功能(2)

分类和预测




找出描述并区分数据类和概念的模型(或函数)以便 能够使用模型预测类标记未知的对象类。 例如:依据气候划分国家类型或者依据每里的耗油量 划分汽车类型。 表示形式:判定树,分类规则,神经网络。 预测:预测某些未知的或空缺的数据值。 类标记未知:把数据聚类或分组成新的类,例如:把 房子聚类来找出房子的分布模式。 聚类依据以下原则:最大化类内的相似性和最小化类 间的相似性。

韩家炜-数据挖掘概念与技术-第2章.pptx

韩家炜-数据挖掘概念与技术-第2章.pptx

属性描述一个顾客对象,
如:顾客ID,姓名,地址。
对给定的属性的可观察值被称为 观察。刻画一个给定对象的属性集合被称
为属性向量(或特征向量 )。
第4页/共44页
包含单个属性的数据分布被称为单变量的分布;包含 2个属性的被称为二变量的分布。
属性的类型是有属性可取的值决定的,有名词、二进制型、顺序值或者数值类型。
• 2.5 Summar y
第2页/共44页
2.1 数据对象和属性类型
数据集是由数据对象构成的。一个数据对象表示一个实体 —— 在销售数据库中,对象可以是顾客、
商品或者销售记录。在医学数据库中,数据对象可以是病人。在大学数据库中,数据对象可以是学生、教授和
课程。
数据对象用属性来描述。
数据对象可以是一个抽样、举例、实例、数据点或者对象。如果数据对象存放在数据库中,它们是
次序属性具有次序或者级别的意义。但是相邻值的级别未知。
举例:例如饮料尺寸,可以是“小杯”,“中杯”,“大杯”。值有顺序的意义,但是不能分辨中杯比大杯大
多少。再比如,成绩等级A +, A ,A-,B+职称:助理,副教授,教授
次序属性被用来衡量无法客观衡量的属性,用主观的评估定质量。在调查中常用来排序。比如,参
数据集,如图2-2.
• 数据点称为分位点。分位点是数据分布上有规律率的间隔的数据点,将其分成相等大小的连续的数据集。
第29页/共44页
第30页/共44页
• 给定数据分布的第 K个q- 分位点x, 是至多k/q的数据值小于 x,至多q- k/q的数据值大于 x,k是大于0小于q
的整数。 共有q-1个q- 分位点。
第12页/共44页
比例尺度
比例尺度属性是数值型的,有固定的 0值。

数据挖掘——第二章认识数据PPT课件

数据挖掘——第二章认识数据PPT课件

合计
200
1
100
Mo=商品广告
定序数据:中位数(median)
• 排序后处于中间位置上的值
• 用Me表示 • 不受极端值的影响
• 主要用于定序数据,也可用数值型数据, 但不能用于定类数据
• 各变量值与中位数的离差绝对值之和最小
,即
最小 n
Xi Me
i 1
中位数
中位数位置N1 2
Me 12XNX21N2当 NX为 N2奇 1 数 当 时N为偶数时
• 定类尺度(列名尺度):按照事物的某种 属性对其进行平行的分类或分组。
– 例:人口的性别(男、女);企业的所有制性 质(国有、集体、私营等)
• 计量层次最低 • 对事物进行平行的分类 • 各类别可以指定数字代码表示 • 具有=或的数学特性 • 数据表现为“类别”
定类尺度
• 定类尺度只测度了事物之间的类别差,而对各 类之间的其他差别却无法从中得知,因此各类 地位相同,顺序可以任意改变。
四种计量尺度的比较
四种计量尺度的比较
定类尺度 定序尺度 定距尺度 定比尺度
分类(=,≠ )




排序( < ,> )



间距( + ,- )


比值( × ,÷)

“√”表示该尺度所具有的特性
四种计量尺度的区别与联系
• 高层次的计量尺度具有低层次计量尺度的全部特 性,但反之不行
• 可将高层次计量尺度的计量结果转换为低层次计 量尺度的计量结果,但不能反过来
• 对事物分类的同时给出各类别的顺序 • 比定类尺度精确 • 不仅可以测度类别差(分类),还可以测

数据挖掘ppt

数据挖掘ppt

Classification: predicting an item class Clustering: finding clusters in data Associations: e.g. A & B & C occur frequently

to facilitate human discovery
智能信息处理
32学时
费高雷 fgl@ 电子科技大学 通信与信息工程学院
教师信息

费高雷

电话:61830209 邮箱:fgl@
地址:科研楼B325
研究方向:

网络层析成像 反演理论与方法 复杂多维信息处理
提纲

引言 数据挖掘概念及必要性

DBMS capable of handling bigger DB
举例

Europe's Very Long Baseline Interferometry (VLBI) has 16 telescopes, each of which produces 1 Gigabit/second of astronomical data over a 25-day observation session
Data Mining Tasks: Clustering
salary
cluster
outlier
age
Linear Regression
y (salary) Example of linear regression
Y1
y=x+1
X1
x (age)
Major Data Mining Tasks
Data Mining Tasks: Classification

《数据挖掘基础及其应用》课件第2章

《数据挖掘基础及其应用》课件第2章

第2章 数据
3.序列数据 记录型数据与图数据都忽视了时间和空间因素,而序列 数据的特点是强调顺序关系,其信息提取与模式解释需要兼 顾顺序关系。典型的序列数据包括时间序列数据、遗传序列 数据及空间序列数据等。 (1)时间序列数据:在不同时间上收集的数据,用于描述与 刻画事物随时间变化的情况,反映了某一事物、现象等随时 间的变化状态或程度。很多计量经济学的模型也用到了时间 序列数据。
合,其中记录之间不存在明显的关联关系,而且每个记录具有 相同的属性。这些特性使得数据可以采用表格或者矩阵的 形式来展示与存储,例如关系型数据库中的数据表格都属于 记录型数据。典型的记录型数据包括表格数据、事务数据、 数据矩阵、词频矩阵等,如图2-2所示。
第2章 数据
图2-2-典型的记录型数据
第2章 数据
交易事务数据(又称购物篮数据)是一类特殊的记录型数 据,其中每一个事务(记录)包含顾客某次所购买商品的集合, 例如图2-2(b)中就是某超市5条交易事务数据,每一行表示一 条交易事务,所对应的表格记录该交易事务所包含的商品。
第2章 数据
2.图数据 图数据是指包含数据对象之间存在关联关系的数据,其 中图节点表示数据对象,边表示对应的数据对象之间存在一 定的关联关系。记录型数据对象具有都不存在关联性的特 点,而图数据比记录型数据包含更多的信息。 在生物网络中,基因采用节点表示,基因之间的相互作用 利用边来表示,如图1 8所示。
第2章 数据
定义2.6(严格定义) 相似度是一个函数f,给定数据对象a、 b,相似度函数f 刻画数据对象之间的相似程度,同时应满足如 下三个条件:
(1)非负性,即f(a,b)≥0; (2)对称性,即f(a,b) =f(b,a); (3)有界性,即f(a,b) ∈[0,1]。 相似度与相异度的区别与联系如图2-3所示。

数据挖掘概念与技术课后答案第二版

数据挖掘概念与技术课后答案第二版

数据挖掘概念与技术课后答案第二版第一章:数据挖掘概论1.什么是数据挖掘?数据挖掘是一种通过从大量数据中发现隐藏模式、关系和知识的方法。

它将统计学、机器学习和数据库技术结合起来,用于分析海量的数据,并从中提取出有用的信息。

2.数据挖掘的主要任务有哪些?数据挖掘的主要任务包括分类、回归、聚类、关联规则挖掘和异常检测等。

3.数据挖掘的流程有哪些步骤?数据挖掘的典型流程包括问题定义、数据收集、数据预处理、特征选择、模型构建、模型评估和模型应用等步骤。

4.数据挖掘的应用领域有哪些?数据挖掘的应用领域非常广泛,包括市场营销、金融分析、生物医学、社交网络分析等。

5.数据挖掘的风险和挑战有哪些?数据挖掘的风险和挑战包括隐私保护、数据质量、误差纠正、过拟合和模型解释等。

第二章:数据预处理1.数据预处理的主要任务有哪些?数据预处理的主要任务包括数据清洗、数据集成、数据转换和数据规约等。

2.数据清洗的方法有哪些?数据清洗的方法包括缺失值填补、噪声数据过滤、异常值检测和重复数据处理等。

3.数据集成的方法有哪些?数据集成的方法包括实体识别、属性冲突解决和数据转换等。

4.数据转换的方法有哪些?数据转换的方法包括属性构造、属性选择、规范化和离散化等。

5.数据规约的方法有哪些?数据规约的方法包括维度规约和数值规约等。

第三章:特征选择与数据降维1.什么是特征选择?特征选择是从原始特征集中选择出最具有代表性和区分性的特征子集的过程。

2.特征选择的方法有哪些?特征选择的方法包括过滤式特征选择、包裹式特征选择和嵌入式特征选择等。

3.什么是数据降维?数据降维是将高维数据映射到低维空间的过程,同时保留原始数据的主要信息。

4.数据降维的方法有哪些?数据降维的方法包括主成分分析、线性判别分析和非负矩阵分解等。

5.特征选择和数据降维的目的是什么?特征选择和数据降维的目的是减少数据维度、提高模型训练效果、降低计算复杂度和防止过拟合等。

第四章:分类与预测1.什么是分类?分类是通过训练数据集建立一个分类模型,并将未知数据对象分配到其中的某个类别的过程。

数据挖掘第二章课件

数据挖掘第二章课件

五数概括
• Q1、中位数、Q3不包含两个端点,将最小 值和最大值加入,由这五个数组成的观测 值称为五数概括。 • 分布的五数概括按次序,最小、Q1、中位 值、Q3、最大值写出。
盒图
盒图 例
标准差和方差
• 方差:
• 标准差:观测值的标准差是方差的平方根。 • 标准差是发散性的度量,度量关于均值的 发散,当不存在发散时,所有观测值均等 于均值,方差为0。
• 截尾均值:丢弃高低极端值后的均值,一 般丢掉高端低端各2%。

中位数
• 中位数是有序数据的中间值。 • 如果数据是奇数,则中位数是中间值。 • 如果数据是偶数,中位数是中间两个值和它们之 间的任意值,如果是数值属性,则中位数是中间 两值的平均值。前例中位数为(52+56)/2=54。 • 插值计算中位数近似值:
第二章 认识数据
数据对象与属性类型
• 数据对象——代表一个实体 • 例如:大学数据库中,学生、教授、教务 人员等属于对象
• 数据属性——代表对象的一个特征 • 例如:学生的学号、姓名、成绩等为属性
属性
• • • • 1.属性也叫维、特征、变量。如学生学号。 2.一组属性叫属性向量或特征向量。 3.给定属性的观测值称为观测。 4.涉及一个属性的数据分布称为单变量的。 双变量分布涉及两个属性。 • 5.属性的类型分为标称的、二元的、序数的、 数值的。
离散属性和连续属性
• 离散属性 有限或无限可数个值;可以具有有效值;如 头发颜色、年龄、顾客数量均是离散的。 • 连续属性 如果不是离散的,则为连续的;又称为数值 属性;一般用浮点变量表示连续属性。
中心趋势度量
• 度量数据中心趋势 • 包括均值、中位数、众数和中列数。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.1.2 二进制属性
二进制属性是只有两个类别或状态:0和1.0一般 表示属性缺失,1表示存在。二进制属性也即bool型, 两个状态表示真和假。
举例。如,病人对象的吸烟属性,1表示吸烟, 0表示不吸烟。再比如,病人的某个医学检查结果有 两种情况。1表示结果为阳性,0表示为阴性。
如果二进制属性的两个状态是同等有价值的具 有相同的权重,则为对称的。2个属性被标为1或者0 都可以,比如性别属性的两个值男和女。
第二章 了解你的数据
2014.10
目录
• 2.1 数据对象和属性类型 • 2.2 数据的基本统计描述 • 2.3 数据可视化 • 2.4 衡量数据相似性和相异性 • 2.5 总结
• 2.1 Data Objects and Attribute Types
– 2.1.1 What is an Attribute? – 2.1.2 Nominal Attributes – 2.1.3 Binary Attributes – 2.1.4 Ordinal Attributes – 2.1.5 Numeric Attributes – 2.1.6 Discrete versus Continuous Attributes
对给定的属性的可观察值被称为观察。刻画一 个给定对象的属性集合被称为属性向量(或特征向 量)。
Байду номын сангаас
包含单个属性的数据分布被称为单变量 的分布;包含2个属性的被称为二变量的分布。
属性的类型是有属性可取的值决定的, 有名词、二进制型、顺序值或者数值类型。
2.1.2 名词属性
名词属性的值是事物的标号或者名称。 每一个值表示类别、编码或者状态。因此名 词属性被称为是分类。值没有次序信息。在 计算机领域,也可以称为枚举型。
举例如:发色和婚姻状态。发色可以是 黑色,棕色,红色,灰色,白色。婚姻状态 可以是单身、已婚、离异或者丧偶。这些都 是名词属性。
尽管名词属性是标号或者名称,但也可 以是数值的表示形式。比如,发色,可以用0 表示黑色,1表示棕色等。顾客ID可以是数字。
但是,在这种情况,数字并不被当成数值来 使用。
因为名词属性不包含任何顺序信息也非 数值型,所以不用终止或者平均数去衡量这 类属性。可以使用属性最多出现的值,“众 数”来做中心性测量。
数据对象用属性来描述。
数据对象可以是一个抽样、举例、实例、 数据点或者对象。如果数据对象存放在数据库中, 它们是数据元组。即数据库中行对应数据对象, 列对应于属性。
2.1.1 什么是属性?
一个属性是一个域,表示一个数据对象的一个 特征。
“属性”、“维度”、“特征”和“变量”这 些词在语义上是可交换的。“维度”通常被用在数据 仓库中,机器学习中倾向于使用“特征”;统计学倾 向使用“变量”,数据挖掘和数据库经常使用“属 性”。 属性描述一个顾客对象,如:顾客ID,姓名, 地址。
• 2.2 Basic Statistical Desciptions of Data • 2.3 Data Visualization • 2.4 Measuring Data Similarity and Dissimilarity • 2.5 Summary
2.1 数据对象和属性类型
数据集是由数据对象构成的。一个数据对 象表示一个实体——在销售数据库中,对象可以 是顾客、商品或者销售记录。在医学数据库中, 数据对象可以是病人。在大学数据库中,数据对 象可以是学生、教授和课程。
次序属性被用来衡量无法客观衡量的属性, 用主观的评估定质量。在调查中常用来排序。比 如,参与者作为顾客,他们的满意度可以是:0: 非常不满意,1 有点不满意,2 中立 3 满意 4 很 满意
把数值数据离散化,把它们按照值的范 围分类,也可以得到次序属性的数据。
次序属性的中心性可以用众数和中值来 衡量,但是不能计算平均数。
• 离散值可能是数值型的,比如二进制的0和1, 年龄的0到110.
• 一个属性是可数无限的如果可能的值集合是无 限的但是值和自然数有一一对应的关系。比如, 顾客ID是可数无限的。邮政编码也是。
• 如果值不是离散的,则是连续的。数值属 性或者连续属性是含义上是一样的。
2.2 数据的基本统计描述
• 为了更好的做数据预处理,对数据有整体 的了解很关键。基本的统计描述能鉴别数 据,分辨出噪声和离群点。
举例:温度属性是间隔尺度。20摄氏度高于15 摄氏度。日历也是间隔尺度,以及年份。
Celsius和Fahrenhet是两个温度,没有绝对0点, 并且我们能计算温度的差值,但是不能说一个值是另 一个值的多少倍,例如10摄氏度比5摄氏度温暖2倍。
间隔尺度是数值型的,可以计算平均值,中值 和众数。
比例尺度
名词属性、二进制属性和次序属性都是 定性的。它们在描述一个对象的特征时不给 出具体的尺寸和数量。值通常是一个词表示 类别,即使以整数的方式表现,也不是表示 数量。
2.1.5 数值型属性
• 数值型属性是定量的,是可测量的数值, 为整数或实数。分为间隔尺度和比例尺度。
间隔尺度属性
间隔尺度使用同等大小的单元来衡量。间隔尺 度属性有大小,可以是正,0或者负值。除了能对属 性值排序,还可以比较和衡量不同值的差值大小。
如果两个状态不是同等重要的,则为非对称的。 比如HIV检查的结果呈阴性和阳性。通常,用1表示更 重要的通常是更稀少的结果,其他的用0表示。
2.1.4 次序属性
次序属性具有次序或者级别的意义。但是 相邻值的级别未知。 举例:例如饮料尺寸,可以是“小杯”,“中 杯”,“大杯”。值有顺序的意义,但是不能分 辨中杯比大杯大多少。再比如,成绩等级A+, A,A-,B+职称:助理,副教授,教授
比例尺度属性是数值型的,有固定 的0值。
如果一个测量是比例尺度,则可以以比 率来衡量两个值,也可以计算值的差值,以 及中值,均数和众数。
例如:Kelvin温度有一个真正的0点。另 外,计数属性,经验年数,单词个数,体重, 身高,速度,货币都是比例尺度。
2.1.6 离散和连续属性
• 离散属性有有限的或者可数的值集合,可能不 能表示为整数。例如发色,是否吸烟,医学检 查结果,饮料尺寸,都有有限的值,因此是离 散的。
相关文档
最新文档