第02章 数据仓库原理
数据库原理二
2.2.3 关系的形式化定义
由该例可知,关系是笛卡儿乘积的任意子集,但从实际应 用中,只有取某个子集才有实际意义。 一般说来,关系是从笛卡儿积中选取的有意义的子集。 定义2.4 定义在域D1,D2,…Dn(不要求完全相异)上的关 系由关系头(Heading)和关系体(Body)组成。关系头由 属性名的A1,A2,…An的集合组成,每个属性Ai正好对应 一个域Di(i=1,2,…n);关系体由随时间变化的n个元组 的集合构成,每个元组依次由一组属性值构成。
3.
三类完整性约束
2.2 关系数据结构及形式化定义
“关系”——“规范二维表”(非形式化) “关系”的理论建立在集合代数理论的基 础之上
2.2.1 域
定义2.1:域(Domain)是值的集合。(值域) – 在关系中用域来表示属性的取值范围 – 域中所包含的值的个数称域的基数(用m表示) 例:D1={李平,张红,王钢} D2={男,女} D3={17,18,19} m1=3 m2=2 m3=3
2.3 关系的完整性
关系模型的三类完整性: 三类完整性是实体完整性、 三类完整性是实体完整性、参照完整性和用户 定义的完整性(其中前两类完整性是所有关系 定义的完整性( 模型必须满足的约束条件) 模型必须满足的约束条件) 1. 实体完整性 在关系中,要求主码的值不能为空值或部分为 空值的约束条件(即主属性不能取空值)称为 实体的完整性。
数据仓库与数据挖掘技术 第二章 数据仓库
第2章数据仓库2.1数据仓库的基本概念
1. 数据仓库的数据是面向主题的
数据仓库与数据挖掘技术
图2-1主题间的重叠关系
2. 数据仓库的数据是集成的
3. 数据仓库的数据是不可更新的
数据仓库与数据挖掘技术4. 数据仓库的数据是随时间不断变化的
图2-2数据仓库体系结构2.2数据仓库的体系结构
数据仓库与数据挖掘技术
图2-3数据仓库数据组织结构2.2.1元数据
1. 元数据在数据仓库中的作用
2. 元数据的使用
3. 元数据的分类
4. 元数据的内容
2.2.2粒度的概念
1. 按时间段综合数据的粒度
2. 样本数据库
2.2.3分割问题
1. 分割的优越性
2. 数据分割的标准
3. 分割的层次
2.2.4数据仓库中的数据组织形式
1. 简单堆积结构
图2-4简单堆积结构数据组织形式2. 轮转综合结构
数据仓库与数据挖掘技术
图2-5轮转综合结构数据组织形式3. 简单直接结构
图2-6简单直接结构数据组织形式4. 连续结构
图2-7连续结构数据组织形式
数据仓库与数据挖掘技术
2.3数据仓库的数据模型
2.3.1概念数据模型
图2-8商品、顾客和供应商E-R图
2.3.2逻辑数据模型
2.3.3物理数据模型
2.3.4高层数据模型、中间层数据模型和低层数据模型
1. 高层数据模型
2. 中间层数据模型
3. 低层数据模型
数据仓库与数据挖掘技术2.4数据仓库设计步骤
图2-9数据仓库设计步骤2.4.1概念模型设计
1. 界定系统边界
2. 确定主要的主题域
3. 实例
2.4.2技术准备工作
2.4.3逻辑模型设计
1. 分析主题域
2. 划分粒度层次
3. 确定数据分割策略
第02章 数据仓库原理
2.2 数据预处理
2.2.2 数据变换 1、数据聚集
对数据按照管理或挖掘需要进行汇总。 如果希望分析客户的经济背景情况对购买能力的影响,只需要
关心客户消费的金额,而不需要了解客户购买了什么商品以 及商品的数量、价格等信息。 2、数据概化 用较高层次的数据代替较低维度层次的数据称为数据的概化 (data generalization),也翻译为数据概括。比如用“时”或 “日”的数据来替换“秒” 和“分”的数据。 3、数据规范化 将原始数据按照一定的比例缩放,使之落入一个特定的区间。
在数据准备时只选择其中之一,或者选择属性X,或者选择它相 关的属性。
第8 页
2.2 数据预处理
2、空值的处理 对原始数据中没有登记或没有输入的属性值——空值,使
用某种对其进行补充或删除等预处理。 ① 人工填补:优点是能够得到比较真实的数据,但通常人力耗
费很大,而且速度较慢。 ② 忽略记录:即将有空值的记录删除。 ③ 忽略属性:删除具有空值的列。 ④ 使用默认值:用一个固定的常数unknown或者*来填补。 ⑤ 使用平均值:用所有非空非空值的平均值来填补。 ⑥ 使用预测值:用一定的预测方法,计算得到空值属性最有可
第3 页
2.1多数据源问题
(4) 数据不完整:某些属性的值可能是缺失的,甚至是错误 的数据。用户在登记注册时通常输入昵称等作为姓名。 (5)噪声数据:噪声是指测量数据时遇到的随机或其它不确定 性因素,它导致被测量的数据产生了偏差或错误,称这种含 有偏差或错误的数据为噪声数据。 (6) 高维数据:为较全面的描述实体,原始数据通常都使用 了较多属性。比如,在常住人口数据库中,描述公民的基本 信息就有128个属性。 (7) 模式不统一:即将集成为单一数据集的多个数据源的模 式不同。比如,“常住人口数据”和“暂住人口数据”两张 表,前者有128个属性,后者也有98个属性。 (8) 数据不平衡:即数据集中某一类样本的数量明显少于其 它类型样本的数量。
第二章数据仓库的分析
粒度划分策略
双重粒度并且仔细 设计
10,000,000
双重粒度
1,000,000
仔细设计
100,000
不考虑
第25页,本讲稿共46页
(2) 确定粒度的级别
• 在数据仓库中,需要考虑这样一些因素:要接受的分析类型、 可接受的数据最低粒度、能够存储的数据量。
• 计划在数据仓库中进行的分析类型将直接影响数据仓库的划分。 将粒度的层次定义越高,就越不能在该仓库中进行更细致的操 作。 数据仓库通常在同一模式中使用多重粒度。数据仓库中,可以 有今年创建的数据粒度和以前创建的数据粒度。这是以数据仓 库中所需的最低粒度级别为基础设置的。
• 接着,计算索引数据所占的空间。每个表的索引存储空间, 只要估算出键码的占用字节数与索引的行数,便可计算出来。
• 这样,每个表每年的存储空间就可以用表的存储空间与相应 的索引空间之和表示。
然后估算其最长的保留年数所需要的存储空间。
第23页,本讲稿共46页
(1) 数据粒度的划分
• 在计算出数据仓库所需要占用的存储空间之后,需要根据 所需要的存储空间大小确定是否划分粒度?如果需要划分, 又应该怎样划分?
第22页,本讲稿共46页
(1) 数据粒度的划分
• 计算每个表的存储空间,应该是每一个表的数据存储空间和 索引存储空间之和。
• 精确计算表的每年实际存储空间往往是很难的,只能给出表 的最大估算空间和最小估算空间。为此,需要估算每个表每 年需要最多的行数和最少的行数,然后,估算出每行占用空 间的最大字节数和最小字节数。
数据库原理第2章
2.交 2.交
关系R和关系S的交记为RS,结果仍为n 关系R和关系S的交记为RS,结果仍为n目 关系。由既属于R又属于S 关系。由既属于R又属于S的元组组成。
3.差 3.差
数据库系统基础
19
§2.2关系运算 2.2关系运算 关系是由若干个元组组成,每个元组 有若干个属性。关系的基本运算有两 类:
一类是传统的集合运算(并、交、差 等); 一类是专门的关系运算(选择、投影、 联接等)有些查询需要几个基本运算的 组合。
数据库系统基础 20
一、传统的集合运算
1.并 1.并
数据库系统基础 4
(张辉,女,助教),(李晓云,男,副教 授),(李晓云,男,讲师),(李晓云, 男,助教),(李晓云,女,副教授), (李晓云,女,讲师),(李晓云,女,助 教),(王东,男,副教授),(王东,男, 讲师),(王东,男,讲师),(王东,男, 助教),(王东,女,副教授),(王东, 女,讲师),( 王东,女,助教)} 王东,女,助教)}
数据库系统基础 17
3)用户定义的完整性 实体完整性和参照完整性用于任何关系数 据库系统。用户定义的完整性则是针对某 一数据库的约束条件,由应用环境决定。 它反映某一具体应用所涉及的数据必须满 足的语义要求。
数据库原理二章节关系数据库
可扩展性
关系数据库具有良好的可扩 展性,能够处理大规模数据 集,支持并发控制和事务处 理。
关系数据库的体系结构
数据存储层
负责数据的物理存储和检索,包括磁盘存储、 内存缓存等。
语言处理层
负责解析和执行结构化查询语言(SQL)语 句,包括查询优化、语义检查等。
事务处理层
负责管理事务的开始、提交和回滚,确保数 据的完整性和一致性。
统的功能和性能要求。
逻辑设计
逻辑设计是将概念设计转换为数据库 管理系统所支持的逻辑结构,包括表、
视图、索引等。
概念设计
概念设计是根据需求分析的结果,使 用概念模型(如实体-关系模型)对 数据库的概念结构进行设计。
物理设计
物理设计涉及为数据库选择适当的存 储结构和存储参数,以提高查询性能 和数据管理效率。
RDBMS的常见产品
MySQL
流行的开源关系数据库管理系统,广泛应用于Web开发。
PostgreSQL
强大的开源关系数据库管理系统,支持多种功能和扩展。
Oracle
商业关系数据库管理系统,广泛应用于企业级应用。
SQL Server
微软开发的关系数据库管理系统,与Windows操作系统紧密集成。
RDBMS的性能优化
数据库模式
数据库模式是数据库中数据的组 织形式,包括表、视图、索引等 对象。数据库模式的设计目标是 确保数据的完整性和安全性。
第二章数据仓库原理
事实表、维表举例
而维表主要存维度信息,不存放数据信息,如机 构维表、日期维表。如机构维表: 统计日期 机构代码 机构名称 20080930 XXXXX1 北京分行 20080930 XXXXX2 上海分行 20080930 XXXXX3 重庆分行 事实表通过关联维表得到相关机构的信息,机构 信息很多,这里没有全部列出,这也是为什么要 分事实表和维表的原因。
3Fra Baidu bibliotek
2.1.1 数据仓库结构
数据仓库与数据库的区别: 数据库面向事务:围绕公司功能性应用 进行组织。强调要做什么!! 如:保险公司可能的应用有汽车保险,
人寿保险,健康保险,财产保险等。
4
2.1.1 数据仓库结构
数据仓库与数据库的区别:
面向主题:公司面对的对象。强调对什么做!!如:
保险公司可能的对象(主题域)是顾客,保险单,
数据源于中 央数据仓库
17
2.1.3 数据仓库系统结构
数据仓库系统由数据仓库( DW)、仓库管理和分 析工具三部分组成。
18
2.1.3 数据仓库系统结构
数据仓库系统由数据仓库( DW)、仓库管理和分 析工具三部分组成。
19
1、仓库管理
仓库管理包括:数据建模、ETL、元数据和系统管理 (1)数据建模
30
2.2 数据仓库的数据模型
数据库原理 第二章:关系数据库
数据库原理第二章:关系数据库在数据库领域中,关系数据库是一个至关重要的概念。它不仅是数
据库管理系统的核心组成部分,也是众多应用系统存储和处理数据的
基础。
关系数据库的基本概念是基于关系模型建立的。那什么是关系模型呢?简单来说,关系模型把数据看作是一张张二维表格。这些表格有
着明确的行和列结构。每一行代表一个数据记录,而每一列则代表一
个数据属性。
比如说,我们有一个学生信息表,其中可能包含学号、姓名、年龄、性别、班级等列。每一行就是一个具体学生的信息。这种表格形式的
设计使得数据的组织和管理变得清晰和规范。
关系数据库的一个重要特点是数据的完整性约束。这意味着数据库
中的数据必须满足一定的规则和条件,以确保数据的准确性和一致性。
例如,在学生信息表中,学号必须是唯一的,不能有两个学生拥有
相同的学号。年龄必须是合理的数值,不能是负数或者过大的数字。
性别只能是“男”或者“女”等。这些约束条件有助于防止错误的数据进入数据库,保证数据的质量。
关系数据库中的关系运算也是非常关键的部分。常见的关系运算包
括选择、投影、连接等。
选择运算就像是从一个大表格中筛选出符合特定条件的行。比如,
我们要找出年龄大于 20 岁的学生记录,这就是一个选择运算。
投影运算则是从表格中选取特定的列。假设我们只需要学生的学号
和姓名,那么通过投影运算就可以得到只包含这两列的新表格。
连接运算用于将两个或多个相关的表格组合在一起,以获取更全面
的信息。比如,我们有一个学生成绩表和学生信息表,通过连接运算,可以将学生的基本信息和他们的成绩关联起来。
第2章 数据仓库系统
数 据 仓 库 结 构
综当合前数基据本到数高据度综(C合ur数ren据t 的De综ta合il D算a法ta)的;选择;
2.1
元历数史据基至本少数包据括以(O下ld一er些De信ta息il :Data);
数轻据度结综构合;数据 (Lightly Summarized Data);
用高于度综综合合的数算据法(;Highlysumma-rlzed Data);
数据仓库兼备数据集成和数据分析的功能,既 是对企业原有应用系统缺陷的更正,又是对原有系 统的升华。
11
数据仓库系统是多种技术的综合体,它由数据
仓库 (DW)、数据仓库管理系统 (DWMS)、数据仓
库工具三个部分组成。
数 据
仓
在整个系统中,数据仓库居于核心地位,是信
库 系
统
息挖掘的基础;数据仓库管理系统负责管理整个系 结
⑵ 进行分割 (分类)
6
分割是数据仓库中的另一个重要概念。是指把
逻辑统一的数据分割成较小的、可以独立管理的物
理单元 (类) 进行存储, 以便重构、重组和恢复。数
数 据
据分割后的数据单元称为分片。
仓
库
数据分割的理由
系 统
在进行实际的分析处理时, 对于存在某种相关
结 构
性的数据集合的分析是最常见的, 如对某一时间或
第二章 数据仓库原理
集成的
数据是分散的;由于事务处理应用分散、蜘蛛 网问题、数据不一致问题、外部数据和非结构 化数据。
数据仓库中的数据是为分析服务的,而分析需 要多种广泛的不同数据源以便进行比较、鉴别, 因此数据仓库中的数据必须从多个数据源中获 取,这些数据源包括多种类型数据库、文件系 统以及Internet网上数据等,它们通过数据 集成而形成数据仓库中的数据。
数据仓库的运行结构
应用服务器
数多据层仓库数服据务器仓库结构
元数据
多维数据服务器
客户端
数据仓库数据
•数据逻辑 •数据服务 •元数据 •文件服务
•过滤 •总结 •元数据 •多维视图 •数据访问
•图形用户接口 •查询规范 •数据分析 •报表格式 •数据访问
2.4 数据组织结构和形式
典型的数据仓库的数据组织结构
优点:组织方式简单、花费少、使用灵活;
缺点:只有当源数据库的数据组织比较规范、 没有数据不完备及冗余,同时又比较接近多维 数据模型时,虚拟数据仓库的多维语义才容易 定义。而在一般的数据库应用中,这很难做到。
基于关系表的存储方式
将数据仓库的数据存储在关系数据库的表结 构中,在元数据的管理下完成数据仓库的功 能。
但这也不等于数据仓库中的数据不需要‘更新’操作。 在需要进行新的分析决策时,可能需要进行新的数据抽 取和‘更新’操作 数据仓库中的一些过时的数据,也可以通过‘删除’操 作丢弃掉。
数据库原理及应用第2章课后习题答案
习题2
1、试述概念模型的作用。
概念层数据模型,也称为概念模型或信息模型,它是从数据的应用语义角度来抽取模型,并按照用户的观点来对数据和信息进行建模,这类模型主要用于数据库设计阶段,它与具体的数据库管理系统无关。
概念模型一方面应该具有较强的语义表达能力,能够方便、直接地表达应用中的各种语义知识,另一方面它还应该简单、清晰、易于用户理解,它是用户和设计人员交流的工具。
2、解释“三个世界”之间的联系。
从客观世界、信息世界到数据世界是一个认识的过程,也是抽象和映射的过程。
在计算机数据库中存储的数据,是经过两级抽象而来的,并且反映的是现实世界的有关信息。现实世界的复杂事物经过两级抽象的结果就是数据模型。而抽象的过程是先将现实世界抽象为信息世界的实体模型,然后再将实体模型经过二级抽象得到数据库系统支持的数据模型。
3、定义并解释下列术语。
1)实体
客观存在并可相互区别的事物称为实体(Entity)。实体可以是具体的人、事、物,也可以是抽象的概念或联系。
2)实体型
具有相同特征的实体称为实体型(Entity Type)。
3)实体集
同属于一个实体型的实体的集合称为实体集(Entity Set)。
4)属性
属性(Attribute)就是描述实体的特性或性质的数据。
5)码
能够唯一标识一个实体的属性或属性集称为码(Key)。如果码是由几个属性构成的,则其中不能有多余的属性。即必须是几个属性全部给出才能唯一标识一个实体。码是区别实体集中不同实体的关键属性,也称为关键字或键。
6)实体-联系图:采用图形的形式描述实体-联系模型称为实体-联系图。
数据库原理第二章.
31
公司编号
公司名
地址
公司
1
仓库编号 仓库名 地址
隶属
N
仓库
1
聘期 聘用 工资
N
职工
32
职工编号
姓名
性别
例题2
某研究所有若干个研究室,每一个研究室有一名负责 人和多个研究人员,每个研究人员只属于一个研究室。 研究所承接了多个科研项目,每个科研项目有多个科 研人员参加,每个科研人员可以参加多个科研项目。 (1)试画出ER图,并在图上注明属性、联系的类型
40
N
仓位
M
M
车间
M
入库 P
存储 P N 产品
出库
N
客户 N
订单
M P 销售员
41
练习
假设要为某汽车货运公司的管理信息系统建立一个数据库, 对车辆、司机、维修、保险和报销等信息和业务活动进行 管理。该公司的业务管理规则如下: 1)该公司有若干个车队,分别属于不同的部门管理 2)每个车队有若干车辆和汽车司机 3)车辆和司机分别在不同的保险公司里投保 4)车辆由若干汽车维修公司进行维修 5)每辆汽车需记载开支情况 试为该数据库设计其ER模型。
实体 属性 联系
实体
具有公共性质的可相互区分的现实世 界对象的集合。 可以是具体的事物,也可以是抽象的 概念或联系
具体的事物:学生、课程、职工
数据库原理第2章PPT课件
结果:
41
投影(续)
Sname Sdept
李勇
CS
刘晨
IS
王敏 MA
张立
IS
42
投影(续)
[例4] 查询学生关系Student中都有哪些系 πSdept(Student)
合。
15
2.4 关系代数
概述 传统的集合运算 专门的关系运算
16
2.4.1 传统的集合运算
并 差 交 广义笛卡尔积
17
1. 并(Union)
R和S
具有相同的目n(即两个关系都有n个属性)
相应的属性取自同一个域
R∪S
仍为n目关系,由属于R或属于S的元组组成 R∪S = { t|t R∨t S }
13
概述(续)
(3) tr ts R为n目关系,S为m目关系。tr R,tsS, tr ts称为元组的连接。它是一个n + m列的元 组,前n个分量为R中的一个n元组,后m个 分量为S中的一个m元组。
14
概述(续)
4)象集Zx 给定一个关系R(X,Z),X和Z为属性组。当 t[X]=x时,x在R中的象集(Images Set)为: Zx={t[Z]|t R,t[X]=x} 它表示R中属性组X上值为x的诸元组在Z上分量的集
《数据库原理》课件1第二章 数据库系统结构
学生关系模式 S(SNO,SNAME,AGE,SEX,SDEPT) 课程关系模式 C(CNO,CNAME,CDEPT,TNAME) 学习关系模式 SC(SNO,CNO,GRADE)
SNO
SNAME
AGE
SEX
SDEPT
S1
程宏
19
男
计算机
S3
刘莎莎
18
女
通讯
S4
1.二元联系: 两个不同实体集的实体之间的联系: 1:1联系 1:n 联系 m:n联系
1. 二元联系:两个不同实体集实体之间的联系: 1:1联系: 1:n 联系: m:n联系:
1. 概念数据模型--实体联系模型(ER模型) 独立于计算机系统的模型,用于建立信息世界的数据模型。
收银员
商品
P
N
顾 客
销售
M
数量
三元联系:
商 店
商 品
仓 库
进货
P
N
M
数量
三元联系:
建立ER模型的步骤如下: 首先确定实体类型和联系类型, 接着把实体类型和联系类型组合成ER图; 然后确定实体类型和联系类型的属性, 再确定实体类型的键,在属于键的属性名 下划一横线。 举例: (板书举例)
第二章 数据库系统结构
教学内容: 数据描述: 数据模型: 数据库管理系统(DBMS)
数据库原理 第2章
H(M)
H 930206151063
报 文 摘 要 的 使 用 方 法
M H
M E H(M) K 传送 D
M
H(M)’ H H(M) 比较
K
(a) 传送EK[M||H(M)]
M H H(M) K E M 传送 M H(M)’ H K D
H(M) 比较
(b)传送M||EK[H(M)]
M H H(M) SKA E M 传送 M H(M)’ H PKA D
M Hash functions were introduced in cryptology in the Iate seventies as a tool to protect the authenticity of information. Soon it became clear that they were a very useful building block to solve other security problems in telecommunication and computer networks. This paper sketches the history of the concept, discusses the applications of hash functions, and preents the approaches that have been followed to construct hash functions.
第二章 数据仓库原理09
是要解决:何人在何时、何地为了什么原
因怎样使用DW的问题。
数据的下钻:是指从某维上汇总数据深入到细节数 据进行观察。
• Eg:指定“商店=广州所有商店”,(行为 部门,列为时间和销售量)如表所示,表 中无括号数为增长率,有括号表示下降率。
• 对于汽车部门出现的奇怪现象,销售下降 了13.2%,而利润却增加了21.4%,此时分析 是什么原因?
项目 2004年
• 分三种类型:最初装载、增量装载和完全 刷新。
2.5 元数据
一 概念 元数据是关于数据的数据。
二 分类和组成
根据元数据在DW中所承担的任务,将元数据 分为:
静态元数据---与数据结构有关。 动态元数据---与数据的状态和使用方法有关。
• 静态元数据包括:名称,描述,格式,数据 类型,关系,来源,域,业务规则等.
• 统计信息:统计了数据访问的用户、访问对象、 访问时间和访问次数。这些信息对于DW性能的 提高具有较高的参考价值。
• 存储位置:说明数据存储在哪一位置.
• 存储大小:说明该数据所需要的存储量的大小.
• 引用处:说明引用该数据的一些操作.
• 按用途分:管理元数据
•
用户元数据
• 从元数据 的类型和作用看,元数据实际上
iii) 多维分析
是指对多维数据集中的数据用切片、切 块和旋转等等方式分析数据,使用户能够 多角度、多侧面地去观察数据仓库中的数 据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.3 E-R模型
1、E-R模型中的基本概念
(1) 实体(Entity):客观存在并可相互区别的事物 。
(2) 属性(Attribute):描述实体的每一个特征。姓名、性别
标准差也被称为标准偏差,或者实验标准差,简单来说,标准 差是一组数据平均值分散程度的一种度量。假设有一组数值 X₁,X₂,X₃,......Xn(皆为实数),其平均值(算术平均值)为 μ,公式为:
第 19 页
2.2 数据预处理
(3) 小数定标规范化 小数定标规范化(decimal scaling normalization)通过移动属
第3 页
2.1多数据源问题
(4) 数据不完整:某些属性的值可能是缺失的,甚至是错误 的数据。用户在登记注册时通常输入昵称等作为姓名。 (5)噪声数据:噪声是指测量数据时遇到的随机或其它不确定 性因素,它导致被测量的数据产生了偏差或错误,称这种含 有偏差或错误的数据为噪声数据。 (6) 高维数据:为较全面的描述实体,原始数据通常都使用 了较多属性。比如,在常住人口数据库中,描述公民的基本 信息就有128个属性。 (7) 模式不统一:即将集成为单一数据集的多个数据源的模 式不同。比如,“常住人口数据”和“暂住人口数据”两张 表,前者有128个属性,后者也有98个属性。 (8) 数据不平衡:即数据集中某一类样本的数量明显少于其 它类型样本的数量。
第 11 页
2.2 数据预处理
① 等深分箱法:把数据集中的数据按照排列顺序分配到k个箱子 中(k=1,2,…,k)。
当k整除n时,令p=n/k,则每个箱子都有p个数据,即 第1个箱子的数据为:a1,a2,…,ap; 第2个箱子的数据为:ap+1,ap+2,…,a2p; 第k个箱子的数据为:an-p+1,an-p+2,…,an;
当k不能整除n时,令p=n/k,q=n-k*r,则可让前面q个箱 子有p+1个数据,后面k-q个箱子有p个数据,即 第1个箱子的数据为:a1,a2,…,ap+1; 第2个箱子的数据为:ap+2,ap+3,…,a2p+2;; 第k个箱子的数据为:an-p+1,an-p+2,…,an;
也可让前面k-q个箱放p个数,后面q个箱放p+1个数据。
第 17 页
2.2 数据预处理
(1) 最小-最大规范化 最小-最大规范化(MIN-MAX normalization)假设数据的取值
区间为[OldMin, OldMax],并把这个区间映射到新的取值区 间[NewMin, NewMax]。 这是一个线性变换过程,变量被映射到新区间的值通过下面的 公式计算得出。 x[OldMin, OldMax],唯一x’[NewMin, NewMax],
性值的小数点位置进行规范化。 小数点移动的位数根据属性的最大绝对值确定。 对样本集中任一数据点x,其小数定标规范化为 其中,α是使Max(|X’|)<1的最小整数。
第 20 页
2.2 数据预处理
2.2.3 数据归约 数据归约(data reduction)(也称为数据约简):用精简数据表
示原始数据的方法,且归约后数据量通常比原始数据小很多 ,但具有接近甚至等价于原始数据表达的信息。 1、维归约(dimensionality reduction) 减少描述问题的随机变量个数或者数据集的属性个数,后者又 称属性约简(attributes reduction) 。 2、数量归约(numerosity reduction) 用较少的数据表示形式替换原始数据。 3、数据压缩(data compression) 使用变换方法得到原数据的归约或“压缩”表示,图像压缩技 术就是一种典型的数据压缩方法。
第 13 页
2.2 数据预处理
② 等宽分箱法。把数据集最小值和最大值形成的区间分为k个左 闭右开的子区间(最后一个除外)I1,I2,…,Ik。如果 ai Ij就把数据ai放入第j个箱子。
例2-2:设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个 数据,请用等宽分箱法将其分成k=4个箱子。
解:A的最小值和最大值区间为[1, 11],k=4,子区间平均长 度 (11-1)/4=2.5,即
I1=[1, 3.5),I2=[3.5, 6),I3=[6, 8.5),I4=[8.5,11]。 按照等宽分箱法有B1={1, 2, 3, 3}, B2={ 4, 4, 5},
B3={6, 6, 7, 7, 8}, B4={ 9, 11}。
第 14 页
2.2 数据预处理
③ 用户自定义区间。当用户明确希望观察某些区间范围内的数 据分布时,可以根据实际需要自定义区间。
数据平滑:对每个箱子中数据进行单独重新赋值。 三种常见方法:按平均值、按边界值和按中值平滑。 ① 按平均值平滑。对同一个箱子中的数据求平均值,并用这个
平均值替代该箱子中的所有数据。 对于例2-3所得4个箱子,用这个方法平滑的结果为:
第7 页
2.2 数据预处理
③ 处理主键属性:为建立挖掘结果和原始数据之间的直接对应 关系的话,需要保留主键属性。
在数据仓库中通常还要引进一些代理关键字,即人工引入或派 生出来的关键字(详见3.4节)。
④ 派生新属性:由日期属性派生出年、季、月、周、日等多个 时间层次的时间属性。
⑤ 选择相关属性:如果属性X的值可以由另外一个或多个属性 值计算出来,称属性X和这些属性是相关的。
其中
显然,如果令NewMin=0, NewMax=1,则公式就是对原始数 据的无量纲化处理。
第 18 页
2.2 数据预处理
(2)零-均值规范化 零-均值规范化(z-score normalization)是根据属性值的平均
值和标准差进行规范化,即
其中, 为所有样本属性值的平均值,X为样本标准差。
第 15 页
2.2 数据预处理
4、不平衡数据处理 (1) 过抽样(oversampling) 在样本集中通过增加少数类的样本来提高少数类样本的数量,
最简单的办法是复制少数类样本。 这种方法的缺点是引入了额外的训练数据,会延长构建分类器
所需要的时间,没有给少数类增加任何新的信息,而且可能 会导致过度拟合。 (2) 欠抽样(undersampling) 该方法通过减少多数类样本的数量来提高少数类样本在样本集 中的比例。最简单的方法是通过随机方法,去掉一些多数类 样本来减小多数类的规模。 这种方法的缺点是会丢失多数类样本的一些重要信息,已有的 信息利用得不够充分。
能的取值。
第9 页
2.2 数据预处理
3、数据噪声处理 数据噪声(Data Noise)
一种难于解释的数据剧烈变动,它导致一组数据中某些数据 与组内其它数据出现了极大的偏差。 ① 分箱(binning):把数据集中所有数据放入不同箱子(区间)的 过程称为分箱。 一个实数区间称为一个箱子(bin),它通常是连续型数据集中最 小值和最大值所包含的子区间。 如果一个实数属于某个子区间,就称把该实数放进了这个子区 间所代表的“箱子”。 分箱技术是一种简单而常用的数据预处理方法,也是一种连续 型数值的离散化方法。
第 12 页
2.2 数据预处理
例2-1:设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个 数据, 请用等深分箱法将其分成k=4个箱子。
解:因为k=4,n=14,所以p=n/k=14/4=3,q=143*4=2。由于数据集A已排序,因此前2个箱放4个,后为2 个箱放3个数据。 第1个箱子B1={1, 2, 3, 3}, B2={ 4, 4, 5, 6,}, B3={6, 7, 7}, B4={8, 9, 11}。
B1={1, 2, 3, 3}平滑结果为{2.25, 2.25, 2.25, 2.25} B2={ 4, 4, 5}平滑结果为{4.33, 4.33, 4.33} B3={6, 6, 7, 7, 8, 9} 平滑结果
{7.17, 7.17, 7.17, 7.17, 7.17, 7.17} B4={11}的平滑结果为{11}。
2.2.1 数据清洗 1、数据清洗(Data cleaning)
发现并纠正数据源,即原始数据中存在的问题或错误的过 程,包括检查数据一致性,处理无效值、填补缺失值,以及 过滤掉那些不符合要求的数据等。 (1) 属性的处理:对多数据源含义相同的属性进行重命名和 统一类型长度,选择设置主键和派生属性等处理。
第4 页
2.2 数据预处理
1、数据预处理(data preprocessing) 在多数据源集成为统一数据集之前进行的数据清洗、数据
变换、数据规约等数据处理过程。 2、预处理的目的
消除多数据源集成存在的问题,为数据仓库或数据挖掘提 供一个完整、干净、准确、且有针对性的数据集合。
第5 页
2.2 数据预处理
第 10 页
2.2 数据预处理
(2) 分箱技术的步骤: ① 对数据集的数据进行排序; ② 确定箱子个数k、选定数据分箱的方法并对数据集中数据进行
分箱; ③ 选定处理箱子数据的方法,并对其重新赋值。
(3) 常用分箱方法 等深分箱、等宽分箱、自定义区间和最小熵分箱法。 (4)一般假设
箱子数为k,n(nk)个数据的数据集且按非减方式排序为 S={a1,a2,…,an)Fra Baidu bibliotek即ai[ a1, an]。
第6 页
2.2 数据预处理
① 重命名属性:对数据仓库或数据挖掘需要的属性重新赋给它 们含义明确,便于理解记忆和使用的属性名称。
数据源使用“WHCD”和“CSRQ”分别作为公民“文化程度 ”和“出生日期”的属性名。
在数据仓库中我们选用“Education” 和“Birthday”来代替 ,不仅含义明确,且可读性强,使用方便。
数据仓库与数据挖掘
第2章 数据仓库原理
第2章 数据仓库原理
2.1多数据源问题 2.2 数据预处理 2.3 E-R模型 2.4 数据仓库的概念模型 2.5 数据仓库的逻辑模型 2.6数据仓库的物理模型
2.1多数据源问题
2.1多数据源问题 1、多数据源 数据仓库和数据挖掘的数据通常来自多种数据库或计算机应 用系统或数据文件、web页面。 2、多数据源在集成的问题 (1) 数据不一致:数据的不一致性主要指数据之间的矛盾性 和不相容性。如职务升迁了,但工资数据却没有改变 (2) 属性差异:性别属性有的取“男”/“女”,长度为2;有 的取“1”/“0”,长度为1。 (3) 数据重复:数据源中存在两条或多条完全相同的记录,或 者同一个数据冗余地存在于多个数据源中。比如,某人的身 份信息同时存在于常住人口和暂住人口数据库中。
第 16 页
2.2 数据预处理
2.2.2 数据变换 1、数据聚集
对数据按照管理或挖掘需要进行汇总。 如果希望分析客户的经济背景情况对购买能力的影响,只需要
关心客户消费的金额,而不需要了解客户购买了什么商品以 及商品的数量、价格等信息。 2、数据概化 用较高层次的数据代替较低维度层次的数据称为数据的概化 (data generalization),也翻译为数据概括。比如用“时”或 “日”的数据来替换“秒” 和“分”的数据。 3、数据规范化 将原始数据按照一定的比例缩放,使之落入一个特定的区间。
在数据准备时只选择其中之一,或者选择属性X,或者选择它相 关的属性。
第8 页
2.2 数据预处理
2、空值的处理 对原始数据中没有登记或没有输入的属性值——空值,使
用某种对其进行补充或删除等预处理。 ① 人工填补:优点是能够得到比较真实的数据,但通常人力耗
费很大,而且速度较慢。 ② 忽略记录:即将有空值的记录删除。 ③ 忽略属性:删除具有空值的列。 ④ 使用默认值:用一个固定的常数unknown或者*来填补。 ⑤ 使用平均值:用所有非空非空值的平均值来填补。 ⑥ 使用预测值:用一定的预测方法,计算得到空值属性最有可
② 统一属性:确保多个数据源中对同一实体特征的描述是统一 的,包括属性的长度、类型,还有属性的值域。
数据源常住人口的性别属性名为XB,类型为字符串,长度为2 ,取值{“男”,“女”},暂住人口表属性名仍为XB,但长 度为1的字符,取值{“1”,“0”}。
在数据仓库中属性名统一为Sex,类型仍为字符,长度为1,其 属性的值域为{“1”,“0”}。