数据仓库与挖掘期末考试知识点复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘知识点(考点)复习
第6章的知识点 1.哪些学科和数据挖掘有密切联系?(P68数据挖掘关系图)
2.数据挖掘的定义(P69)
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
第7章的知识点
1.数据挖掘步骤(P74)
确定目标、数据准备、数据挖掘、结果分析
2.数据选择的内容(包括哪两部分)(P75)
属性选择和数据抽样
3.数据清理的方法(P75) 了解小规模数据、大数据集的清理方法。
小规模数据:人工清理
大数据集:自动清理(测定→识别→ 纠正)
4.常见的模式有哪些(P78)尤其是分类、回归、聚类模式之间的分析比较。
① 分类模式(用于离散值)
② 回归模式(用于连续值)
③ 聚类模式
④ 关联模式
⑤序列模式
即将数据间的关联性事件发生的顺序联系起来。
⑥时间序列模式
根据数据随时间变化的趋势预测将来的值。
5.模式的精确度(P79)
训练和测试模式需将数据分成哪两部分以及各自用途?模式准确性的测试方法及其比较。
训练和测试模式需将数据分成:一是训练数据,主要用于模式训练;另一个是测试数据,主要用于模式测试。
模式准确性的测试方法:封闭测试:测试集即训练模式的训练数据。
可测试模式的稳定性,但无法验证其推广能力。
开放测试:测试模式的数据是模式先前未见的数据。
可以很好地度量模式的准确度。
6.数据预处理的任务有哪些?(P83-89)
数据清理、数据集成和转换
7.空缺值的处理方法(P83-84)
忽略该条记录(不很有效)、手工填补遗漏值(可行性差)、利用缺省值填补遗漏值(不推荐)
数据库理论 数据仓库
数据统计 机器学习 人工智能 数据挖掘
利用均值填补遗漏、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值(较常用)
8.分箱技术(P84-86) 分箱之前要做的工作?P84 分箱之前需要对记录按目标属性值的大小进行排序
(1)要求能描述出常见的分箱方法和数据平滑方法(简答)。
分箱方法:统一权重(等深分箱法)、统一区间(等宽分箱法)、用户自定义。
数据平滑方法:按平均值平滑、按边界值平滑、按中值平滑。
(2)要求会用等深分箱法和等宽分箱法对数据进行分箱,并对分箱后的数据按指定的平滑技术来平滑。
(详见PPT )
示例:在选定的数据集中,药价属性price 排序后的值(人民币元):8 10 12 15 15 18 20 23 25 28 30 35 40 45 48 50
统一权重(等深分箱法)
设权重(箱子深度)为4,则分箱后结果是如下:
箱1:8 10 12 15
箱2:15 18 20 23
箱3:25 28 30 35
箱4:40 45 48 50
示例:在选定的数据集中,药价属性price 排序后的值(人民币元):8 10 12 15 15 18 20 23 25 28 30 35 40 45 48 50
统一区间(等宽分箱法)
设定区间范围(箱子宽度)为10元,分箱后的结果如下:
箱1:8 10 12 15 15 18
箱2:20 23 25 28 30
箱3:35 40 45
箱4:48 50
对同一箱值中的数据求平均值,然后用这个平均值代替该箱子的所有数据。
如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:
箱1:8 10 12 15 15 18 箱1:13 13 13 13 13 13
箱2:20 23 25 28 30 箱2:25.2 25.2 25.2 25.2 25.2 箱3:35 40 45 箱3:40 40 40
箱4:48 50 箱4:49 49
对箱子中每个数据,观察它和箱子两个边界值的距离,用距离较小的那个边界值代替该数据。
如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:
箱1:8 10 12 15 15 18
箱1:8 8 8 18 18 18
箱2:20 23 25 28 30 箱2:20 20 20 30 30 箱3:35 40 45 箱3:35 35 45
箱4:48 50 箱4:48 50
取箱子的中值,用来代替箱子中所有数据。
若箱子中数据个数为奇数,则取中间那个,若为偶数,则取中间两个的均值。
如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:
箱1:8 10 12 15 15 18 箱1:13.5 13.5 13.5 13.5 13.5 13.5
箱2:20 23 25 28 30 箱2:25 25 25 25 25
箱3:35 40 45 箱3: 40 40 40
箱4:48 50 箱4:49 49
9.数据规范化方法(最小-最大规范化)P88
(1)最小-最大规范化
前提条件:属性的取值范围必须已知。
下面是将属性A的取值区间[min(A), max(A)]映射到新的取值区间[a ,b]的公式:
(2)Z-score规范化(零-均值规范化或0-1规范化)
(3)小数定标规范化
第8章的知识点
关联规则部分
1.理解什么是关联规则?P90
给定案例,能判断该案例是否属于关联规则挖掘问题。
(购物篮分析:
关联:指在两个或两个以上变量取值之间所存在的某种规律性。
挖掘目的:发现依存性和关联性的规则,预测潜在关联或变量。
2.关联规则的分类(P92-93)
根据规则中所处理的项集类型来分类:1)布尔型关联规则;2)量化关联规则
根据规则中所涉及的数据维来分类:1)单维关联规则;2)多维关联规则
根据规则中所涉及的抽象层次来分类:1)单层关联规则;2)多层关联规则
根据关联挖掘的各种扩充来扩展:相关分析、最大频繁模式挖掘和频繁闭模式挖掘等
3.掌握项集或规则的支持度和置信度的计算方法(P91)详见ppt
支持度:
设项集,则X在事务集D上的支持度是包含X的事务在D中所占的百分比,即
对于关联规则,其支持度是事务集D中同时包含A和B的事务数与所有事务数的百分比,即
例子:设X={香蕉},由于包含香蕉的事务有
001,002, 003共3个,总共有4个事务,
即|D|=4,则support(X)=3/4=75%
设X={果酱面包,香蕉},由于同时包含果酱面包和香蕉的事务有001,003共2个,故
support(X)=2/4=50%
设A={果酱面包},B={酸奶},则A∪B={果酱面包,酸奶},由于包含A∪B的事务只有001共1个,所以
类似地,设A={果酱面包},B={香蕉},则A∪B={果酱面包,香蕉},则
置信度:
设,则形如的关联规则的置信度是指事务集D中同时包含A 和B的事务数与包含A的事务数的比值,即
示例: 设A={果酱面包},B={酸奶},则
A ∪B={果酱面包,酸奶},故
4.项集频率、频繁项集的定义,项集频率与项集支持度之间的关系(简答)。
(P92) 项集频率:包含该项集的事务数(即项集的支持度× 事务总数),也称为项集支持度计数。
频繁项集:频繁地在事务数据集中一起出现的项的集合
5.掌握Apriori 算法(P93-98)(综合计算题)、
例子:最小支持度计数计数为|D|*min_sup=2
假定最小置信度阈值设为70%,从第1问的结果中任意选择一个频繁3项集并算出由其产生的关联规则。
解:设最小支持度为22%,根据第一问的一个频繁项集结果:L={I1,I2,I5},且由题知最小置信度阈值min_conf=70%,由L 所对应的关联规则生成过程如下: TID
项ID 列表 T100
I1, I2, I5 T200
I2, I4 T300
I2, I3 T400
I1, I2, I4 T500
I1, I3 T600
I2, I3 T700
I1, I3 T800
I1, I2, I3, I5 T900 I1, I2,I3
(1)对于频繁项集L,确定其所有的非空真子集:s1={I1},s2={I2},s3={I5},s4={I1,I2},s5={I1,I5},s6={I2,I5}.
(2)对于L的上述每个非空真子集,逐个计算出每个非空真子集对应的规则:
S1={I1}: I1 I2^I5 confidence=2/6=33%
s2={I2}: I2 I1^I5 confidence=2/7=29%
s3={I5}: I5 I1^I2 confidence=2/2=100%
s4={I1,I2}: I1^I2 I5 confidence=2/4=50%
s5={I1,I5}: I1^I5 I2 confidence=2/2=100%
s6={I2,I5}: I2^I5 I1 confidence=2/2=100%
因此,由上面输出的相关规则如下:
规则1:I5 I1^I2 (support=22%,confidence=2/2=100%)
规则2:I1^I5 I2 (support=22%,confidence=2/2=100%)
规则3:I2^I5 I1 (support=22%,confidence=2/2=100%)
5.1 掌握Apriori算法的基本思想和执行步骤。
Apriori 算法基本思想:Apriori算法采用逐层迭代搜索方法,使用候选项集来找频繁项集。
其基本思想是: 首先找出所有频繁1-项集的集合Ll,L1 用于找频繁2-项集的集合L2,而L2 用于找L3,如此下去,直到不能找到频繁k-项集。
并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。
经过筛选可减少候选项集数,从而加快关联规则挖掘的速度。
步骤:1、从事务数据库(D)中挖掘出所有频繁项集。
支持度大于最小支持度minSup的项集(Itemset)称为频集(Frequent Itemset)。
首先需要挖掘出频繁1-项集;然后,继续采用递推的方式来挖掘频繁k-项集(k>1),具体做法是:在挖掘出候选频繁k-项集(Ck)之后,根据最小置信度minSup来筛选,得到频繁
k-项集。
最后合并全部的频繁k-项集(k>0)。
2、基于第1步挖掘到的频繁项集,继续挖掘出全部的频繁关联规则。
置信度大于给定最小置信度minConf的关联规则称为频繁关联规则(Frequent Association Rule)。
在这一步,首先需要从频繁项集入手,首先挖掘出全部的关联规则(或者称候选关联规则),然后根据minConf来得到频繁关联规则。
5.2 理解Apriori性质
Apriori性质:一个频繁项集的所有非空子集都必须是频繁的。
Apriori性质的基本原理:如果P(A)<min_sup, 那么P(A∪{i})<min_sup也成立,即A∪{i} 也为非频繁项集。
5.3 能将算法应用到数据进行计算
给定支持度,能判断哪些项集需要剪枝?
扫描事务数据库,计算Ck中每个候选项集支持度计数,将小于最小支持度阈值的候选项集进行[ 删除] ,从而确定Lk
掌握从频繁项集生成候选项集的计算过程。
Apriori算法使用了Apriori性质来产生候选项集。
任何非频繁的( k -1 ) 项集都不可能是频繁k-项集的子集。
因此,如果一个候选k-项集的( k-1 )-子集不在Lk-1 中,则该候选项集也不可能是频繁的,从而可以从Ck中删除
会计算项集的支持度。
能将整个算法流程对指定数据集完成关联规则的挖掘过程。
6.能根据排好序的事务集构造FP树(P100)
7. 能比较FP树算法和Apriori算法的异同点
Apriori算法使用Apriori性质来生成候选项集的方法,大大压缩了频繁集的大小,取得了很好的性能。
但还存在两大缺点:(1 ) 产生大量的频繁集(2 ) 重复扫描事务数据库Apriori 算法会产生大量的频繁集,当频繁1-项集L1 有1 000 个时,候选2-项集C2个数将会超过100万。
这种空间复杂度以指数形式增长,使得Apriori算法的执行效率很低,因此提出了可以有效地解决上述问题的方法—FP-tree 算法。
FP-growth算法使用压缩式数据结构——频繁模式树(FP树或FP-tree),无候选项集产生。
分类与预测部分
1.训练集与验证集的定义,以及二者的用途。
P104-105
验证集:用于对已发现的分类规律进行测试的、已分类的一组数据库记录集合,又称检验集或测试集。
训练集:一组已分类的、随机选取的数据库记录集合,是分类模型建立过程中的分析对象。
2.类标号属性与训练属性的定义,以及二者区别。
P105
类标号属性:用于确定训练集中每个数据样本所属的预定义类的属性,用于标识记录所属类型;训练属性:用于分类规则判定过程。
3.学过的决策树分类算法有哪些?P108 决策树包括哪些结点?P106-107
决策树分类算法:ID3、C4.5、CART等
决策树包括内部节点(矩形表示)、树根(最顶层节点)、叶子节点(椭圆表示)
4.决策树递归划分终止的条件有哪些?(3点)P109
(1)给定结点的所有样本均属于同一类;
(2)没有剩余属性可被用来进一步划分样本;
(3)分枝test_attribute= ai不包含任何样本。
5.对于决策树递归过程需要注意哪两种情况?P109
其一,在样本决策树形成过程中,如果一个训练属性已在前面过程中被作为结点代表属性而使用过,那么在后面的过程中,该属性将不会再被考虑。
其二,递归划分步骤将停止,仅当下列条件之一成立的时候:
(1)给定结点的所有样本均属于同一类;
(2)没有剩余属性可被用来进一步划分样本;
(3)分枝test_attribute= ai不包含任何样本。
6.什么是过适应问题?如何解决过适应问题?(简答)P110
过适应问题:是指一个决策树过于使用了当前训练集,对此训练集可能是非常准确的;当用于新的测试集时其准确性急剧降低的现象。
解决过适应问题的方法:对决策树进行必要的剪枝。
7.决策树分类规则的生成方法?(简答)P111-112或见PPT
决策树分类规则的描述形式:“IF…THEN形式”。
分类规则的提取方法:寻找始于决策树根而止于一个叶结点的路径,每条路径对应一个分类规则。
分类规则的前件(即“IF”部分):路径上的每个内部结点所包含的属性以及其属性值整合成的合取项;
分类规则的后件(即“THEN”部分):叶结点包含的类别。
8.决策树构造过程中当前结点的训练属性是如何选择的?P109
在构造决策树的过程中,选定属性创建结点的方法:
a)计算各属性的信息增益;
b)选定信息增益最高的属性作为当前结点的训练属性;
c)创建新结点,对当前训练属性的每个值创建分枝,据此来划分样本。
9.k-最临近算法的基本思想?P119 k-最临近算法的两个基本步骤?P119 k-最临近算法中参数k的大小对分类结果的影响?P120
k-最临近分类的基本思想
将与未知样本最为临近的k个训练样本中出现次数最多的类标号分配给该未知样本
k-最临近分类的基本步骤
1)获得与未知样本最为接近的k个训练样本;
2)针对选定的k个训练样本,进行“多数表决”,将表决的类标号分配给该未知样本。
k-最临近分类的使用过程中,选择大小适当的k值是非常重要的。
如果k值过小,分类结果易受到过适应问题的影响;反之,如果k值过大,一些距离较远的训练样本可能会导致未知样本的误分类。
聚类分析部分
1.什么是聚类?聚类与分类的比较或异同点?(简答)P130
聚类是将数据对象集合进行类似对象组的划分,实现类的分析过程,即“聚合”同类对象的过程。
聚类与分类的区别:
2.聚类分析常用的两种数据结构?P130-131
数据矩阵、相异度矩阵
3.数据矩阵与相异度矩阵的比较,以及二者每行每列表示的意义?P130-131
数据矩阵又称对象-变量结构,每行对应一个特定对象(如一个样本记录),每列对应一个属性(如数据表的一个字段)。
相异度矩阵又称对象-对象结构。
4.相异度矩阵中各个元素d(i,j)的大小(趋于0或者值很大)表示的意义?P131 d(i,j)是一个非负值,当d(i,j)的值越接近0,表征对象i和j之间越相似;当d(i,j)值越大,则
表征对象i和j之间的差异越大。
5.数据的属性类型有哪些?(5种)P131-135
区间标度变量、二元变量、序数型变量、标称变量、序数型变量、比例标度型变量、混合型变量。
(答案不确定)。
6.属于定量的数据属性类型?P131
7.非对称二元变量的相异度计算公式及其应用?(综合计算题)P133-134
示例:二元变量之间相异度的计算
假定有一个患者记录表(见下一页)包括属性name(姓名)、gender(性别)、fever(发烧)、cough(咳嗽)、test-1、test-2、test-3和test-4,其中name是对象标识,gender是对称变量,其余属性为非对称变量。
对于非对称属性,值Y(yes)和P(positive)置为1,值N (no或者negative)置为0。
假设对象(患者)之间的距离只基于非对称变量来计算。
根据公式(8-52),三个患者之间的相异度计算如下:
d(Jack,Mary)=(0+1)/(2+0+1)=0.33
d(Jack,Jim)=(1+1)/(1+1+1)=0.67
d(Mary,Jim)=(2+1)/(1+2+1)=0.75
这些度量表明Jim和Mary不太可能患相似的疾病,因为他们在三对中具有最高的相异度。
8.在聚类算法研究和应用过程中,对其能力有哪几种典型要求?P136-137
1.处理不同属性类型的能力
如数值型、布尔型、枚举型、序数型或混合型等。
2.处理噪声数据的能力
如属性字段值空缺、数据不完整、错误数据、孤立点等。
3.处理高维数据的能力多维(多个属性)。
4.减弱输入参数对领域知识的依赖性
高维数据中聚类结果对参数敏感
5.降低对数据及记录的输入顺序要求
即要求算法能适应记录的不同输入顺序情况。
6.具有高度的可伸缩性
即要求既能处理小数据集又能处理大数据集。
7.能够发现任意形状簇的能力
8.分析结果具有可解释性和可用性
9.具有在增加约束条件之后的聚类能力
9.聚类分析算法有哪几类?每类的大体思想是什么?P137-143 (4类)
1.划分法
划分法的基本思想:给定要划分的组数k,先创建一个初始分组情况,之后利用反复迭代的重定位技术,通过在分组间的对象移动来不断改进分组。
2.层次法
根据分解原则不同,层次法分为凝聚层次法和分裂层次法。
凝聚层次法(自底向上法)的基本思想:初始时,将每一个对象作为单独的簇,之后不断合并“相近”的对象或簇,直到将所有簇合并成一个簇或达到终止条件为止。
分裂层次法(自顶向下法)的基本思想:初始时,将所有对象构成一个簇,后通过反复的迭代过程不断地将每个组分裂成更小的簇,直到将每个对象对应了一个单独的簇或达到终止条件3.基于密度的方法
基于密度的方法的主要思想:如果一个邻近区域的密度(即对象点或数据点的数量)超过给定阈聚类的值,那么聚类将继续进行,将该区域并入到该聚类。
4、基于网格的方法
基于网格的方法是将对象空间分割成有限个单元的网格结构,之后再这个结构上进行所有聚类的处理。
10.基于划分思想的聚类算法有哪些?P137-138
主要有k-平均算法、k-中心点算法、CLARANS算法等。
11.层次聚类算法分类哪两种?基于层次法的聚类算法有哪些?P139
层次聚类算法分类:凝聚层次法、分裂层次法。
基于层次法的聚类分析算法有BIRCH算法、CUBE算法、CHAMELEON算法等
12.基于密度方法的聚类算法有哪些?P142
基于密度的方法有DBSCAN算法、OPTICS算法、DENCLUE算法等。
13.基于网格方法的聚类算法有哪些?P143
主要有STING算法、W A VE-CLUSTER算法、CLIQUE算法等。
14.k-平均算法的输入、输出及聚类过程(流程)?(简答)P138
算法:k-平均。
基于簇中对象的平均值生成k个簇
输入:簇的数目k;大小为n的数据集D。
输出:k个簇
方法:
(1)从数据集中任意选k个对象作为各个簇的初始中心;//中心初始化
(2)repeat
(3) 计算其他对象到各个簇中心的距离;//相异度求解
(4) 将对象(重新)分配给距离其最近的中心所对应的簇;//划分实现
(5) 根据(8-61)式,重新生成各个簇的中心;//簇中心调整
(6)until 准则函数收敛;//各个簇不再发生变化
15. k-平均算法与k-中心点算法的比较或异同点?P137-138
k-中心点算法与k-平均算法的区别:前者在计算相异度时采用簇的中心位置的对象(而不是簇中对象的平均值)作为对象之间相异度计算的参考点。
k-中心点算法的参考点选取方法可以改善k-平均算法对孤立点的敏感性。
16.DBSCAN算法中涉及的一些概念:对象的r-领域、核心对象、直接密度可达、密度可达、密度相连。
P142-143 (要求理解)
①将给定对象周边半径为r的区域称为该对象的r-邻域;
②如果一个对象的r-领域内部至少包含的对象数目达到一个最小数目MinPts,则称该对象为核心对象;
如左图,若设MinPts=3,则m,
P均是核心对象,q不是核心对象。
③给定一个对象集合S,如果p是在q的r-领域内(p,q ∈S) ,且q是一个核心对象,则称对象p从对象q出发是直接密度可达的。
如左图,若设MinPts=3,则m,
P均是核心对象,q不是核心对象。
q是从m直接密度可达的,m是从p直接密度可达的,p是从
m直接密度可达的。
④如果存在一个对象链p1,p2,…,pn(其中p1=q, pn =p),对pi∈S(1≤i≤n), pi+1是从pi关于r和MinPts直接密度可达的,则对象p是从对象q关于r和MinPts密度可达的。
如左图,若设MinPts=3,由于q是从m直接密度可达的,m
是从p直接密度可达的,所以q是从p是(间接)密度可达的。
⑤如果对象集合S中存在一个对象s,使得对象p和q是从s关于r和MinPts密度可达的,则对象p和q是关于r和MinPts密度相连的。
如右图,p和q是密度相连的。
第9章的知识点(以选择题形式来考)
1.什么是结构化医学数据和非结构化医学数据?P147
结构化医学数据是指有明确的数据结构,其具体内容在经过一定的整理之后可在数据库中进行有效存储和处理。
如医学病历
非结构化医学数据是指数据本身没有规范的结构,其内容也比较复杂的数据,
2.中医学结构化数据一般以什么形式存在?P147
文献数据库、临床数据库
3.举例非结构化数据?P147
如文本数据、医学多媒体数据等。
4.中医药领域的数据挖掘有哪些?P150-151
寻找新药先导化合物、开发中药复方、研究中药指纹图谱、中医药信息化研究
5.文本数据挖掘的主要关键技术?P156
包括文本预处理、文本分类、文本聚类、文本自动摘要等
6.文本预处理的目的?P156
目的是要去掉那些文本中出现频率高,而对于识别文本类别作用不大的词。
7.什么是文本分类?P158
文本分类是指根据文本的特征将其自动分配到预定义的类别。
8.什么是文本聚类?P159
文本聚类是指将文本根据其特征分为多个类或簇。
9.什么是硬聚类?什么是软聚类?P159
在聚类过程中,如果一个样本只属于一个类,则称为硬聚类;如果一个样本可以属于多个不同的类,则称为软聚类。
10.医学文本数据挖掘的应用研究有哪些?(2点)P161-163
中医古籍文献文本数据挖掘、现代文献文本数据挖掘。
一--五章
1.医学信息技术概述,决策支持系统的发展;
医学信息技术概述:
决策支持系统的发展:
DSS——决策支持系统:一个对决策提供支持的计算机应用系统,是信息技术长期复杂演化的产物。
DSS与数据仓库及数据挖掘:
2.数据仓库的基本特征
数据仓库的数据是面向主题的
数据仓库的数据是集成的
数据仓库的数据是非易失的
数据仓库的数据是随时间不断变化的
3.数据仓库中的数据组织
数据组织的基本特征:采用分级方式进行组织。
下图为数据仓库的结构。
第二章
4. 数据仓库的开发模式(未确定)
星形、雪花模型
5. OLAP 技术概述
数据仓库中包含了大量的、有价值的历史数据,现代的信息应用需要方便的工具对其中的数据进行分析处理。
OLAP 技术的出现,可较好地实现数据汇总/聚集,建立多维度的分析、查询和报表,同时还提供切片、切块、钻取和旋转等数据分析功能,使人们从交互方式中获得信息并为预测业务发展提供辅助。
按照数据的存储结构基本上又分为MOLAP (多维立方体OLAP )、ROLAP(关系OLAP )和HOLAP(混合OLAP )。
OLAP 的功能特征包括快速分析、共享性和多维特性。
6. OLAP 与OLTP
7. OLAP 的技术实现
关系型联机分析处理(ROLAP )
多维联机分析处理(MOLAP )
混合型联机分析处理(HOLAP ) 8、医学数据仓库的关键问题
面向操作人员,支持日常操作 面向决策人员,支持管理需要
面向应用,事务驱动 面向分析,分析驱动 一次处理的数据量小
一次处理的数据量大 可更新
不可更新,但周期性刷新 当前值数据 历史数据 细节性数据
综合性和提炼性数据 原始数据 导出数据 OLTP 数据 OLAP 数据。