数据仓库与挖掘期末考试知识点复习

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘知识点(考点)复习

第6章的知识点 1.哪些学科和数据挖掘有密切联系?(P68数据挖掘关系图)

2.数据挖掘的定义(P69)

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

第7章的知识点

1.数据挖掘步骤(P74)

确定目标、数据准备、数据挖掘、结果分析

2.数据选择的内容(包括哪两部分)(P75)

属性选择和数据抽样

3.数据清理的方法(P75) 了解小规模数据、大数据集的清理方法。

小规模数据:人工清理

大数据集:自动清理(测定→识别→ 纠正)

4.常见的模式有哪些(P78)尤其是分类、回归、聚类模式之间的分析比较。 ① 分类模式(用于离散值)

② 回归模式(用于连续值)

③ 聚类模式

④ 关联模式

⑤序列模式

即将数据间的关联性事件发生的顺序联系起来。

⑥时间序列模式

根据数据随时间变化的趋势预测将来的值。

5.模式的精确度(P79)

训练和测试模式需将数据分成哪两部分以及各自用途?模式准确性的测试方法及其比较。

训练和测试模式需将数据分成:一是训练数据,主要用于模式训练;另一个是测试数据,主要用于模式测试。

模式准确性的测试方法:封闭测试:测试集即训练模式的训练数据。可测试模式的稳定性,但无法验证其推广能力。

开放测试:测试模式的数据是模式先前未见的数据。可以很好地度量模式的准确度。

6.数据预处理的任务有哪些?(P83-89)

数据清理、数据集成和转换

7.空缺值的处理方法(P83-84)

忽略该条记录(不很有效)、手工填补遗漏值(可行性差)、利用缺省值填补遗漏值(不推荐)

数据库理论 数据仓库

数据统计 机器学习 人工智能 数据挖掘

利用均值填补遗漏、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值(较常用)

8.分箱技术(P84-86) 分箱之前要做的工作?P84 分箱之前需要对记录按目标属性值的大小进行排序

(1)要求能描述出常见的分箱方法和数据平滑方法(简答)。

分箱方法:统一权重(等深分箱法)、统一区间(等宽分箱法)、用户自定义。

数据平滑方法:按平均值平滑、按边界值平滑、按中值平滑。

(2)要求会用等深分箱法和等宽分箱法对数据进行分箱,并对分箱后的数据按指定的平滑技术来平滑。(详见PPT )

示例:在选定的数据集中,药价属性price 排序后的值(人民币元):8 10 12 15 15 18 20 23 25 28 30 35 40 45 48 50

统一权重(等深分箱法)

设权重(箱子深度)为4,则分箱后结果是如下:

箱1:8 10 12 15

箱2:15 18 20 23

箱3:25 28 30 35

箱4:40 45 48 50

示例:在选定的数据集中,药价属性price 排序后的值(人民币元):8 10 12 15 15 18 20 23 25 28 30 35 40 45 48 50

统一区间(等宽分箱法)

设定区间范围(箱子宽度)为10元,分箱后的结果如下:

箱1:8 10 12 15 15 18

箱2:20 23 25 28 30

箱3:35 40 45

箱4:48 50

对同一箱值中的数据求平均值,然后用这个平均值代替该箱子的所有数据。

如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:

箱1:8 10 12 15 15 18 箱1:13 13 13 13 13 13

箱2:20 23 25 28 30 箱2:25.2 25.2 25.2 25.2 25.2 箱3:35 40 45 箱3:40 40 40

箱4:48 50 箱4:49 49

对箱子中每个数据,观察它和箱子两个边界值的距离,用距离较小的那个边界值代替该数据。 如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:

箱1:8 10 12 15 15 18

箱1:8 8 8 18 18 18

箱2:20 23 25 28 30 箱2:20 20 20 30 30 箱3:35 40 45 箱3:35 35 45

箱4:48 50 箱4:48 50

取箱子的中值,用来代替箱子中所有数据。若箱子中数据个数为奇数,则取中间那个,若为偶数,则取中间两个的均值。

如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:

箱1:8 10 12 15 15 18 箱1:13.5 13.5 13.5 13.5 13.5 13.5

箱2:20 23 25 28 30 箱2:25 25 25 25 25

箱3:35 40 45 箱3: 40 40 40

箱4:48 50 箱4:49 49

9.数据规范化方法(最小-最大规范化)P88

(1)最小-最大规范化

前提条件:属性的取值范围必须已知。

下面是将属性A的取值区间[min(A), max(A)]映射到新的取值区间[a ,b]的公式:

(2)Z-score规范化(零-均值规范化或0-1规范化)

(3)小数定标规范化

第8章的知识点

关联规则部分

1.理解什么是关联规则?P90

给定案例,能判断该案例是否属于关联规则挖掘问题。(购物篮分析:

关联:指在两个或两个以上变量取值之间所存在的某种规律性。

挖掘目的:发现依存性和关联性的规则,预测潜在关联或变量。

2.关联规则的分类(P92-93)

根据规则中所处理的项集类型来分类:1)布尔型关联规则;2)量化关联规则

根据规则中所涉及的数据维来分类:1)单维关联规则;2)多维关联规则

根据规则中所涉及的抽象层次来分类:1)单层关联规则;2)多层关联规则

根据关联挖掘的各种扩充来扩展:相关分析、最大频繁模式挖掘和频繁闭模式挖掘等

3.掌握项集或规则的支持度和置信度的计算方法(P91)详见ppt

支持度:

设项集,则X在事务集D上的支持度是包含X的事务在D中所占的百分比,即

对于关联规则,其支持度是事务集D中同时包含A和B的事务数与所有事务数的百分比,即

例子:设X={香蕉},由于包含香蕉的事务有

001,002, 003共3个,总共有4个事务,

即|D|=4,则support(X)=3/4=75%

设X={果酱面包,香蕉},由于同时包含果酱面包和香蕉的事务有001,003共2个,故

support(X)=2/4=50%

设A={果酱面包},B={酸奶},则A∪B={果酱面包,酸奶},由于包含A∪B的事务只有001共1个,所以

类似地,设A={果酱面包},B={香蕉},则A∪B={果酱面包,香蕉},则

置信度:

设,则形如的关联规则的置信度是指事务集D中同时包含A 和B的事务数与包含A的事务数的比值,即

相关文档
最新文档