数据仓库与挖掘期末考试知识点复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘知识点(考点)复习
第6章的知识点 1.哪些学科和数据挖掘有密切联系?(P68数据挖掘关系图)
2.数据挖掘的定义(P69)
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
第7章的知识点
1.数据挖掘步骤(P74)
确定目标、数据准备、数据挖掘、结果分析
2.数据选择的内容(包括哪两部分)(P75)
属性选择和数据抽样
3.数据清理的方法(P75) 了解小规模数据、大数据集的清理方法。
小规模数据:人工清理
大数据集:自动清理(测定→识别→ 纠正)
4.常见的模式有哪些(P78)尤其是分类、回归、聚类模式之间的分析比较。 ① 分类模式(用于离散值)
② 回归模式(用于连续值)
③ 聚类模式
④ 关联模式
⑤序列模式
即将数据间的关联性事件发生的顺序联系起来。
⑥时间序列模式
根据数据随时间变化的趋势预测将来的值。
5.模式的精确度(P79)
训练和测试模式需将数据分成哪两部分以及各自用途?模式准确性的测试方法及其比较。
训练和测试模式需将数据分成:一是训练数据,主要用于模式训练;另一个是测试数据,主要用于模式测试。
模式准确性的测试方法:封闭测试:测试集即训练模式的训练数据。可测试模式的稳定性,但无法验证其推广能力。
开放测试:测试模式的数据是模式先前未见的数据。可以很好地度量模式的准确度。
6.数据预处理的任务有哪些?(P83-89)
数据清理、数据集成和转换
7.空缺值的处理方法(P83-84)
忽略该条记录(不很有效)、手工填补遗漏值(可行性差)、利用缺省值填补遗漏值(不推荐)
数据库理论 数据仓库
数据统计 机器学习 人工智能 数据挖掘
利用均值填补遗漏、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值(较常用)
8.分箱技术(P84-86) 分箱之前要做的工作?P84 分箱之前需要对记录按目标属性值的大小进行排序
(1)要求能描述出常见的分箱方法和数据平滑方法(简答)。
分箱方法:统一权重(等深分箱法)、统一区间(等宽分箱法)、用户自定义。
数据平滑方法:按平均值平滑、按边界值平滑、按中值平滑。
(2)要求会用等深分箱法和等宽分箱法对数据进行分箱,并对分箱后的数据按指定的平滑技术来平滑。(详见PPT )
示例:在选定的数据集中,药价属性price 排序后的值(人民币元):8 10 12 15 15 18 20 23 25 28 30 35 40 45 48 50
统一权重(等深分箱法)
设权重(箱子深度)为4,则分箱后结果是如下:
箱1:8 10 12 15
箱2:15 18 20 23
箱3:25 28 30 35
箱4:40 45 48 50
示例:在选定的数据集中,药价属性price 排序后的值(人民币元):8 10 12 15 15 18 20 23 25 28 30 35 40 45 48 50
统一区间(等宽分箱法)
设定区间范围(箱子宽度)为10元,分箱后的结果如下:
箱1:8 10 12 15 15 18
箱2:20 23 25 28 30
箱3:35 40 45
箱4:48 50
对同一箱值中的数据求平均值,然后用这个平均值代替该箱子的所有数据。
如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:
箱1:8 10 12 15 15 18 箱1:13 13 13 13 13 13
箱2:20 23 25 28 30 箱2:25.2 25.2 25.2 25.2 25.2 箱3:35 40 45 箱3:40 40 40
箱4:48 50 箱4:49 49
对箱子中每个数据,观察它和箱子两个边界值的距离,用距离较小的那个边界值代替该数据。 如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:
箱1:8 10 12 15 15 18
箱1:8 8 8 18 18 18
箱2:20 23 25 28 30 箱2:20 20 20 30 30 箱3:35 40 45 箱3:35 35 45
箱4:48 50 箱4:48 50
取箱子的中值,用来代替箱子中所有数据。若箱子中数据个数为奇数,则取中间那个,若为偶数,则取中间两个的均值。
如对上面统一区间的分箱结果进行平滑,则平滑后的结果如下:
箱1:8 10 12 15 15 18 箱1:13.5 13.5 13.5 13.5 13.5 13.5
箱2:20 23 25 28 30 箱2:25 25 25 25 25
箱3:35 40 45 箱3: 40 40 40
箱4:48 50 箱4:49 49
9.数据规范化方法(最小-最大规范化)P88
(1)最小-最大规范化
前提条件:属性的取值范围必须已知。
下面是将属性A的取值区间[min(A), max(A)]映射到新的取值区间[a ,b]的公式:
(2)Z-score规范化(零-均值规范化或0-1规范化)
(3)小数定标规范化
第8章的知识点
关联规则部分
1.理解什么是关联规则?P90
给定案例,能判断该案例是否属于关联规则挖掘问题。(购物篮分析:
关联:指在两个或两个以上变量取值之间所存在的某种规律性。
挖掘目的:发现依存性和关联性的规则,预测潜在关联或变量。
2.关联规则的分类(P92-93)
根据规则中所处理的项集类型来分类:1)布尔型关联规则;2)量化关联规则
根据规则中所涉及的数据维来分类:1)单维关联规则;2)多维关联规则
根据规则中所涉及的抽象层次来分类:1)单层关联规则;2)多层关联规则
根据关联挖掘的各种扩充来扩展:相关分析、最大频繁模式挖掘和频繁闭模式挖掘等
3.掌握项集或规则的支持度和置信度的计算方法(P91)详见ppt
支持度:
设项集,则X在事务集D上的支持度是包含X的事务在D中所占的百分比,即
对于关联规则,其支持度是事务集D中同时包含A和B的事务数与所有事务数的百分比,即
例子:设X={香蕉},由于包含香蕉的事务有
001,002, 003共3个,总共有4个事务,
即|D|=4,则support(X)=3/4=75%
设X={果酱面包,香蕉},由于同时包含果酱面包和香蕉的事务有001,003共2个,故
support(X)=2/4=50%
设A={果酱面包},B={酸奶},则A∪B={果酱面包,酸奶},由于包含A∪B的事务只有001共1个,所以
类似地,设A={果酱面包},B={香蕉},则A∪B={果酱面包,香蕉},则
置信度:
设,则形如的关联规则的置信度是指事务集D中同时包含A 和B的事务数与包含A的事务数的比值,即