2018年零基础学习大数据挖掘知识点整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018年零基础学习大数据挖掘知识点整理
1.数据、信息和知识是广义数据表现的不同形式。
2.主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识
3.web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘
4.一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。
5.数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型
6.粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。
7.决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。
8.从使用的主要技术上看,可以把分类方法归结为四种类型:
a)基于距离的分类方法
b)决策树分类方法
c)贝叶斯分类方法
d)规则归纳方法
9.关联规则挖掘问题可以划分成两个子问题:
a)发现频繁项目集:通过用户给定Minsupport,寻找所有频繁项目集或者最大频繁项目集。
b)生成关联规则:通过用户给定Minconfidence,在频繁项目集中,寻找关联规则。
10.数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:
数据库等信息技术的发展
统计学深入应用
人工智能技术的研究和应用
11.衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:
a准确性:挖掘出的规则必须反映数据的实际情况。
b实用性:挖掘出的规则必须是简洁可用的。
c新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。
12.约束的常见类型有:
单调性约束;
反单调性约束;
可转变的约束;
简洁性约束.
13.根据规则中涉及到的层次,多层次关联规则可以分为:
同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。
层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规
14.按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。
划分法:基于一定标准构建数据的划分。
属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。层次法:对给定数据对象集合进行层次的分解。
密度法:基于数据对象的相连密度评价。
网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。
模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。
15.类间距离的度量主要有:
最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。
最长距离法:定义两个类中最远的两个元素间的距离为类间距离。
中心法:定义两类的两个中心间的距离为类间距离。
类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:
离差平方和。
16.层次聚类方法具体可分为:
凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。
分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。
层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。
17.文本挖掘(TD)的方式和目标是多种多样的,基本层次有:
关键词检索:最简单的方式,它和传统的搜索技术类似。
挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。
信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。
自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。
18.在web访问挖掘中常用的技术:
路径分析
路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。
关联规则发现
使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。
序列模式发现
在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。
分类
发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。
聚类
可以从WebUsage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。
19.根据功能和侧重点不同,数据挖掘语言可以分为三种类型:
数据挖掘查询语言:希望以一种像SQL这样的数据库查询语言完成数据挖掘的任务。
数据挖掘建模语言:对数据挖掘模型进行描述和定义的语言,设计一种标准的数据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面有标准可以遵循。
通用数据挖掘语言:通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘。通用数据挖掘语言标准化是目前解决数据挖掘行业出现问题的颇具吸引力的研究方向。
20.规则归纳有四种策略:减法、加法,先加后减、先减后加策略。
减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广),使推广后的例子或规则不覆盖任何反例。
加法策略:起始假设规则的条件部分为空(永真规则),如果该规则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。
先加后减策略:由于属性间存在相关性,因此可能某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前面的条件。
先减后加策略:道理同先加后减,也是为了处理属性间的相关性。
21.数据挖掘定义有广义和狭义之分。
从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。
从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。
22.web挖掘的含义:针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。
23.K-近邻分类算法(KNearestNeighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
24.K-means算法的性能分析:
主要优点: