数据挖掘复习笔记 聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类和预测
分类:根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据
预测:建立连续函数值模型,比如预测空缺值
分类分为两步,第一步建立一个模型描述预定数据集,第二步使用模型对位置对象进行分类。
数据准备:
1,数据清理
2,数据相关性分析
3,数据转换
评价分类方法的标准:
1,预测准确率
2,速度
3,强壮性
4,可伸缩性,具有对大规模数据建立模型的能力
5,可解释性,学习模型提供的理解和洞察的层析
贝叶斯分类:
Bayesian Theorem: Example
Let X be a data sample whose class label is unknown
Let H be a hypothesis that X belongs to class C
For classification problems, determine P(H|X): the probability that the hypothesis holds given the observed data sample X
P(H): prior probability of hypothesis H (i.e. the initial probability before we observe any data, reflects the background knowledge)
P(X): probability that sample data is observed
P(X|H) : probability of observing the sample X, given that the hypothesis holds
X is a 35-year-old customer with an income of $40,000
H is the hypothesis that our customer will buy a computer
P(H|X) reflects the probability that customer X will buy a computer given that we know the customer’s age and income
P(H) is the probability that any given customer will buy a computer, regardless of age, income, or any other information
P(X|H) is the probability that a customer, X, is 35 years old and earns $40,000, given that we know the customer will buy a computer
P(X) is the probability that a person from our set of customers is 35 years old and earns $40,000 Given training data X, posteriori probability of a hypothesis H, P(H|X) follows the Bayes theorem Naive (朴素)Bayes Classifier(朴素的贝叶斯分类器)
有点:快速,容易实施
缺点:假设类之间是独立的,当类之间依赖时,贝叶斯分类无法处理基于距离的分类算法:KNN
The k-NN only requires
An integer k
A set of labeled examples
A measure of “closeness”
优点:简单容易实现
缺点:当样本集过大时会导致开销大
基于判定树的分类算法:
Attribute Selection Measure information gain, gain ratio, and gini index
ID3优点:ID3算法的分类简单、规则易理解的优点缺点:倾向于取属性值较多的属性
回归预测分析
聚类分析
聚类是无指导的学习,事先没有分类聚类的应用:
为了判定一个非代表对象O
h 是否是当前一个代表对象O
i
的好的替代,对于
每一个非中心点对象O
j
,下面的四种情况被考虑:
●第一种情况:假设O i被O h代替作为新的中心点,O j当前隶属于中心点对
象O
i 。如果O
j
离某个中心点Om最近,i≠m,那么O
j
被重新分配给Om。
●第二种情况:假设O i被O h代替作为新的中心点,O j当前隶属于中心点对
象O
i 。如果O
j
离这个新的中心点O
h
最近,那么O
j
被分配给O
h
。
●第三种情况:假设O i被O h代替作为新的中心点,但是O j当前隶属于另
一个中心点对象O
m ,m≠i。如果O
j
依然离O
m
最近,那么对象的隶属不发
生变化。
●第四种情况:假设O i被O h代替作为新的中心点,但是O j当前隶属于另
一个中心点对象O
m ,m≠i。如果O
j
离这个新的中心点O
h
最近,那么O
i
被重新分配给O
h
。
每当重新分配发生时,平方-误差E所产生的差别对代价函数有影响。因此,如果一个当前的中心点对象被非中心点对象所代替,代价函数计算平方-误差值所产生的差别。替换的总代价是所有非中心点对象所产生的代价之和。如果总代
价是负的,那么实际的平方-误差将会减小,O
i 可以被O
h
替代。如果总代价是正
的,则当前的中心点O
i
被认为是可接受的,在本次迭代中没有变化。
PAM算法需用簇中位置最靠近中心的对象作为代表对象,然后反复地用非代表对象来代替代表对象,试图找出更好的中心点,在反复迭代的过程中,所有可