数据挖掘复习笔记 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分类和预测

分类:根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据

预测:建立连续函数值模型,比如预测空缺值

分类分为两步,第一步建立一个模型描述预定数据集,第二步使用模型对位置对象进行分类。

数据准备:

1,数据清理

2,数据相关性分析

3,数据转换

评价分类方法的标准:

1,预测准确率

2,速度

3,强壮性

4,可伸缩性,具有对大规模数据建立模型的能力

5,可解释性,学习模型提供的理解和洞察的层析

贝叶斯分类:

Bayesian Theorem: Example

Let X be a data sample whose class label is unknown

Let H be a hypothesis that X belongs to class C

For classification problems, determine P(H|X): the probability that the hypothesis holds given the observed data sample X

P(H): prior probability of hypothesis H (i.e. the initial probability before we observe any data, reflects the background knowledge)

P(X): probability that sample data is observed

P(X|H) : probability of observing the sample X, given that the hypothesis holds

X is a 35-year-old customer with an income of $40,000

H is the hypothesis that our customer will buy a computer

P(H|X) reflects the probability that customer X will buy a computer given that we know the customer’s age and income

P(H) is the probability that any given customer will buy a computer, regardless of age, income, or any other information

P(X|H) is the probability that a customer, X, is 35 years old and earns $40,000, given that we know the customer will buy a computer

P(X) is the probability that a person from our set of customers is 35 years old and earns $40,000 Given training data X, posteriori probability of a hypothesis H, P(H|X) follows the Bayes theorem Naive (朴素)Bayes Classifier(朴素的贝叶斯分类器)

有点:快速,容易实施

缺点:假设类之间是独立的,当类之间依赖时,贝叶斯分类无法处理基于距离的分类算法:KNN

The k-NN only requires

An integer k

A set of labeled examples

A measure of “closeness”

优点:简单容易实现

缺点:当样本集过大时会导致开销大

基于判定树的分类算法:

Attribute Selection Measure information gain, gain ratio, and gini index

ID3优点:ID3算法的分类简单、规则易理解的优点缺点:倾向于取属性值较多的属性

回归预测分析

聚类分析

聚类是无指导的学习,事先没有分类聚类的应用:

为了判定一个非代表对象O

h 是否是当前一个代表对象O

i

的好的替代,对于

每一个非中心点对象O

j

,下面的四种情况被考虑:

●第一种情况:假设O i被O h代替作为新的中心点,O j当前隶属于中心点对

象O

i 。如果O

j

离某个中心点Om最近,i≠m,那么O

j

被重新分配给Om。

●第二种情况:假设O i被O h代替作为新的中心点,O j当前隶属于中心点对

象O

i 。如果O

j

离这个新的中心点O

h

最近,那么O

j

被分配给O

h

●第三种情况:假设O i被O h代替作为新的中心点,但是O j当前隶属于另

一个中心点对象O

m ,m≠i。如果O

j

依然离O

m

最近,那么对象的隶属不发

生变化。

●第四种情况:假设O i被O h代替作为新的中心点,但是O j当前隶属于另

一个中心点对象O

m ,m≠i。如果O

j

离这个新的中心点O

h

最近,那么O

i

被重新分配给O

h

每当重新分配发生时,平方-误差E所产生的差别对代价函数有影响。因此,如果一个当前的中心点对象被非中心点对象所代替,代价函数计算平方-误差值所产生的差别。替换的总代价是所有非中心点对象所产生的代价之和。如果总代

价是负的,那么实际的平方-误差将会减小,O

i 可以被O

h

替代。如果总代价是正

的,则当前的中心点O

i

被认为是可接受的,在本次迭代中没有变化。

PAM算法需用簇中位置最靠近中心的对象作为代表对象,然后反复地用非代表对象来代替代表对象,试图找出更好的中心点,在反复迭代的过程中,所有可

相关文档
最新文档