数学建模聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、聚类对象
要做聚类分析,首先得按照我们聚类的目的,从 对象中提取出能表现这个目的的特征指标;然后根据 亲疏程度进行分类。
聚类分析根据分类对象的不同可分为Q型和R型两大类
Q型是对样本进行分类处理,其作用在于: 1. 具有共同特点的样本聚在一起 2. 所得结果比传统的定性分类方法更细致、全面、 合理
nine
ni
ten
ti
ni
negen neun
neuf nueve
nove dziewiec kilenc yhdeksan
ni
tien zehn
dix
diez dieci dziesiec tiz kymmenen
选择适用的距离
在聚类分析中通常要结合实际问题来选择适用的 距离, 有时应根据实际问题定义新的距离,
R型是对变量进行分类处理,其作用在于: 1. 可以了解变量间及变量组合间的亲疏关系 2. 可以根据变量的聚类结果及它们之间的关系, 选择主要变量进行回归分析或Q型聚类分析
2 相似性度量
进行“相关性”或“相似性”度量。在相似性 度量中常常包含有许多主观上的考虑,但是最重要 的是考虑指标性质或观测的尺度。
显然,本例无法直接用上述公式来计算距离。但 可以发现前三种文字(英、挪、丹)很相似,
特别是每个单词的第一个字母。可以用10个数词 中第一个字母不同的个数来定义两种语言之间的距离。 例如:英语和挪威语中只有1和8的第一个字母不同, 则它们之间的距离为2。
E N Da Du G Fr Sp I P H Fi E0 N 20 Da 2 1 0 Du 7 5 6 0 G 6 45 5 0 Fr 6 6 6 9 7 0 Sp 6 6 5 9 7 2 0 I 6 6 5 9 7 110 P 7 7 6 10 8 5 3 4 0 H 9 8 8 8 9 10 10 10 10 0 Fi 9 9 9 9 9 9 9 9 9 8 0
的距离来衡量各样品点之间的接近程度。
样品 xi 和 x j之间的距离 d (xi , x j ), 一般应满足如下条件:
(ⅰ) d (xi , x j ) 0 , 且 d (xi , x j ) 0 时当且仅当 xi x j ; (ⅱ) d (xi , x j ) d (x j , xi );
(ⅲ) d (xi , x j ) d (xi , xk ) d (xk , x j ) ;
有时所用的距离不满足(ⅲ), 但在广义的角度上仍称为距
离。常用的距离有如下几种:
1、绝对距离(Block距离)
p
dij xik x jk k 1
2、欧氏距离(Euclidean distance)
11种欧洲语言的数词
英语 挪威语 丹麦语 荷兰语 德语
(E)
(N)
(Da) (Du)
(G)
one
en
en
een
ein
法语 西班牙语 意大利语 波兰语 匈牙利语 芬兰语
(Fr)
(S)
(I)
(P)
(H)
(Fi)
un
uno
uno jeden
egy
yksi
two
to
to
twee
zwei
deux
dos
duc
影响,可对数据标准化。
5.数据的标准化
xij
xij x j Sj
,
其中xj和S j是第j个指标的均值和样本标准差
6.马氏距离
di2j (M ) (x(i) x( j) ) ' S 1(x(i) x( j) )
例1 欧洲各国的语言有许多相似之处,有的十分 相似。为了研究这些语言的历史关系,也许通过比较 他们数字的表达式比较恰当。表列举出英语,挪威语, 丹麦语,荷兰语,德语,法语,西班牙语,意大利语, 波兰语,匈牙利语和芬兰语的1,2,…,10的拼法,希望 计算这11种语言之间的语言的距离.
聚类分析的基本思想: 对所研究的样品或指标 (变量)之间存在着程度不同的相似性(或亲疏关系)。 (1)根据一批样品的多个指标, 具体找出一些能够 度量样品或指标之间的相似程度的统计量。 (2)以这些统计量为分类的依据, 把一些相似程度 较大的样品(或指标)聚合为一类。
把另一些彼此之间相似程度较大的样品(或指标) 聚合为另一类。
ot
viisi
six
seks
seks
zex sechs
six
seix
sei
szesc
hat
huusi
seven
sju
syv
zeven sieben
sept
siete
sette sieden
het seitseman
eight
atte
otte
acht
acht
huit ocho
otto osiem nyolc kahdeksan
基本思想
按相似程度的大小 把关系密切的样品聚合到一个小的分类单位, 关系疏远的样品聚合到一个大的分类单位, 直到把所有的样品(或指标)都聚合完毕。
把不同的类型一一划分出来, 形成一个由小到大 的分类系统。再把整个分类系统画成一张分群图(又 称谱系图), 用它把所有样品(或指标)间的亲疏关系 表示出来。
dwa ketto kaksi
three
tre
tre
drie
drei
trios
tres
tre
trzy harom kolme
four
fire
fire
vier
vier quatre cuatro quattro cztery negy neua
five
fem
fem
vijf
funf
cinq cinco cinque piec
聚类分析
一、聚类分析(Cluster Analysis)简介
聚类分析是直接比较各事物之间的性质,将性质相 近的归为一类,将性质差别较大的归入不同的类的分析 技术。
数理统计中的数值分类有两种问题: • 判别分析:已知分类情况,将未知个体归入正确类别 • 聚类分析:分类情况未知,对数据结构进行分类
基本思想
当样品进行聚类时,“靠近”往往是距离。 同时对指标进行聚类时,根据相关系数或某种 关联性度量来聚类。
Q型样品间的“相似性”度量—距离
设每个样品有 p 个指标, 观察值记为
xi (x1i , x2i ,, xpi )T , i 1,2,, n
(1)
每个样品 xi 可看成是 p 维空间的一个点。于是, 可用各点之间
1
d ij
p
( xik
x
jk
)2
2
k 1
3、明考斯基距离(Minkowski)
1
dij
p
( xik
x
jk
)
q
q
k 1
4、切比雪夫距离(Chebychev)
dij
()
max
1k p
xik
Baidu Nhomakorabea
x jk
以上距离与各变量的量纲有关,为了消除量纲的