数学建模聚类与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Q型样品间的“相似性”度量—距离
设每个样品有 p 个指标, 观察值记为
xi ( x1i , x2i ,, x pi )T , i 1,2,, n
的距离来衡量各样品点之间的接近程度。
(1)
每个样品 x i 可看成是 p 维空间的一个点。于是, 可用各点之间 样品 x i 和 x j 之间的距离 d ( xi , x j ), 一般应满足如下条件: (ⅰ) d ( xi , x j ) 0 , 且 d ( xi , x j ) 0 时当且仅当 xi x j ; ;
选择适用的距离 在聚类分析中通常要结合实际问题来选择适用的 距离, 有时应根据实际问题定义新的距离,
显然,本例无法直接用上述公式来计算距离。但
可以发现前三种文字(英、挪、丹)很相似,
特别是每个单词的第一个字母。可以用10个数词
中第一个字母不同的个数来定义两种语言之间的距离。 例如:英语和挪威语中只有1和8的第一个字母不同, 则它们之间的距离为2。
要做聚类分析,首先得按照我们聚类的目的,从 对象中提取出能表现这个目的的特征指标;然后根据 亲疏程度进行分类。 聚类分析根据分类对象的不同可分为Q型和R型两大类 Q型是对样本进行分类处理,其作用在于:
1. 具有共同特点的样本聚在一起
2. 所得结果比传统的定性分类方法更细致、全面、 合理
R型是对变量进行分类处理,其作用在于:
2 ij
1
例1
欧洲各国的语言有许多相似之处,有的十分
相似。为了研究这些语言的历史关系,也许通过比较 他们数字的表达式比较恰当。表列举出英语,挪威语, 丹麦语,荷兰语,德语,法语,西班牙语,意大利语, 波兰语,匈牙利语和芬兰语的1,2,…,10的拼法,希望 计算这11种语言之间的语言的距离.
11种欧洲语言的数词
(ⅱ) d ( xi , x j ) d ( x j , xi );
(ⅲ) d ( xi , x j ) d ( xi , xk ) d ( xk , x j ) 离。常用的距离有如下几种: 有时所用的距离不满足(ⅲ), 但在广义的角度上仍称为距
1、绝对距离(Block距离)
1
dij xik x jk
p
1
q
dij () max xik x jk
1 k p
以上距离与各变量的量纲有关,为了消除量纲的
影响,可对数据标准化。
5.数据的标准化
xij
xij x j Sj
,
其中xj和S j是第j个指标的均值和样本标准差
6.马氏距离
d (M ) ( x(i ) x( j ) )' S ( x(i ) x( j ) )
英语 (E) one two three four five six seven eight nine ten 挪威语 (N) en to tre fire fem seks sju atte ni ti 丹麦语 (Da) en to tre fire fem seks syv otte ni ni 荷兰语 (Du) een twee drie vier vijf zex zeven acht negen tien 德语 (G) ein zwei drei vier funf sechs sieben acht neun zehn 法语 (Fr) un deux trios quatre cinq six sept huit neuf dix 西班牙语 (S) uno dos tres cuatro cinco seix siete ocho nueve diez 意大利语 (I) uno duc tre quattro cinque sei sette otto nove dieci 波兰语 (P) jeden dwa trzy cztery piec szesc sieden osiem dziewiec dziesiec 匈牙利语 (H) egy ketto harom negy ot hat het nyolc kilenc tiz 芬兰语 (Fi) yksi kaksi kolme neua viisi huusi seitseman kahdeksan yhdeksan kymmenen
聚 类 分 析
一、聚类分析(Cluster Analysis)简介
聚类分析是直接比较各事物之间的性质,将性质相 近的归为一类,将性质差别较大的归入不同的类的分析 技术。
数理统计中的数值分类有两种问题:
• 判别分析:已知分类情况,将未知个体归入正确类别
• 聚类分析:分类情况未知,对数据结构进行分类Leabharlann Baidu
基本思想
基本思想
按相似程度的大小
把关系密切的样品聚合到一个小的分类单位,
关系疏远的样品聚合到一个大的分类单位, 直到把所有的样品(或指标)都聚合完毕。 把不同的类型一一划分出来, 形成一个由小到大 的分类系统。再把整个分类系统画成一张分群图(又
称谱系图), 用它把所有样品(或指标)间的亲疏关系
表示出来。
二、聚类对象
聚类分析的基本思想: 对所研究的样品或指标 (变量)之间存在着程度不同的相似性(或亲疏关系)。 (1)根据一批样品的多个指标, 具体找出一些能够
度量样品或指标之间的相似程度的统计量。
(2)以这些统计量为分类的依据, 把一些相似程度 较大的样品(或指标)聚合为一类。 把另一些彼此之间相似程度较大的样品(或指标) 聚合为另一类。
k 1
p
2、欧氏距离(Euclidean distance)
2 d ij ( xik x jk ) k 1
p 2
3、明考斯基距离(Minkowski)
4、切比雪夫距离(Chebychev)
dij ( xik x jk ) q k 1
1. 可以了解变量间及变量组合间的亲疏关系 2. 可以根据变量的聚类结果及它们之间的关系, 选择主要变量进行回归分析或Q型聚类分析
2 相似性度量
进行“相关性”或“相似性”度量。在相似性
度量中常常包含有许多主观上的考虑,但是最重要 的是考虑指标性质或观测的尺度。 当样品进行聚类时,“靠近”往往是距离。 同时对指标进行聚类时,根据相关系数或某种 关联性度量来聚类。