第10章对调查对象的分类抽样调查课件

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

10.1.2几种距离定义
• 欧几里德距离
定义点
X ( x1 , x2 ,..., xn )
n
Y(y 1 , y 2 ,..., y n )
DE ( X , Y ) ( x1 y1 ) 2 ( x2 y 2 ) 2 ... ( xn y n ) 2
(x
i 1
i
- yi ) 2
几种距离定义
• 曼哈顿距离
D ( x , y ) ( xk y k )
k 1 n
• 切比雪夫距离
D( x, y ) max( xk yk )
• Camberra距离(Lance距离，Williams距离)
D ( x, y ) (
k 1 n
xk y k
xk y k
第10章对调查对象的分类
第一节距离与相似性度量
• • • • • 内容 10.1.1测度空间定义 10.1.2 几种距离测度定义 10.1.3 匹配测度 10.1.4 相似度量
10.1.1测度空间
• • d(x, y) ≥ 0 (非负性) d(x, y) = 0 当且仅当 x = y (不可区分者的同一性) • d(x, y) = d(y, x) (对称性) • d(x, z) ≤ d(x, y) + d(y, z) (三角不等式)
总结：X与Y的距离实质是（X-Y）的模：，计算该距离之前要标准化模式向量单位
几种距离定义
• 明可夫斯基距离公式：
m n DM ' ( xi , yi ) xik ykj k 1 总结：L-p范数空间的距离定义，m=2：欧式距离相等，m=1：曼哈顿距离，m为无穷大：切比雪夫距离 1 m

数据标准化(SPSS)
【分析】【描述统计】【描述】主对话框将需要标准化的变量选入【变量】【将标准化得分另存于变量】【确定】
各指标均值差别太大，需要进行标准化
2
2 距离是最常用的直方图之间的距离。
相似度量
• 当各特征值非负时，还可见到下列几种相似系数。
min x , y S ( X ,Y ) max x , y
i i i i i
S wk.baidu.com X ,Y )
min x , y
i i i
i
min x , y S ( X ,Y ) xy
制定分类：最多5类，最少2类，将结果表存在原始数据表中
第5步点入【保存】，在【方案范围】指定要分成最少类、最多类时各样本所属的类，点击【继续】【确定】
每一步被合并的对象
参与聚类的是原始的样本还是已经合并的小类
的输出结果
层次聚类过程的步骤号
聚类步骤聚类系数：距离
i i i i i i
1 xi yi 2 i
第二节分层聚类
• 概念完全按照反映对象特征的数据把对象进行分类，这在统计上称为聚类分析。 • 聚类分析不同于因素分析：因素分析是根据所有变量间的相关关系提取公共因子；聚类分析是先将最相似的两个变量聚为一小类，再去与最相似的变量或小类合并，如此分层依次进行； • 聚类分析不同于判别分析：事先有了某种分类标准之后，判定一个新的研究对象应该归属到哪一类别，这在统计上则称为判别分析(discriminant analysis)。
例题：根据我国 31 个省市自治区 2006 年的 6 项主要经济指标数据，采用层次聚类法进行分类，并对结果进行分析
（表格数据未显示完整，有31个省份的6个经济指标）
SPSS
的操作步骤
• 第1步选择【分析】下拉菜单，并选择【分类】【系统分类】，进入主对话框
SPSS
的操作步骤
第三节 K-均值聚类
• K-means （J.B.MacQueen ， 1967 ）算法，是目前诸多聚类算法中一种极有影响的技术，常常采用误差平方和准则函数作为聚类准则函数。 • K-means 算法的特点——采用两阶段反复循环过程算法，结束的条件是不再有数据元素被重新分配：① 指定聚类，即指定数据到某一个聚类，使得它与这个聚类中心的距离比它到其它聚类中心的距离要近。② 修改聚类中心。 • 优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N 是数据对象的数目，t是迭代的次数。一般来说， K<<N，t<<N 。
定义：汉明距离用于信息论中，它对应的是两个等长的字符串在相同位置上不同字符的个数。汉明重量是指一个字符串相对于与它等长的零字符串的汉明距离。汉明距离是在信息误差检测和矫正码领域提出来的。信号距离：在数据传输过程中信号数据位发生翻转的次数；编辑距离（Levenshtein）：两个字符之间有一个转成另一个所用的最少的编辑操作次数，操作包括：替换、插入、删除一个字符
)
Jffreys&Matusita距离
D ( x, y ) k 1
n

1
xk
yk

2
1/ 2

• 马氏距离（Mahalanobis）定义多变量向量 X ( x1, x2 ,..., xn ) ，其均值为 M (m1 , m2 ,..., mn ) 协方差矩阵为 D ( X ) ( X M ) ( X M )
匹配测度
• 其它匹配距离定义方法
Rao测度
p t
p qr
Kulzinsky系数
2 p s 2 p s q r
p p 2q r ps p s 2q r
等等
10.1.4相似度量
• 余弦相似度函数
X TY S ( X ,Y ) X *Y
该函数反映了两个向量之间夹角的余弦值，对放大和缩小相对变换无影响。一般在使用前需要对个元素进行无量纲化处理。
相似度量
• 皮尔逊相关系数(Pearson correlation coefficient)
S ( X ,Y ) cov X , Y E X X Y Y
E X X Y Y E X X
类间距离：默认用离差平方和法
SPSS
的操作步骤点间距离：平方欧氏距离
第4步点入【方法】，在【聚类方法】中选择类间距离的定义方法；在【度量标准】的【区间】下选择点间距离的定义方法；在【转换值】的【标准化】框中选择否对原始数据进行标准化处理。
SPSS
的操作步骤
河北，辽宁，安徽，福建，河南，湖北，湖南，四川山西，内蒙古，吉林，黑龙江，江西，广西，海南，重庆，贵州，云南，西藏，陕西，甘肃，青海，宁夏，新疆江苏，浙江，山东，广东
3
8
第三类
16
第四类
4
聚类分析小结
• 聚类分析：按照对象之间的“相似”程度把对象进行分类，使得类别内部的“差异”尽可能小，而类别之间的“差异”尽可能大 • 聚类分析的前期准备工作：各变量的量纲一致转换，如将各变量均作标准化转换 • 分类： – 按照变量对所观察的样本进行分类称为Q型聚类（把行分为若干类） – 按照样本对多个变量进行分类，则称为R型聚类（把列指标分为若干类）
匹配测度
• 简单匹配距离
D(i, j ) qr t
对应的相似度函数
ps S (i, j ) t
• Jaccard系数(Tanimoto系数)
S (i, j ) p pqr
匹配测度
• Dice系数
p S (i, j ) 2p q r
匹配测度
• 汉明距离
D(i, j ) q r
K均值聚类法分为如下几个步骤
• 一、初始化聚类中心 1、根据具体问题，凭经验从样本集中选出 C个比较合适的样本作为初始聚类中心。 2、用前C个样本作为初始聚类中心。 3、将全部样本随机地分成C类，计算每类的样本均值，将样本均值作为初始聚类中心。 • 二、初始聚类 1、按就近原则将样本归入各聚类中心所代表的类中。 2、取一样本，将其归入与其最近的聚类中心的那一类中，重新计算样本均值，更新聚类中心。然后取下一样本，重复操作，直至所有样本归入相应类中。 • 三、判断聚类是否合理 • 采用误差平方和准则函数判断聚类是否合理，不合理则修改分类。循环进行判断、修改直至达到算法终止条件。
T M
定义服从同一分布，且协方差矩阵为量，则 X , Y 差异度：
DM ( X ) ( X Y ) T 1 ( X Y )
的随机变
容易证明，马氏距离对一切非奇异线性变换都是不变的，这说明它不受特征量纲选择的影响。
10.1.3匹配测度
• 特指二元向量的相似性测度 p：两个物体都为1的变量个数 q：i物体为1，j物体为0的变量个数 r：i物体为0，j物体为1的变量个数 s：两个物体都为0的变量个数 t：t=p+q+r+s，所有变量的个数
SPSS
0表示本步聚类的原始样本，第一次出现；其他数字则表示第几步聚类生成的小类参与了本步聚类。
• 以上结果的说明首先把31个地区各自作为一类(共有31类)。第 1 步是把距离最近的两个地区21( 海南 ) 和地区 30( 宁夏 ) 合并成一类。第 2 步被合并的是 21 和地区 29( 青海 ) ，这里的“ 21” 实际上是指在第1步中被合并的类别，只是用 “21”表示21(海南)所在的类别
第2步将用于聚类的所有变量选入【变量；把区分样本的标签 (本例为“地区”)选入【标注个案】；
在【分群】下选择【个案】(本例选择对样本聚类，即对“地区” 进行分类)，若对变量进行聚类，在【分群】下选择【变量】
第3步点入【绘制】选中【树状图】，根据需要选择其它选项
SPSS
的操作步骤
纲变化的影响
相似度量
• Tanimoto测度
X TY ST ( X , Y ) T T T X X Y Y X Y X X, Y中共有的特征 X，Y占有特征总数 X TY
2
Y
2
X TY
Tanimoto测度两个模式的共有特征和共占有特征的比。广义Jaccard系数，在二元属性下归约为Jaccard系数。
相似度量
• 广义Dice系数法
S ( X ,Y ) 2 X TY X
2
Y
2
Dice系数的广义应用推广，与夹角余弦有相似之处，分母分别是两个向量长度的算术平均值与几何平均值。
相似度量
• 直方图间的相似性
1 n X k Yk 2 ( X ,Y ) 2 k 1 X k Yk
例题：根据我国 31 个省市自治区 2006 年的 6 项主要经济指标数据，采用快速聚类法进行分类，并对结果进行分析
（表格数据未显示完整，有31个省份的6个经济指标）
数据检查
可以先观察6项经济指标的有关描述统计量若原始变量取值差异较大，应先将原始数据进行标准化，避免变量值差异过大对分类结果的影响

XY

E Y Y
2 2

XY

相关系数是中心化的夹角余弦
相似度量
• 指数相关系数
3 xi yi 2 1 n e( X , Y ) exp 2 n i 1 4 i
2 i 为相应分量的协方差，n为矢量维数，不受量
层次聚类(hierarchical cluster)
层次聚类又称系统聚类，或分层聚类层次聚类事先不需要确定要分多少类，聚类过程一层层进行，最后得出所有可能的类别结果，研究这根据具体情况确定最后需要的类别。计算类间距离(与上面介绍的点间距离不同 )的方法有很多，不同方法会得到不同的聚类结果，常用的是离差平方和法 (Ward’s method)，又称Ward法
SPSS
的输出结果
的输出结果
层次聚类的树状图
分成四类

最大距离作为相对距离25 ，其余的距离都换算成与之相比的相对距离大小
SPSS
分成两类

冰柱图
SPSS 的输出结果
根据层次聚类需要的结果进行分类汇总
类别地区地区个数
第一类
第二类
北京，天津，上海

第10章 对调查对象的分类抽样调查课件

第10章对调查对象的分类抽样调查课件