第10章 对调查对象的分类抽样调查课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10.1.2几种距离定义
• 欧几里德距离
定义点
X ( x1 , x2 ,..., xn )
n
Y(y 1 , y 2 ,..., y n )
DE ( X , Y ) ( x1 y1 ) 2 ( x2 y 2 ) 2 ... ( xn y n ) 2
(x
i 1
i
- yi ) 2
几种距离定义
• 曼哈顿距离
D ( x , y ) ( xk y k )
k 1 n
• 切比雪夫距离
D( x, y ) max( xk yk )
• Camberra距离(Lance距离,Williams距离)
D ( x, y ) (
k 1 n
xk y k
xk y k
第10章 对调查对象的分类
第一节 距离与相似性度量
• • • • • 内容 10.1.1测度空间定义 10.1.2 几种距离测度定义 10.1.3 匹配测度 10.1.4 相似度量
10.1.1测度空间
• • d(x, y) ≥ 0 (非负性) d(x, y) = 0 当且仅当 x = y (不可区分者的 同一性) • d(x, y) = d(y, x) (对称性) • d(x, z) ≤ d(x, y) + d(y, z) (三角不等式)
总结:X与Y的距离实质是(X-Y)的模:,计 算该距离之前要标准化模式向量单位
几种距离定义
• 明可夫斯基距离 公式:
m n DM ' ( xi , yi ) xik ykj k 1 总结:L-p范数空间的距离定义,m=2:欧式距 离相等,m=1:曼哈顿距离,m为无穷大:切 比雪夫距离 1 m

数据标准化(SPSS)
【分析】【描述统计】 【描述】主对话 框 将需要标准化的变量选入【变量】 【将标准 化得分另存于变量】 【确定】
各指标均值差 别太大,需要 进行标准化
2
2 距离是最常用的直方图之间的距离。
相似度量
• 当各特征值非负时,还可见到下列几种相似系数。
min x , y S ( X ,Y ) max x , y
i i i i i
S wk.baidu.com X ,Y )
min x , y
i i i
i
min x , y S ( X ,Y ) xy
制定分类:最多5类, 最少2类,将结果表存 在原始数据表中
第5步 点入【保存】,在【方案范围】指定要分成最少类、 最多类时各样本所属的类,点击【继续】【确定】
每一步被合 并的对象
参与聚类的是原始的样 本还是已经合并的小类
的 输 出 结 果
层 次 聚 类 过 程 的 步 骤 号
聚类步骤 聚类系数:距离
i i i i i i
1 xi yi 2 i
第二节 分层聚类
• 概念完全按照反映对象特征的数据把对象 进行分类,这在统计上称为聚类分析。 • 聚类分析不同于因素分析:因素分析是根 据所有变量间的相关关系提取公共因子; 聚类分析是先将最相似的两个变量聚为一 小类,再去与最相似的变量或小类合并, 如此分层依次进行; • 聚类分析不同于判别分析:事先有了某种 分类标准之后,判定一个新的研究对象应 该归属到哪一类别,这在统计上则称为判 别分析(discriminant analysis)。
例题:根据我国 31 个省市自治区 2006 年的 6 项主要经济指标数据,采用层次聚类法进 行分类,并对结果进行分析
(表格数据未显示完整,有31个省份的6个经济指标)
SPSS
的 操 作 步 骤
• 第1步 选择【分析】下拉 菜单,并选择【分类】 【系统分类】,进入主对话 框
SPSS
的 操 作 步 骤
第三节 K-均值聚类
• K-means (J.B.MacQueen , 1967 )算法,是 目前诸多聚类算法中一种极有影响的技术,常常 采用误差平方和准则函数作为聚类准则函数。 • K-means 算法的特点——采用两阶段反复循环过 程算法,结束的条件是不再有数据元素被重新分 配:① 指定聚类,即指定数据 到某一个聚类,使 得它与这个聚类中心的距离比它到其它聚类中心 的距离要近。② 修改聚类中心。 • 优点:本算法确定的K 个划分到达平方误差最小。 当聚类是密集的,且类与类之间区别明显时,效 果较好。对于处理大数据集,这个算法是相对可 伸缩和高效的,计算的复杂度为O(NKt),其中N 是数据对象的数目,t是迭代的次数。一般来说, K<<N,t<<N 。
定义:汉明距离用于信息论中,它对应的是两个等长的 字符串在相同位置上不同字符的个数。汉明重量是指一 个字符串相对于与它等长的零字符串的汉明距离。 汉明距离是在信息误差检测和矫正码领域提出来的。 信号距离:在数据传输过程中信号数据位发生翻转的次 数; 编辑距离(Levenshtein):两个字符之间有一个转成另 一个所用的最少的编辑操作次数,操作包括:替换、插 入、删除一个字符
)
Jffreys&Matusita距离
D ( x, y ) k 1
n

1
xk
yk

2
1/ 2

• 马氏距离(Mahalanobis) 定义多变量向量 X ( x1, x2 ,..., xn ) ,其均值为 M (m1 , m2 ,..., mn ) 协方差矩阵为 D ( X ) ( X M ) ( X M )
匹配测度
• 其它匹配距离定义方法
Rao测度
p t
p qr
Kulzinsky系数
2 p s 2 p s q r
p p 2q r ps p s 2q r
等等
10.1.4相似度量
• 余弦相似度函数
X TY S ( X ,Y ) X *Y
该函数反映了两个向量之间夹角的余弦值,对放 大和缩小相对变换无影响。一般在使用前需要对 个元素进行无量纲化处理。
相似度量
• 皮尔逊相关系数(Pearson correlation coefficient)
S ( X ,Y ) cov X , Y E X X Y Y
E X X Y Y E X X
类间距离:默认用离差平方和法
SPSS
的 操 作 步 骤 点间距离: 平方欧氏距离
第4步 点入【方法】, 在【聚类方法】中选 择类间距离的定义方 法;在【度量标准】 的【区间】下选择点 间距离的定义方法; 在【转换值】的【标 准化】框中选择否对 原始数据进行标准化 处理。
SPSS
的 操 作 步 骤
河北,辽宁,安徽,福建,河南,湖 北,湖南,四川 山西,内蒙古,吉林,黑龙江,江西, 广西,海南,重庆,贵州,云南,西 藏,陕西,甘肃,青海,宁夏,新疆 江苏,浙江,山东,广东
3
8
第三类
16
第四类
4
聚类分析小结
• 聚类分析:按照对象之间的“相似”程度把对象 进行分类,使得类别内部的“差异”尽可能小, 而类别之间的“差异”尽可能大 • 聚类分析的前期准备工作:各变量的量纲一致转 换,如将各变量均作标准化转换 • 分类: – 按照变量对所观察的样本进行分类称为Q型聚 类(把行分为若干类) – 按照样本对多个变量进行分类,则称为R型聚 类(把列指标分为若干类)
匹配测度
• 简单匹配距离
D(i, j ) qr t
对应的相似度函数
ps S (i, j ) t
• Jaccard系数(Tanimoto系数)
S (i, j ) p pqr
匹配测度
• Dice系数
p S (i, j ) 2p q r
匹配测度
• 汉明距离
D(i, j ) q r
K均值聚类法分为如下几个步骤
• 一、初始化聚类中心 1、根据具体问题,凭经验从样本集中选出 C个比较合适的 样本作为初始聚类中心。 2、用前C个样本作为初始聚类中心。 3、将全部样本随机地分成C类,计算每类的样本均值,将 样本均值作为初始聚类中心。 • 二、初始聚类 1、按就近原则将样本归入各聚类中心所代表的类中。 2、取一样本,将其归入与其最近的聚类中心的那一类中, 重新计算样本均值,更新聚类中心。然后取下一样本,重 复操作,直至所有样本归入相应类中。 • 三、判断聚类是否合理 • 采用误差平方和准则函数判断聚类是否合理,不合理则修 改分类。循环进行判断、修改直至达到算法终止条件。
T M
定义服从同一分布,且协方差矩阵为 量,则 X , Y 差异度:
DM ( X ) ( X Y ) T 1 ( X Y )
的随机变
容易证明,马氏距离对一切非奇异线性变换都是 不变的,这说明它不受特征量纲选择的影响。
10.1.3匹配测度
• 特指二元向量的相似性测度 p:两个物体都为1的变量个数 q:i物体为1,j物体为0的变量个数 r:i物体为0,j物体为1的变量个数 s:两个物体都为0的变量个数 t:t=p+q+r+s,所有变量的个数
SPSS
0表示 本步聚 类的原 始样本, 第一次 出现; 其他数 字则表 示第几 步聚类 生成的 小类参 与了本 步聚类。
• 以上结果的说明 首先把31个地区各自作为一类(共有31类)。 第 1 步是把距离最近的两个地区21( 海南 ) 和 地区 30( 宁夏 ) 合并成一类。第 2 步被合并的 是 21 和地区 29( 青海 ) ,这里的“ 21” 实际上 是指在第1步中被合并的类别,只是用 “21”表示21(海南)所在的类别
第2步 将用于聚类的所有 变量选入【变量;把区分 样本的标签 (本例为“地 区”)选入【标注个案】;
在【分群】下选择【个案】(本例选择对样本聚类,即对“地区” 进行分类),若对变量进行聚类,在【分群】下选择【变量】
第3步 点入【绘制】选中【树状 图】,根据需要选择其它选项
SPSS
的 操 作 步 骤
纲变化的影响
相似度量
• Tanimoto测度
X TY ST ( X , Y ) T T T X X Y Y X Y X X, Y中共有的特征 X,Y占有特征总数 X TY
2
Y
2
X TY
Tanimoto测度两个模式的共有特征和共占有特 征的比。广义Jaccard系数,在二元属性下归约 为Jaccard系数。
相似度量
• 广义Dice系数法
S ( X ,Y ) 2 X TY X
2
Y
2
Dice系数的广义应用推广,与夹角余弦有相似之 处,分母分别是两个向量长度的算术平均值与几 何平均值。
相似度量
• 直方图间的相似性
1 n X k Yk 2 ( X ,Y ) 2 k 1 X k Yk
例题:根据我国 31 个省市自治区 2006 年的 6 项主要经济指标数据,采用快速聚类法进 行分类,并对结果进行分析
(表格数据未显示完整,有31个省份的6个经济指标)
数据检查
可以先观察6项经济指标的有关描述统计量 若原始变量取值差异较大,应先将原始数据 进行标准化,避免变量值差异过大对分类结 果的影响


XY


E Y Y
2 2


XY


相关系数是中心化的夹角余弦
相似度量
• 指数相关系数
3 xi yi 2 1 n e( X , Y ) exp 2 n i 1 4 i
2 i 为相应分量的协方差,n为矢量维数,不受量
层次聚类(hierarchical cluster)
层次聚类又称系统聚类,或分层聚类 层次聚类事先不需要确定要分多少类,聚 类过程一层层进行,最后得出所有可能的 类别结果,研究这根据具体情况确定最后 需要的类别。 计算类间距离(与上面介绍的点间距离不同 )的方法有很多,不同方法会得到不同的聚 类结果,常用的是离差平方和法 (Ward’s method),又称Ward法
SPSS
的 输 出 结 果
的 输 出 结 果
层 次 聚 类 的 树 状 图
分成四类

最大距离作为相对距离25 ,其余的距离都换算成与 之相比的相对距离大小
SPSS
分成两类




冰柱图
SPSS 的 输 出 结 果
根据层次聚类需要的结果进行分类汇总
类别 地区 地区个数
第一类
第二类
北京,天津,上海
相关文档
最新文档