SPSS第十四讲偏相关性分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 相似性或不相似性测度还可用与其它模块,例如:因 子分析、聚类分析以及多维尺度分析的进一步分析, 以助于分析复合数据集。
二值变量的相似性测度选项
• Kulczynski 1:Kulczynski Ⅰ型配对系数,分母为总数与配对 数之差,分子为非配对数,分子与分母的权重相同;
• Kulczynski 2:Kulczynski平均条件概率; • Sokal and Sneath 4:Sokal and Sneath 条件概率; • Hamann:Hamann概率; • Lambda:Goodman-Kruskai相似测量的λ值; • Anderberg's D:以一个变量状态预测另一个变量状态; • Yule's Y:Yule综合系数,属于2×2四格表的列联比例函数; • Yule‘s Q:Goodman-Kruskal γ值,属于2×2四格表的列联比
剔除带有缺失值的所有 个案
• 已知有某河流的一年月平均流量观测数据 和该河流所在地区当年的月平均雨量和月 平均温度观测数据,如表所示。试分析温 度与河水流量之间的相关关系。
相关分析的命令语句
结果分析
一、描述性统计量 表中给出了个变量的均值、标准差和 变量的非缺失值例数。
相关系数
在月平均雨量作为控制变量的条件下,月
度量方式
等距间隔数据选项 计数数据选项 二值数值选项
转换转换选项 转换测度选项
• 结果解读
取值越大说明近似程度 越低,反之亦然
• 例:测得30名13岁男童的身高、体重、肺 活量的数据。对身高、体重和肺活量进行变 量距离分析。
编号 1 2 3 4 5 6 7 8
身高 135.1 139.9 163.6 146.5 156.2 156.4 167.8 149.7
• 依此类推变量Y与Xi的p-1阶偏相关系数为:
r 0 i1 2( i 1 ) ( i 1 )p r 0 i1 2( i 1 1 ) ( i r 0 2 1 p )1 2 ( p ( 1 p ) 1 ) r 0 p 1 1 2 r i 2 p ( 1 p 2 1 ) ( r i i p 1 1 ) ( 2 i 1 ( i ) 1 ( ) p ( i 1 1 ) )( p 1 )
的时间序列数据去计算简单相关系数,
就有可能得出价格越高需求越大的错误 结论。
偏相关分析的公式表达
• 在偏相关中,根据固定变量数目的多少,可
分为零阶偏相关、一阶偏相关、…、(p-1) 阶
偏相关。零阶偏相关就是简单相关。如果用
下标 0 代表 Y,下标 1 代表 X1,下标 2 代
表X2,则变量Y与变量X1之间的一阶偏相关
cases”其余选择默认值。
• 命令语句为: PROXIMITIES 第一次 第二次 第三次 /VIEW=CASE /MEASURE= EUCLID /STANDARDIZE= NONE .
距离分析的相似性矩阵
• 上表是个案距离分析的不相似矩阵。由于操作中利用默认选项 选择距离统计量,所以这里的距离测度为Euclidean距离,是 一种不相似距离测度,数值越大,表示两个个案的不相似性越 大,两叶片差距也就越大。从表中可以看出,在给定的10只叶 片中,第7只叶片和第10只叶片的距离最大;第6、7叶片距离 最小。表示这两只叶片半径测量数据最接近。
系数为:
r012
r01r02r12 1r022 1r122
• r01.2是剔除 X2 的影响之后,Y 与 X1 之间的 偏相关程度的度量。
• r01,r02 ,r12分别是Y ,X1 ,X2两两之间的相 关系数。
• 如果增加变量X3,则变量Y与X1的二阶偏相 关系数为:
r0123
r02r032r132 1r0232 1r322
平均流量和月平均气温间的偏相关为0.365,概 率p值为0.270,在显著性水平为0.05的条件下 ,月平均流量和月平均气温呈的正相关关系, 说明月平均流量和月平均气温的有线性影响但 影响有限。
解释
• 看上去得到了两个相反的结论,为什 么呢?
距离分析
• 一、距离分析的概念 距离分析是对观测量之间或变量之间相似 或不相似程度的一种测度,是计算一对变 量之间或一对观测量之间的广义的距离。 这些相似性或距离测度可以用于其它分析 过程,例如因子分析、聚类分析等。
下表就是该银行所属的25家分行2019年的有关业务 数据。
散点图
不不不良不良良贷良贷贷款贷/款款/款/亿/亿亿元亿元元元
1144 111224
111110002002468024680246802468 00
0
各贷项款累 贷项积 款目应 余个收 额数贷 ((款 亿个元))
本年固定资产投资额(亿元)
肺活量 2500 2250 3000 1250 2750 1750 2250 1750
距离分析命令语句
• PROXIMITIES • 身高 体重 肺活量 • /VIEW=VARIABLE • /MEASURE= CORRELATION • /STANDARDIZE= NONE .
结果分析
距离分析的相似性矩阵,也就是Pearson相关系 数矩阵。从表中可以看出,3个变量之间,身高和体重 的相关系数最大,为0.735,体现出两者之间具有更紧 密的关系。比较而言,身高和肺活量之间的Pearson 相关系数最小,两者之间的相似性测度也最小,体现 出两者之间关系更远一些。
实例二 对飞机叶片的个案距离分析
• 利用三种不同的仪器对飞机的10只叶片半径分别进行 了测量,下表给出了测试结果。现对10只叶片进行距
离分析。
10只叶片的3次测量数据
第 一 次
3测量8.32 38.16 38.19 37.94 38.22 37.73 37.57 37.63 38.07 38.47
对定序型变量之间距离的描述,主要有: • 卡方不相似测度(Chi-Square measure) • Phi方不相似测度(Phi-Square measure)
对二值变量之间的距离描述,主要有:
• 欧氏距离(Euclidean distance) • 平方欧氏距离(Squared Euclidean distance ) • Lane and Williams不相似性测度( Lane and Williams
例函数。 • Ochiai:Ochiai二分余弦测量; • Sokal and Sneath 5:Sokal and Sneath Ⅴ型相似测量; • Phi 4 point correlation:Pearson相关系数的平方值; • Dispersion:Dispersion相似测量。
• Russell and Rao:以二分点乘积为配对系数;
• 第三步:选择检验类型。 变量窗口
显著性检验: 双尾检验(默认) 单尾检验(相关方 向明显时)
显示相关系数时,显 示实际的显著性概率
相关变量
控制变量
• 第四步:打开OPTION选项框。
均值与标准差,即显示每 个变量的均值、标准差和
非缺失值的例数
显示零阶相关矩阵,即 Pearson相关矩阵
仅剔除当前分析的两个 变量值是缺失值的个案
• Simple matching:以配对数与总对数的比例为配对系数;
• Jaccard:相似比例,分子与分母中的配对数与非配对数给 予相同的权重;
• Dice:Dice配对系数,分子与分母中的配对数给予加倍的权 重;
• Rogers and Tanimoto:Rogers and Tanimoto配对系数 ,分母为配对数,分子为非配对数,非配对数给予加倍的权 重;
在距离分析过程中,主要利用变量间
的相似性测度(Similarities)和不相似性
测度(Dissimilarities)度量两者之间的关
系
有多像OR
有多不像?
不相似性测度
对定距型变量间距离描述的统计量,主要有: • 欧式距离(Euclidean distance) • 欧式距离的平方(Squared Euclidean distan-ce ) • 契比雪夫距离(Chebychev) • 绝对值距离(Block) • 闵可夫斯基距离(Minkowski)等。
体重 32 30.4 46.2 33.5 37.1 35.5 41.5 31
肺活量 1570 2000 2750 2500 2750 2000 2750 1500
编号 9 10 11 12 13 14 15 16
身高 145 148.5 165.5 135 153.3 152 160.5 153
体重 33 37.2 49.5 27.6 41 32 47.2 47.2
第九次实验内容
• 两变量的相关分析(Bivariate过程)
• 某地区10名健康儿童头发和全血中的硒含量( 1000ppm)如下,试作发硒与血硒的相关分析。
• 编号发硒血硒
编号
发硒
血硒
1
74
13
2
66
10
3
88
13
4
69
11
5
91
16
6
73
9
7
66
7
8
96
14
9
58
5
10
73
10
第四部分 偏关分析的SPSS过程
• SPSS中相关分析可以通过Analyze菜单进行 (Correlate),Correlate菜单如图所示。
选择其中第二个子菜单进入到偏相关分析界面 (Partial…)
• 第一步:录入数据,打开偏相关分析对话框。
• 第二步:将对话框中左侧的变量列表框中选择 两个变量,作为相关变量,移入Variables列表 框中;选择一个控制变量移入Controlling for列 表框中
)等。
相似性测度
两变量之间可以定义相似性测度统计量,用来对两变量 之间的相似性进行数量化描述。针对定距型变量,主 要有:
• Peason相关系数 • 夹角余弦距离等。
对于二值变量的相似性测度主要包括: • 简单匹配系数(Simple matching) • Jaccard相似性指数(Jaccard) • Hamann相似性测度(Hamann)等20余种。
5 1510000 1固0各累定项积资贷贷应产款款收12投项210余贷050资目额款额///个亿/亿亿元元元20 1335000 25
24043000
• 例:
未知 收入水平
关系? 价格
上升
上升还是 需求量 下降呢?
• 在现实经济生活中,由于收入和价格常 常都有不断提高的趋势,如果不考虑收
入对需求的影响,仅仅利用需求和价格
SPSS第十四讲偏相关性分析
第十四讲 偏相关分析
• 第一部分 Excel与SPSS方式对比 • 第二部分 偏相关分析的概念 • 第三部分 偏相关分析的SPSS过程 • 第四部分 距离分析
相关分析的Excel方式
• 例:一家大型商业银行在多个地区设有分行,其业务 主要是进行基础设施建设、国家重点项目建设、固定 资产投资等项目的贷款。近年来,该银行的贷款额平 稳增长,但不良贷款额也有较大比例的提高,这给银 行业务的发展带来较大压力。为弄清楚不良贷款形成 的原因,管理者希望利用银行业务的有关数据做些定 量分析,以便找出控制不良贷款的办法。
• 已知有我国六城市2019年各月的日照 时数数据如表所示。请分析各城市日 照数是否近似。
• 执行【Analyze】/【Correlate】/【Distances】命令, 弹出【Distances】对话框
变量列表
选择变量
个案(观测量)标识 变量
计算距离选项: 个案距离,计算个案 间的距离; 变量距离,计算变量 之间的距离
第 二 次
3测量8.44 38.07 37.98 38.16 37.88 37.94 37.88 37.82 38.25 38.13
第 三 次
3测量7.76 38.28 37.85 37.82 38.32 37.54 37.51 37.88 37.98 38.63
步骤 • 将三次测量变量移入变量列表,选择“Bewteen
• Sokal and Sneath 1:Sokal and Sneath Ⅰ型配对系数, 分母为配对数,分子为非配对数,配对数给予加倍的权重;
• Sokal and Sneath 2:Sokal and Sneath Ⅱ型配对系数, 分子与分母均为非配对数,但分子给予加倍的权重;
• Sokal and Sneath 3:Sokal and Sneath Ⅲ型配对系数, 分母为配对数,分子为非配对数,分子与分母的权重相同;
二值变量的相似性测度选项
• Kulczynski 1:Kulczynski Ⅰ型配对系数,分母为总数与配对 数之差,分子为非配对数,分子与分母的权重相同;
• Kulczynski 2:Kulczynski平均条件概率; • Sokal and Sneath 4:Sokal and Sneath 条件概率; • Hamann:Hamann概率; • Lambda:Goodman-Kruskai相似测量的λ值; • Anderberg's D:以一个变量状态预测另一个变量状态; • Yule's Y:Yule综合系数,属于2×2四格表的列联比例函数; • Yule‘s Q:Goodman-Kruskal γ值,属于2×2四格表的列联比
剔除带有缺失值的所有 个案
• 已知有某河流的一年月平均流量观测数据 和该河流所在地区当年的月平均雨量和月 平均温度观测数据,如表所示。试分析温 度与河水流量之间的相关关系。
相关分析的命令语句
结果分析
一、描述性统计量 表中给出了个变量的均值、标准差和 变量的非缺失值例数。
相关系数
在月平均雨量作为控制变量的条件下,月
度量方式
等距间隔数据选项 计数数据选项 二值数值选项
转换转换选项 转换测度选项
• 结果解读
取值越大说明近似程度 越低,反之亦然
• 例:测得30名13岁男童的身高、体重、肺 活量的数据。对身高、体重和肺活量进行变 量距离分析。
编号 1 2 3 4 5 6 7 8
身高 135.1 139.9 163.6 146.5 156.2 156.4 167.8 149.7
• 依此类推变量Y与Xi的p-1阶偏相关系数为:
r 0 i1 2( i 1 ) ( i 1 )p r 0 i1 2( i 1 1 ) ( i r 0 2 1 p )1 2 ( p ( 1 p ) 1 ) r 0 p 1 1 2 r i 2 p ( 1 p 2 1 ) ( r i i p 1 1 ) ( 2 i 1 ( i ) 1 ( ) p ( i 1 1 ) )( p 1 )
的时间序列数据去计算简单相关系数,
就有可能得出价格越高需求越大的错误 结论。
偏相关分析的公式表达
• 在偏相关中,根据固定变量数目的多少,可
分为零阶偏相关、一阶偏相关、…、(p-1) 阶
偏相关。零阶偏相关就是简单相关。如果用
下标 0 代表 Y,下标 1 代表 X1,下标 2 代
表X2,则变量Y与变量X1之间的一阶偏相关
cases”其余选择默认值。
• 命令语句为: PROXIMITIES 第一次 第二次 第三次 /VIEW=CASE /MEASURE= EUCLID /STANDARDIZE= NONE .
距离分析的相似性矩阵
• 上表是个案距离分析的不相似矩阵。由于操作中利用默认选项 选择距离统计量,所以这里的距离测度为Euclidean距离,是 一种不相似距离测度,数值越大,表示两个个案的不相似性越 大,两叶片差距也就越大。从表中可以看出,在给定的10只叶 片中,第7只叶片和第10只叶片的距离最大;第6、7叶片距离 最小。表示这两只叶片半径测量数据最接近。
系数为:
r012
r01r02r12 1r022 1r122
• r01.2是剔除 X2 的影响之后,Y 与 X1 之间的 偏相关程度的度量。
• r01,r02 ,r12分别是Y ,X1 ,X2两两之间的相 关系数。
• 如果增加变量X3,则变量Y与X1的二阶偏相 关系数为:
r0123
r02r032r132 1r0232 1r322
平均流量和月平均气温间的偏相关为0.365,概 率p值为0.270,在显著性水平为0.05的条件下 ,月平均流量和月平均气温呈的正相关关系, 说明月平均流量和月平均气温的有线性影响但 影响有限。
解释
• 看上去得到了两个相反的结论,为什 么呢?
距离分析
• 一、距离分析的概念 距离分析是对观测量之间或变量之间相似 或不相似程度的一种测度,是计算一对变 量之间或一对观测量之间的广义的距离。 这些相似性或距离测度可以用于其它分析 过程,例如因子分析、聚类分析等。
下表就是该银行所属的25家分行2019年的有关业务 数据。
散点图
不不不良不良良贷良贷贷款贷/款款/款/亿/亿亿元亿元元元
1144 111224
111110002002468024680246802468 00
0
各贷项款累 贷项积 款目应 余个收 额数贷 ((款 亿个元))
本年固定资产投资额(亿元)
肺活量 2500 2250 3000 1250 2750 1750 2250 1750
距离分析命令语句
• PROXIMITIES • 身高 体重 肺活量 • /VIEW=VARIABLE • /MEASURE= CORRELATION • /STANDARDIZE= NONE .
结果分析
距离分析的相似性矩阵,也就是Pearson相关系 数矩阵。从表中可以看出,3个变量之间,身高和体重 的相关系数最大,为0.735,体现出两者之间具有更紧 密的关系。比较而言,身高和肺活量之间的Pearson 相关系数最小,两者之间的相似性测度也最小,体现 出两者之间关系更远一些。
实例二 对飞机叶片的个案距离分析
• 利用三种不同的仪器对飞机的10只叶片半径分别进行 了测量,下表给出了测试结果。现对10只叶片进行距
离分析。
10只叶片的3次测量数据
第 一 次
3测量8.32 38.16 38.19 37.94 38.22 37.73 37.57 37.63 38.07 38.47
对定序型变量之间距离的描述,主要有: • 卡方不相似测度(Chi-Square measure) • Phi方不相似测度(Phi-Square measure)
对二值变量之间的距离描述,主要有:
• 欧氏距离(Euclidean distance) • 平方欧氏距离(Squared Euclidean distance ) • Lane and Williams不相似性测度( Lane and Williams
例函数。 • Ochiai:Ochiai二分余弦测量; • Sokal and Sneath 5:Sokal and Sneath Ⅴ型相似测量; • Phi 4 point correlation:Pearson相关系数的平方值; • Dispersion:Dispersion相似测量。
• Russell and Rao:以二分点乘积为配对系数;
• 第三步:选择检验类型。 变量窗口
显著性检验: 双尾检验(默认) 单尾检验(相关方 向明显时)
显示相关系数时,显 示实际的显著性概率
相关变量
控制变量
• 第四步:打开OPTION选项框。
均值与标准差,即显示每 个变量的均值、标准差和
非缺失值的例数
显示零阶相关矩阵,即 Pearson相关矩阵
仅剔除当前分析的两个 变量值是缺失值的个案
• Simple matching:以配对数与总对数的比例为配对系数;
• Jaccard:相似比例,分子与分母中的配对数与非配对数给 予相同的权重;
• Dice:Dice配对系数,分子与分母中的配对数给予加倍的权 重;
• Rogers and Tanimoto:Rogers and Tanimoto配对系数 ,分母为配对数,分子为非配对数,非配对数给予加倍的权 重;
在距离分析过程中,主要利用变量间
的相似性测度(Similarities)和不相似性
测度(Dissimilarities)度量两者之间的关
系
有多像OR
有多不像?
不相似性测度
对定距型变量间距离描述的统计量,主要有: • 欧式距离(Euclidean distance) • 欧式距离的平方(Squared Euclidean distan-ce ) • 契比雪夫距离(Chebychev) • 绝对值距离(Block) • 闵可夫斯基距离(Minkowski)等。
体重 32 30.4 46.2 33.5 37.1 35.5 41.5 31
肺活量 1570 2000 2750 2500 2750 2000 2750 1500
编号 9 10 11 12 13 14 15 16
身高 145 148.5 165.5 135 153.3 152 160.5 153
体重 33 37.2 49.5 27.6 41 32 47.2 47.2
第九次实验内容
• 两变量的相关分析(Bivariate过程)
• 某地区10名健康儿童头发和全血中的硒含量( 1000ppm)如下,试作发硒与血硒的相关分析。
• 编号发硒血硒
编号
发硒
血硒
1
74
13
2
66
10
3
88
13
4
69
11
5
91
16
6
73
9
7
66
7
8
96
14
9
58
5
10
73
10
第四部分 偏关分析的SPSS过程
• SPSS中相关分析可以通过Analyze菜单进行 (Correlate),Correlate菜单如图所示。
选择其中第二个子菜单进入到偏相关分析界面 (Partial…)
• 第一步:录入数据,打开偏相关分析对话框。
• 第二步:将对话框中左侧的变量列表框中选择 两个变量,作为相关变量,移入Variables列表 框中;选择一个控制变量移入Controlling for列 表框中
)等。
相似性测度
两变量之间可以定义相似性测度统计量,用来对两变量 之间的相似性进行数量化描述。针对定距型变量,主 要有:
• Peason相关系数 • 夹角余弦距离等。
对于二值变量的相似性测度主要包括: • 简单匹配系数(Simple matching) • Jaccard相似性指数(Jaccard) • Hamann相似性测度(Hamann)等20余种。
5 1510000 1固0各累定项积资贷贷应产款款收12投项210余贷050资目额款额///个亿/亿亿元元元20 1335000 25
24043000
• 例:
未知 收入水平
关系? 价格
上升
上升还是 需求量 下降呢?
• 在现实经济生活中,由于收入和价格常 常都有不断提高的趋势,如果不考虑收
入对需求的影响,仅仅利用需求和价格
SPSS第十四讲偏相关性分析
第十四讲 偏相关分析
• 第一部分 Excel与SPSS方式对比 • 第二部分 偏相关分析的概念 • 第三部分 偏相关分析的SPSS过程 • 第四部分 距离分析
相关分析的Excel方式
• 例:一家大型商业银行在多个地区设有分行,其业务 主要是进行基础设施建设、国家重点项目建设、固定 资产投资等项目的贷款。近年来,该银行的贷款额平 稳增长,但不良贷款额也有较大比例的提高,这给银 行业务的发展带来较大压力。为弄清楚不良贷款形成 的原因,管理者希望利用银行业务的有关数据做些定 量分析,以便找出控制不良贷款的办法。
• 已知有我国六城市2019年各月的日照 时数数据如表所示。请分析各城市日 照数是否近似。
• 执行【Analyze】/【Correlate】/【Distances】命令, 弹出【Distances】对话框
变量列表
选择变量
个案(观测量)标识 变量
计算距离选项: 个案距离,计算个案 间的距离; 变量距离,计算变量 之间的距离
第 二 次
3测量8.44 38.07 37.98 38.16 37.88 37.94 37.88 37.82 38.25 38.13
第 三 次
3测量7.76 38.28 37.85 37.82 38.32 37.54 37.51 37.88 37.98 38.63
步骤 • 将三次测量变量移入变量列表,选择“Bewteen
• Sokal and Sneath 1:Sokal and Sneath Ⅰ型配对系数, 分母为配对数,分子为非配对数,配对数给予加倍的权重;
• Sokal and Sneath 2:Sokal and Sneath Ⅱ型配对系数, 分子与分母均为非配对数,但分子给予加倍的权重;
• Sokal and Sneath 3:Sokal and Sneath Ⅲ型配对系数, 分母为配对数,分子为非配对数,分子与分母的权重相同;