多元统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)
k
k
1
i
1 k i k i 1 max(i ) 1
1 i k
1 i k
( 4) min(i ) k
(5)
1 k ( i1 ) 1 k i 1
典型相关系数的检验
t
r n2 1 r
2
t (n 2)
p
1 2 ˆ Qk [n k ( p q 1)] ln(1 i ) 2 i k
多元统计分析
中国人民大学统计学院 杜子芳
课程介绍
课程内容:
介绍各种多元分析方法 讨论各种方法的联系,优缺点……
考核方式:期末小论文 公共邮箱:rucdy2009@126.com(密码 ruc2009) 助教:刘亚文 liuyawen1985@126.com
推荐参考书目
张尧庭,方开泰,《多元统计分析引论》,北京: 科学出版社,1982。 高惠璇,《应用多元统计分析》,北京:北京大学 出版社,2005。 陈峰,《医用多元统计分析方法》,北京:中国统 计出版社,2000。 [美]Richard A. Johnson, Dean W. Wichern著, 陆璇 叶俊译,《实用多元统计分析》(第6版), 北京:清华大学出版社,2008。
变量i越大,变量k越大,则协方差为正数;变量i越 大,变量k越小,则协方差为负数;若两个变量关 系不大,则协方差接近0 2 当i=k时 s s s
ik kk k
多元的描述统计量——方差和协方差矩阵
s11 s 21 S s p1
s12 s22 sp2
s1 p s2 p s pp
散点图矩阵——多个变量间的关系
p=2时,可以用散点图表示两个变量之间的 关系 p>2时,对p个变量两两配对生成散点图矩 阵
散点图矩阵——多个变量间的关系
Vehicle Weight ...
Miles per Gallon Horsepower Engine Displacement (cu. inches)
消费者偏好研究 消费者对具有不同属性的各种产品进行打分,用联合 分析确定具有哪种属性组合的产品最受欢迎,消费者 最看重哪种属性……
属性 系统(system) 颜色(color) 水平 Windows XP Windows Vista 黑 红
CPU
AMD 羿龙 Intel 酷睿双核
多元统计学的应用——医学
( p k 1)(q k 1)
2
广义相关系数的性质
所有广义相关系数除满足对称性外还具有以 下性质: 0 时,代表U和V不相关,从而任一与任 一中的随机变量都不相关 1 时,代表U和V可以相互线性表出 p q 1 时,等于Pearson相关系数的平方 p q 1 时,等于复相关系数的平方或决定 系数。
数值变量的数字特征
集中性趋势:平均值 分散性趋势:标准差
多元的描述统计量——均值向量
集中趋势,平均水平 1 n 第一个变量的平均值 x1 x j1 n j 1
1 n 第k个变量的平均值 xk x jk n j 1 k 1, 2, ,p
p个变量的均值向量
x1 x2 x xp
多元的描述统计量——方差和协方差矩阵
方差表示变量离散程度,协方差变量间的协同关系 n 1 变量k的方差 sk 2 ( x jk xk )2 k 1, 2, , p n j 1 变量i和变量k的协方差 1 n sik ( x ji xi )( x jk xk ) i 1, 2, , p, k 1, 2, , p n j 1
描述统计量
均值向量 方差和协方差矩阵 相关系数矩阵
图形
散点矩阵图 三维曲面图 轮廓图 闪电图 雷达图 调和曲线图 切尔谢夫脸谱图
一元分析的描述统计量
分类变量的数字特征
集中性趋势:众数 分散性趋势:异众比例
顺序变量的数字特征
集中性趋势:中位数 分散性趋势:四分位数
多元统计学的应用——工业设计
服装定型问题 服装公司希望生产的成衣能适应大多数顾客 的要求。首先做抽样调查,测量身体身高、 坐高、胸围、腰围、裤长、袖长等指标,确 定服装的每种型号是由身体的哪几个主要尺 寸决定的 方法:主成分分析
典型相关---统计相关的集大成
有两组变量(x1,x2,…xp),(y1,y2,…,yq),我 们对两组变量之间的关系感兴趣。 两组共p+q个变量,如果进行两两相关分析 可以得到p×q 或(p+q)(p+q-1)/2 个相 关系数。 但是这两组变量或两个随机向量之间的“整 体”相关关系是什么呢?
闪电图
类似于轮廓图旋转90度 直观上便于各样品之间的比较 柱形图vs条形图
地铁公交服务优劣比较
1
购票不方便
2
3
4
5
购票方便
准时 等待时间短 舒适 物有所值 方便 安全可靠性高 配套设施齐全 座位宽敞 有空调
不准时
等待时间长 不舒适
物非所值
不方便 安全可靠性低 配套设施不齐全 座位拥挤 无空调
典型相关分析的思想
两组随机变量的相关系数我们并未接触,以 前接触的是
一对一的:分类之间,顺序之间,数值之间 一对多的:数值对分类(方差),数值对数值(回归) 多对多的:数值对数值
如何反映多对多的相关呢?
多元统计分析最重要的框架
分类 分类 数值
2
数值
系列 系列
系列
Pearson 相关系数
信息减少,95与100分的差异不见了。
课程框架
自变量之间的关系
聚类分析 主成分分析 因子分析
自变量与因变量之间的关系
因变量 分类型 自变量 分类型 数值型 数值型
列联分析、对应分析 方差分析、联合分析 判别分析、Logistic 回归分析、结构方程模型 回归分析
多元分析的描述统计
注:红线代表地铁,蓝线代表公交车。
投资方案
国家标准
生均占 地面积 生均建 筑面积
推荐方案
70㎡ 生均占
地面积
50㎡ 15㎡
60㎡
16.5㎡ 10台
18㎡ 生均建
筑面积
百生均计 5台 算机数 生均设 备价值 师生比
15台 百生均计
算机数
4500元 1:25
5000元 1:20
5500元
生均设 备价值 师生比
z
0. 241
0. 160
0. 080
3 2 0. 000 -3 1 -2 0 -1 x -1 0 1 -2 2 3 -3 y
轮廓图
横坐标取p个点,表示p个变量; 对于某一样品,纵坐标表示每个变量的取值, 将p个点用直线连起来; 依次画n个样品的图。
轮廓图
100 90 80 70 60 50 40 30 20 政治 语文 英语 数学 物理 1 2 3 4 5 6 7 8 9 10 11 12
分类 顺序 数值
三种数据的变化
升级变化 手段:编码 后果:
计算高级化 信息可能扭曲
降级变化 手段:分组 后果:
计算低级化 信息可能减少
一个降级的例子
学生成绩原本是数值数据:0~100分 分组后成顺序数据:优,良,中,及格,差 后果: 无法进行加减计算了。
典型相关分析的思想
每组变量都进行线性组合,生成代表性变量; 计算不同组任意两个代表性变量的相关系数; 找到相关系数最大对应的两个代表性变量作 为一对“典型”,将“典型”之间的相关系 数用来代表两组变量的线性相关程度,乘为 典型相关系数,又称广义相关系数。
广义相关系数
(1)
(2)
1:16
生均图 70册,30元/册 书册数
80册,35元/册
80册,40元/册 生均图
书册数
雷达图
作一圆,将圆周p等分; 连接圆心和各分点,这p条半径即为p个坐标 轴; 将每一个样品的p个变量取值分别标注在p个 坐标轴上,用直线连接成p边形; n个样品即有n个p边形。
政治 100 90 80 物理 70 60 语文 1 2 3 4 5 6
数学
英语
调和曲线图
Andrews,1972提出 用二维空间的一条曲线表示多维空间的点
x1 f X (t ) x2 sin t x3 cos t x4 sin 2t x5 cos 2t 2 ( t )
各变量数值悬殊时,要先标准化 同类的曲线拧在一起,不同类拧成不同的束
Horsepower
Engine ...
Miles per Gallon
Vehicle Weight (lbs.)
三维曲面图
相关系数r=0,a1=a2=1
z
0. 159
0. 106
0Βιβλιοθήκη Baidu 053
3 2 0. 000 -3 1 -2 0 -1 x -1 0 1 -2 2 3 -3 y
相关系数=0.75, a1=a2=1
更细的分类
一分类 一分类 一数值 多分类 多数值 11 一数值 11 多分类 1 化多为一 多数值 1 线性组合
1 化多为一 1 线性组合 11 11 化多为一 1 化多为一 1 化多为一 化多为一 化多为一 线性组合 线性组合 1 线性组合 1 线性组合 化多为一 线性组合 线性组合
多元的描述统计量——相关系数矩阵
1 r 21 R r p1
r12 1 rp 2
r1 p r2 p 1
图形
散点矩阵图——多个变量之间的关系 三维曲面图——两个变量的联合分布 轮廓图 n很小,p比较大 闪电图 可以很直观进行样品间 雷达图 的比较,并且可以用于 调和曲线图 样品的初步分组和验证 聚类分析的结果 切尔谢夫脸谱图
多元的描述统计量——相关系数矩阵
第i个和第k个变量的相关系数为
rik sik sii skk
(x
j 1
n
ji
xi )( x jk xk )
(x
j 1
n
ji
xi ) 2
(x
j 1
n
i 1, 2,
jk
, p, k 1, 2,
,p
xk ) 2
相关系数是协方差的标准化形式; 相关系数的取值在-1到+1之间; 相关系数衡量的是变量间线性关系的强度
多元统计学的应用——文学
《红楼梦》作者研究(文本挖掘) 选定数十个与情节无关的虚词,把《红楼梦》 120回作为120个样品,统计每一回选定的 这些虚词出现的频数作为变量 方法:聚类分析 李贤平, “红楼梦成书新说”, 《复旦学 报》社会科学版,1987年第5期
多元统计学的应用——营销
胃癌的鉴别 事先有一些经手术后病理化验确诊的病理资料,如 三个总体,胃癌患者、萎缩性胃炎患者、非胃炎患 者,每人化验了4项生化指标(血清铜蛋白、蓝色 反应、尿吲哚乙酸、中性硫化物),根据这些资料 可以建立诊断准则。以后对来就诊的病人,就可以 根据这几项生化指标的结果以及之前建立的准则判 断病人的疾病种类。 方法:判别分析
多元统计分析的数据结构
n个样品p个变量的数据
n个样品 p个变量 (样本点/case) (指标/variable)
多元统计分析的数据结构(续)
变量1 变量2 … 变量p
样品1 样品2 …… 样品n
x11 x 21 x n1
x12 x22 xn 2
x1 p x2 p xnp
变量的分类
性质
分类 定性(qualitative) 顺序 数值——定量(quantitative)
功能
自变量 因变量
三类变量
三类变量的举例
分类:姓名,性别,民族,籍贯 顺序:学历,“成份”,职称 数值:身高,收入,年龄
变量对应的数据容许的最高计算等级
切尔诺夫脸谱图
每个样品用一个脸谱表示 用脸部特征如脸的长度、高度、眼睛大小、 发型等表示各变量的值 可以根据脸的相似程度,将样品分组 无法在同一框架下进行比较 Chernoff, H. “Using Faces to Represent Points in K-Dimensional Space Graphically.”(1973)
k
k
1
i
1 k i k i 1 max(i ) 1
1 i k
1 i k
( 4) min(i ) k
(5)
1 k ( i1 ) 1 k i 1
典型相关系数的检验
t
r n2 1 r
2
t (n 2)
p
1 2 ˆ Qk [n k ( p q 1)] ln(1 i ) 2 i k
多元统计分析
中国人民大学统计学院 杜子芳
课程介绍
课程内容:
介绍各种多元分析方法 讨论各种方法的联系,优缺点……
考核方式:期末小论文 公共邮箱:rucdy2009@126.com(密码 ruc2009) 助教:刘亚文 liuyawen1985@126.com
推荐参考书目
张尧庭,方开泰,《多元统计分析引论》,北京: 科学出版社,1982。 高惠璇,《应用多元统计分析》,北京:北京大学 出版社,2005。 陈峰,《医用多元统计分析方法》,北京:中国统 计出版社,2000。 [美]Richard A. Johnson, Dean W. Wichern著, 陆璇 叶俊译,《实用多元统计分析》(第6版), 北京:清华大学出版社,2008。
变量i越大,变量k越大,则协方差为正数;变量i越 大,变量k越小,则协方差为负数;若两个变量关 系不大,则协方差接近0 2 当i=k时 s s s
ik kk k
多元的描述统计量——方差和协方差矩阵
s11 s 21 S s p1
s12 s22 sp2
s1 p s2 p s pp
散点图矩阵——多个变量间的关系
p=2时,可以用散点图表示两个变量之间的 关系 p>2时,对p个变量两两配对生成散点图矩 阵
散点图矩阵——多个变量间的关系
Vehicle Weight ...
Miles per Gallon Horsepower Engine Displacement (cu. inches)
消费者偏好研究 消费者对具有不同属性的各种产品进行打分,用联合 分析确定具有哪种属性组合的产品最受欢迎,消费者 最看重哪种属性……
属性 系统(system) 颜色(color) 水平 Windows XP Windows Vista 黑 红
CPU
AMD 羿龙 Intel 酷睿双核
多元统计学的应用——医学
( p k 1)(q k 1)
2
广义相关系数的性质
所有广义相关系数除满足对称性外还具有以 下性质: 0 时,代表U和V不相关,从而任一与任 一中的随机变量都不相关 1 时,代表U和V可以相互线性表出 p q 1 时,等于Pearson相关系数的平方 p q 1 时,等于复相关系数的平方或决定 系数。
数值变量的数字特征
集中性趋势:平均值 分散性趋势:标准差
多元的描述统计量——均值向量
集中趋势,平均水平 1 n 第一个变量的平均值 x1 x j1 n j 1
1 n 第k个变量的平均值 xk x jk n j 1 k 1, 2, ,p
p个变量的均值向量
x1 x2 x xp
多元的描述统计量——方差和协方差矩阵
方差表示变量离散程度,协方差变量间的协同关系 n 1 变量k的方差 sk 2 ( x jk xk )2 k 1, 2, , p n j 1 变量i和变量k的协方差 1 n sik ( x ji xi )( x jk xk ) i 1, 2, , p, k 1, 2, , p n j 1
描述统计量
均值向量 方差和协方差矩阵 相关系数矩阵
图形
散点矩阵图 三维曲面图 轮廓图 闪电图 雷达图 调和曲线图 切尔谢夫脸谱图
一元分析的描述统计量
分类变量的数字特征
集中性趋势:众数 分散性趋势:异众比例
顺序变量的数字特征
集中性趋势:中位数 分散性趋势:四分位数
多元统计学的应用——工业设计
服装定型问题 服装公司希望生产的成衣能适应大多数顾客 的要求。首先做抽样调查,测量身体身高、 坐高、胸围、腰围、裤长、袖长等指标,确 定服装的每种型号是由身体的哪几个主要尺 寸决定的 方法:主成分分析
典型相关---统计相关的集大成
有两组变量(x1,x2,…xp),(y1,y2,…,yq),我 们对两组变量之间的关系感兴趣。 两组共p+q个变量,如果进行两两相关分析 可以得到p×q 或(p+q)(p+q-1)/2 个相 关系数。 但是这两组变量或两个随机向量之间的“整 体”相关关系是什么呢?
闪电图
类似于轮廓图旋转90度 直观上便于各样品之间的比较 柱形图vs条形图
地铁公交服务优劣比较
1
购票不方便
2
3
4
5
购票方便
准时 等待时间短 舒适 物有所值 方便 安全可靠性高 配套设施齐全 座位宽敞 有空调
不准时
等待时间长 不舒适
物非所值
不方便 安全可靠性低 配套设施不齐全 座位拥挤 无空调
典型相关分析的思想
两组随机变量的相关系数我们并未接触,以 前接触的是
一对一的:分类之间,顺序之间,数值之间 一对多的:数值对分类(方差),数值对数值(回归) 多对多的:数值对数值
如何反映多对多的相关呢?
多元统计分析最重要的框架
分类 分类 数值
2
数值
系列 系列
系列
Pearson 相关系数
信息减少,95与100分的差异不见了。
课程框架
自变量之间的关系
聚类分析 主成分分析 因子分析
自变量与因变量之间的关系
因变量 分类型 自变量 分类型 数值型 数值型
列联分析、对应分析 方差分析、联合分析 判别分析、Logistic 回归分析、结构方程模型 回归分析
多元分析的描述统计
注:红线代表地铁,蓝线代表公交车。
投资方案
国家标准
生均占 地面积 生均建 筑面积
推荐方案
70㎡ 生均占
地面积
50㎡ 15㎡
60㎡
16.5㎡ 10台
18㎡ 生均建
筑面积
百生均计 5台 算机数 生均设 备价值 师生比
15台 百生均计
算机数
4500元 1:25
5000元 1:20
5500元
生均设 备价值 师生比
z
0. 241
0. 160
0. 080
3 2 0. 000 -3 1 -2 0 -1 x -1 0 1 -2 2 3 -3 y
轮廓图
横坐标取p个点,表示p个变量; 对于某一样品,纵坐标表示每个变量的取值, 将p个点用直线连起来; 依次画n个样品的图。
轮廓图
100 90 80 70 60 50 40 30 20 政治 语文 英语 数学 物理 1 2 3 4 5 6 7 8 9 10 11 12
分类 顺序 数值
三种数据的变化
升级变化 手段:编码 后果:
计算高级化 信息可能扭曲
降级变化 手段:分组 后果:
计算低级化 信息可能减少
一个降级的例子
学生成绩原本是数值数据:0~100分 分组后成顺序数据:优,良,中,及格,差 后果: 无法进行加减计算了。
典型相关分析的思想
每组变量都进行线性组合,生成代表性变量; 计算不同组任意两个代表性变量的相关系数; 找到相关系数最大对应的两个代表性变量作 为一对“典型”,将“典型”之间的相关系 数用来代表两组变量的线性相关程度,乘为 典型相关系数,又称广义相关系数。
广义相关系数
(1)
(2)
1:16
生均图 70册,30元/册 书册数
80册,35元/册
80册,40元/册 生均图
书册数
雷达图
作一圆,将圆周p等分; 连接圆心和各分点,这p条半径即为p个坐标 轴; 将每一个样品的p个变量取值分别标注在p个 坐标轴上,用直线连接成p边形; n个样品即有n个p边形。
政治 100 90 80 物理 70 60 语文 1 2 3 4 5 6
数学
英语
调和曲线图
Andrews,1972提出 用二维空间的一条曲线表示多维空间的点
x1 f X (t ) x2 sin t x3 cos t x4 sin 2t x5 cos 2t 2 ( t )
各变量数值悬殊时,要先标准化 同类的曲线拧在一起,不同类拧成不同的束
Horsepower
Engine ...
Miles per Gallon
Vehicle Weight (lbs.)
三维曲面图
相关系数r=0,a1=a2=1
z
0. 159
0. 106
0Βιβλιοθήκη Baidu 053
3 2 0. 000 -3 1 -2 0 -1 x -1 0 1 -2 2 3 -3 y
相关系数=0.75, a1=a2=1
更细的分类
一分类 一分类 一数值 多分类 多数值 11 一数值 11 多分类 1 化多为一 多数值 1 线性组合
1 化多为一 1 线性组合 11 11 化多为一 1 化多为一 1 化多为一 化多为一 化多为一 线性组合 线性组合 1 线性组合 1 线性组合 化多为一 线性组合 线性组合
多元的描述统计量——相关系数矩阵
1 r 21 R r p1
r12 1 rp 2
r1 p r2 p 1
图形
散点矩阵图——多个变量之间的关系 三维曲面图——两个变量的联合分布 轮廓图 n很小,p比较大 闪电图 可以很直观进行样品间 雷达图 的比较,并且可以用于 调和曲线图 样品的初步分组和验证 聚类分析的结果 切尔谢夫脸谱图
多元的描述统计量——相关系数矩阵
第i个和第k个变量的相关系数为
rik sik sii skk
(x
j 1
n
ji
xi )( x jk xk )
(x
j 1
n
ji
xi ) 2
(x
j 1
n
i 1, 2,
jk
, p, k 1, 2,
,p
xk ) 2
相关系数是协方差的标准化形式; 相关系数的取值在-1到+1之间; 相关系数衡量的是变量间线性关系的强度
多元统计学的应用——文学
《红楼梦》作者研究(文本挖掘) 选定数十个与情节无关的虚词,把《红楼梦》 120回作为120个样品,统计每一回选定的 这些虚词出现的频数作为变量 方法:聚类分析 李贤平, “红楼梦成书新说”, 《复旦学 报》社会科学版,1987年第5期
多元统计学的应用——营销
胃癌的鉴别 事先有一些经手术后病理化验确诊的病理资料,如 三个总体,胃癌患者、萎缩性胃炎患者、非胃炎患 者,每人化验了4项生化指标(血清铜蛋白、蓝色 反应、尿吲哚乙酸、中性硫化物),根据这些资料 可以建立诊断准则。以后对来就诊的病人,就可以 根据这几项生化指标的结果以及之前建立的准则判 断病人的疾病种类。 方法:判别分析
多元统计分析的数据结构
n个样品p个变量的数据
n个样品 p个变量 (样本点/case) (指标/variable)
多元统计分析的数据结构(续)
变量1 变量2 … 变量p
样品1 样品2 …… 样品n
x11 x 21 x n1
x12 x22 xn 2
x1 p x2 p xnp
变量的分类
性质
分类 定性(qualitative) 顺序 数值——定量(quantitative)
功能
自变量 因变量
三类变量
三类变量的举例
分类:姓名,性别,民族,籍贯 顺序:学历,“成份”,职称 数值:身高,收入,年龄
变量对应的数据容许的最高计算等级
切尔诺夫脸谱图
每个样品用一个脸谱表示 用脸部特征如脸的长度、高度、眼睛大小、 发型等表示各变量的值 可以根据脸的相似程度,将样品分组 无法在同一框架下进行比较 Chernoff, H. “Using Faces to Represent Points in K-Dimensional Space Graphically.”(1973)