多元统计分析课件——杜子芳
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数值变量的数字特征
集中性趋势:平均值 分散性趋势:标准差
多元的描述统计量——均值向量
集中趋势,平均水平 1 n 第一个变量的平均值 x1 x j1 n j 1
1 n 第k个变量的平均值 xk x jk n j 1 k 1, 2, ,p
p个变量的均值向量
切尔诺夫脸谱图
每个样品用一个脸谱表示 用脸部特征如脸的长度、高度、眼睛大小、 发型等表示各变量的值 可以根据脸的相似程度,将样品分组 无法在同一框架下进行比较 Chernoff, H. “Using Faces to Represent Points in K-Dimensional Space Graphically.”(1973)
数学
英语
调和曲线图
Andrews,1972提出 用二维空间的一条曲线表示多维空间的点
x1 f X (t ) x2 sin t x3 cos t x4 sin 2t x5 cos 2t 2 ( t )
各变量数值悬殊时,要先标准化 同类的曲线拧在一起,不同类拧成不同的束
变量i越大,变量k越大,则协方差为正数;变量i越 大,变量k越小,则协方差为负数;若两个变量关 系不大,则协方差接近0 2 当i=k时 s s s
ik kk k
多元的描述统计量——方差和协方差矩阵
s11 s 21 S s p1
s12 s22 sp2
s1 p s2 p s pp
闪电图
类似于轮廓图旋转90度 直观上便于各样品之间的比较 柱形图vs条形图
地铁公交服务优劣比较
1
购票不方便
2
3
4
5
购票方便
准时 等待时间短 舒适 物有所值 方便 安全可靠性高 配套设施齐全 座位宽敞 有空调
不准时
等待时间长 不舒适
物非所值
不方便 安全可靠性低 配套设施不齐全 座位拥挤 无空调wenku.baidu.com
信息减少,95与100分的差异不见了。
课程框架
自变量之间的关系
聚类分析 主成分分析 因子分析
自变量与因变量之间的关系
因变量 分类型 自变量 分类型 数值型 数值型
列联分析、对应分析 方差分析、联合分析 判别分析、Logistic 回归分析、结构方程模型 回归分析
多元分析的描述统计
胃癌的鉴别 事先有一些经手术后病理化验确诊的病理资料,如 三个总体,胃癌患者、萎缩性胃炎患者、非胃炎患 者,每人化验了4项生化指标(血清铜蛋白、蓝色 反应、尿吲哚乙酸、中性硫化物),根据这些资料 可以建立诊断准则。以后对来就诊的病人,就可以 根据这几项生化指标的结果以及之前建立的准则判 断病人的疾病种类。 方法:判别分析
多元的描述统计量——相关系数矩阵
1 r 21 R r p1
r12 1 rp 2
r1 p r2 p 1
图形
散点矩阵图——多个变量之间的关系 三维曲面图——两个变量的联合分布 轮廓图 n很小,p比较大 闪电图 可以很直观进行样品间 雷达图 的比较,并且可以用于 调和曲线图 样品的初步分组和验证 聚类分析的结果 切尔谢夫脸谱图
典型相关分析的思想
两组随机变量的相关系数我们并未接触,以 前接触的是
一对一的:分类之间,顺序之间,数值之间 一对多的:数值对分类(方差),数值对数值(回归) 多对多的:数值对数值
如何反映多对多的相关呢?
多元统计分析最重要的框架
分类 分类 数值
2
数值
系列 系列
系列
Pearson 相关系数
1:16
生均图 70册,30元/册 书册数
80册,35元/册
80册,40元/册 生均图
书册数
雷达图
作一圆,将圆周p等分; 连接圆心和各分点,这p条半径即为p个坐标 轴; 将每一个样品的p个变量取值分别标注在p个 坐标轴上,用直线连接成p边形; n个样品即有n个p边形。
政治 100 90 80 物理 70 60 语文 1 2 3 4 5 6
多元统计学的应用——文学
《红楼梦》作者研究(文本挖掘) 选定数十个与情节无关的虚词,把《红楼梦》 120回作为120个样品,统计每一回选定的 这些虚词出现的频数作为变量 方法:聚类分析 李贤平, “红楼梦成书新说”, 《复旦学 报》社会科学版,1987年第5期
多元统计学的应用——营销
(3)
k
k
1
i
1 k i k i 1 max(i ) 1
1 i k
1 i k
( 4) min(i ) k
(5)
1 k ( i1 ) 1 k i 1
典型相关系数的检验
t
r n2 1 r
2
t (n 2)
p
1 2 ˆ Qk [n k ( p q 1)] ln(1 i ) 2 i k
多元的描述统计量——相关系数矩阵
第i个和第k个变量的相关系数为
rik sik sii skk
(x
j 1
n
ji
xi )( x jk xk )
(x
j 1
n
ji
xi ) 2
(x
j 1
n
i 1, 2,
jk
, p, k 1, 2,
,p
xk ) 2
相关系数是协方差的标准化形式; 相关系数的取值在-1到+1之间; 相关系数衡量的是变量间线性关系的强度
变量的分类
性质
分类 定性(qualitative) 顺序 数值——定量(quantitative)
功能
自变量 因变量
三类变量
三类变量的举例
分类:姓名,性别,民族,籍贯 顺序:学历,“成份”,职称 数值:身高,收入,年龄
变量对应的数据容许的最高计算等级
典型相关分析的思想
每组变量都进行线性组合,生成代表性变量; 计算不同组任意两个代表性变量的相关系数; 找到相关系数最大对应的两个代表性变量作 为一对“典型”,将“典型”之间的相关系 数用来代表两组变量的线性相关程度,乘为 典型相关系数,又称广义相关系数。
广义相关系数
(1)
(2)
注:红线代表地铁,蓝线代表公交车。
投资方案
国家标准
生均占 地面积 生均建 筑面积
推荐方案
70㎡ 生均占
地面积
50㎡ 15㎡
60㎡
16.5㎡ 10台
18㎡ 生均建
筑面积
百生均计 5台 算机数 生均设 备价值 师生比
15台 百生均计
算机数
4500元 1:25
5000元 1:20
5500元
生均设 备价值 师生比
散点图矩阵——多个变量间的关系
p=2时,可以用散点图表示两个变量之间的 关系 p>2时,对p个变量两两配对生成散点图矩 阵
散点图矩阵——多个变量间的关系
Vehicle Weight ...
Miles per Gallon Horsepower Engine Displacement (cu. inches)
消费者偏好研究 消费者对具有不同属性的各种产品进行打分,用联合 分析确定具有哪种属性组合的产品最受欢迎,消费者 最看重哪种属性……
属性 系统(system) 颜色(color) 水平 Windows XP Windows Vista 黑 红
CPU
AMD 羿龙 Intel 酷睿双核
多元统计学的应用——医学
多元统计分析
统计学院 杜子芳
课程内容
描述统计 典型相关 主成分和因子分析 聚类分析 判别和logistic回归
推荐参考书目
张尧庭,方开泰,《多元统计分析引论》,北京: 科学出版社,1982。 高惠璇,《应用多元统计分析》,北京:北京大学 出版社,2005。 陈峰,《医用多元统计分析方法》,北京:中国统 计出版社,2000。 [美]Richard A. Johnson, Dean W. Wichern著, 陆璇 叶俊译,《实用多元统计分析》(第6版), 北京:清华大学出版社,2008。
( p k 1)(q k 1)
2
广义相关系数的性质
所有广义相关系数除满足对称性外还具有以 下性质: 0 时,代表U和V不相关,从而任一与任 一中的随机变量都不相关 1 时,代表U和V可以相互线性表出 p q 1 时,等于Pearson相关系数的平方 p q 1 时,等于复相关系数的平方或决定 系数。
x1 x2 x xp
多元的描述统计量——方差和协方差矩阵
方差表示变量离散程度,协方差变量间的协同关系 n 1 变量k的方差 sk 2 ( x jk xk )2 k 1, 2, , p n j 1 变量i和变量k的协方差 1 n sik ( x ji xi )( x jk xk ) i 1, 2, , p, k 1, 2, , p n j 1
分类 顺序 数值
三种数据的变化
升级变化 手段:编码 后果:
计算高级化 信息可能扭曲
降级变化 手段:分组 后果:
计算低级化 信息可能减少
一个降级的例子
学生成绩原本是数值数据:0~100分 分组后成顺序数据:优,良,中,及格,差 后果: 无法进行加减计算了。
多元统计学的应用——工业设计
服装定型问题 服装公司希望生产的成衣能适应大多数顾客 的要求。首先做抽样调查,测量身体身高、 坐高、胸围、腰围、裤长、袖长等指标,确 定服装的每种型号是由身体的哪几个主要尺 寸决定的 方法:主成分分析
典型相关---统计相关的集大成
有两组变量(x1,x2,…xp),(y1,y2,…,yq),我 们对两组变量之间的关系感兴趣。 两组共p+q个变量,如果进行两两相关分析 可以得到p×q 或(p+q)(p+q-1)/2 个相 关系数。 但是这两组变量或两个随机向量之间的“整 体”相关关系是什么呢?
z
0. 241
0. 160
0. 080
3 2 0. 000 -3 1 -2 0 -1 x -1 0 1 -2 2 3 -3 y
轮廓图
横坐标取p个点,表示p个变量; 对于某一样品,纵坐标表示每个变量的取值, 将p个点用直线连起来; 依次画n个样品的图。
轮廓图
100 90 80 70 60 50 40 30 20 政治 语文 英语 数学 物理 1 2 3 4 5 6 7 8 9 10 11 12
Horsepower
Engine ...
Miles per Gallon
Vehicle Weight (lbs.)
三维曲面图
相关系数r=0,a1=a2=1
z
0. 159
0. 106
0. 053
3 2 0. 000 -3 1 -2 0 -1 x -1 0 1 -2 2 3 -3 y
相关系数=0.75, a1=a2=1
多元统计分析的数据结构
n个样品p个变量的数据
n个样品 p个变量 (样本点/case) (指标/variable)
多元统计分析的数据结构(续)
变量1 变量2 … 变量p
样品1 样品2 …… 样品n
x11 x 21 x n1
x12 x22 xn 2
x1 p x2 p xnp
描述统计量
均值向量 方差和协方差矩阵 相关系数矩阵
图形
散点矩阵图 三维曲面图 轮廓图 闪电图 雷达图 调和曲线图 切尔谢夫脸谱图
一元分析的描述统计量
分类变量的数字特征
集中性趋势:众数 分散性趋势:异众比例
顺序变量的数字特征
集中性趋势:中位数 分散性趋势:四分位数
更细的分类
一分类 一分类 一数值 多分类 多数值 11 一数值 11 多分类 1 化多为一 多数值 1 线性组合
1 化多为一 1 线性组合 11 11 化多为一 1 化多为一 1 化多为一 化多为一 化多为一 线性组合 线性组合 1 线性组合 1 线性组合 化多为一 线性组合 线性组合