模式识别与分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
金属间的相关性大于卤素间的
Cu与Cl反性相关
l1最重要,距原点距离越大,该特征权重越大,Cu
模式识别与分类 PCA实例1
相似 系数 相关 系数
cos ij
k n k 1
k n k 1 ik
x x jk
n 2 k n 2 ( k x )( k 1 x jk ) k 1 ik
• 值域调整range scaling
x
* ik
xik xk ,min xk ,max xk ,min
* 0 xik 1
• 自标度化 Autoscaling
xik xk x sk
* ik
均值0 方差1 模长 n 1
模式识别与分类 数据预处理
• 标准化 Normalization
模式识别与分类 导言
• Clustering/Classification 统称 • 一次观察的矢量表示 • 如下问题 t x x1 x2 xn
人眼识别物 中医看舌苔/脉搏 图谱辨别化合物 n为空间维数,变量数 变量即特征 各特征类型/量纲/大小 相差大
• 低维与高维数据
模式识别与分类 数据预处理
nPC
2 se
,
2
3
1 2 3 4 5
斜率下降
因此d=2合适
0.90 100.00
模式识别与分类 PCA实例1
得分图
2.5
t1对t2作图
3个聚类 分属三人
6 3 7
1.5
9
4
主 成 分 图 形 解 释
1
t2
0.5
-0.5
8 5
2
t1最重要
3
-1.5 -3
-2
-1
0 t1
1
2
模式识别与分类 PCA实例1
模式识别与分类
无 主成分分析PCA 监 督 因子分析FA 方 聚 类分析 clustering 法
模式识别与分类 PCA
X TL
T 得分score
载荷loading
d为主成分数
模式识别与分类 PCA
投影判别法
T XL
数据重构 组成互不相关的新变量 取较少的主成分数(常为2),完成分类
2.5 9 1.5 4
载荷图 l1对l2作图
0.8 0.6 0.4 0.2
I Cu Cl Mn
l2
0 -0.2 -0.4 -0.6 -0.8 -1 -0.6
特征在主成分上的投影 各变量的相关信息 夹角越小,相关性越高 高度相关的特征取1即可 载荷大小是重要性的度量 位于原点的载荷不重要
主 成 分 图 形 解 释
Br
-0.4 -0.2 0 l1 0.2 0.4 0.6
返回
原始数据
X(9×5)
autoscaling 计算 相关矩阵
8
9
11.8
8.5
0.42
0.25
867
1620
43.1
5.2
1.5
6.2
计算 特征值
模式识别与分类 PCA实例1
方差百分数
4
特征值>1
Scree检验
p
s
2 e 2
1
λ
3
i
i 1
d
对于相关矩阵, i
i 1
p
i
0.5 8 5 -1.5 -3 -2 -1 0 2
1
-0.5
6 3 7
1
2
3
模式识别与分类 PCA实例1
不同嫌疑人头发中元素的含量(μg/g)
样品 1 2 3 4 5 6 7 Cu 9.2 12.4 7.2 10.2 10.1 6.5 5.6 Mn 0.30 0.39 0.32 0.36 0.50 0.20 0.29 Cl 1730 930 2750 1500 1040 2490 2940 Br 12.0 50.0 65.3 3.4 39.2 90.0 88.0 I 3.6 2.3 3.4 5.3 1.9 4.6 5.6
i 1
1
p
λ>1的成分为主成分
主 成 分 数 的 确 定
头发样品中的特征值与方差
成分数 特征值λ 方差% 累计方差% 3.352 1.182 0.285 0.135 0.045 67.05 23.65 5.70 2.70 67.05 90.70 96.40 99.10
4 5
指定
0 0
如90% 相应的 d2-3间 nPC在
模式识别与分类 数据预处理
相wenku.baidu.com矩阵如下:
1 r 12 R r1 p r12 1 r2 p r1 p 其中 r2 p r jk 1
cov( j, k ) sij sik
但对于Autoscaling后的数据,s=1。 C即为R。
rij
( xik xi )(x jk x j )
n k n 2 2 [k ( x x ) ][ ( x x ) ] ik i jk j k 1 k 1
主 成 分 图 形 解 释
1:完全相同 0:完全正交 自标度化 的数据 cosα=r
Br/I 接近正交
相似系数或相关系数表 Cu Cu/Cl 负相关 Cu 1.000 Mn
模式识别与分类 数据预处理
方差-协方差矩阵,简称协方差矩阵如下:
2 s11 cov(2,1) C cov(p,1)
cov( 1,2) 2 s22 cov(p,2)
cov( 1, p) cov(2, p) 2 s pp
对称矩阵
模长为1
色谱面积归1
质谱最大为1
xik x xk
* ik
x
* ik
xik
x
i 1
n
ik
x
* ik
xik max(xik )
模式识别与分类 数据预处理
• 变换法
x xik
* ik
x lg xik
* ik
• 组合法
原变量相加/减/除等
模式识别与分类 数据预处理
• 特征的选择
偏差权重法 s大的变量更重要
Mn 0.697 Cl -0.950 Br -0.530 I -0.645 1.000 -0.692 -0.233 -0.749 Cl 1.000 0.588 0.581 Br 1.000 -0.084
模式识别与分类 PCA实例1
Fisher比率法 F大的变量更重要
Fi
xi1 xi 2
si1 si 2
2
模式识别与分类 数据预处理
•协方差矩阵C与相关矩阵R 对于 X (n p ) n为对象数,p为特征数
1 s xij x j n 1 i 1
2 ij n 2
方差 j=1,…,p
协方差 1 n xij x j xik xk j,k=1,…,p; cov(j, k ) n 1 i 1 j≠k