数学建模主成分分析详解演示文稿
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x2
x1
o
引例:
事换实个上角,度散观点察的分布总有可能沿着某一个 方向略显扩张,这里沿椭圆的长轴方向数 据变化跨度就明显大于椭圆的短轴方向。
Y1
Y2
Y2
结换论个:角长度轴观方察向变量为第一主成分;短轴 方向变量为第二主成分。
Y1
Y2
Y2
当 新旧变量间夹角
为 时,由坐标变
换公式可得主成分获
Y1
t pp X p TpX
Y1 t11 t12 t1p X1
Ywk.baidu.com
t21
t 22
t2
p
X
2
Yp
t p1
t p2
t
pp
X
p
或 Y TX
其中T是正交矩阵
主成分满足的约束
要求:①Y的各分量是不相关的;②并且Y的 第一个分量的方差是最大的;第二个分量 的方差次之,……,等等。③为了保持信 息不丢失,Y的各分量方差和与X的各分 量方差和相等。
得的数学Y模2 型
Y2
结论:Y1 为第一主成分,Y2 为第二主成分。
确定主成分的数学模型:
由坐标转换公式得
YY21XX11csoisn
X2 sin X2 cos
我们看到新变量Y1 和Y2 是原变量 X1 和 X 2 的线性组合,它的
矩阵表示形
式为:
Y1 Y2
cos sin
sin cos
0
即Y1(Σ的方差I)T1 0
主成分的方差及它们的协方差
这里如果我们就取 m 个主成分,应该注意到,对于 Y1, ,Ym 有:
D(Yi ) D(TiX) TiD(X)Ti TiΣTi i 1, 2, , m
Cov(Yi ,Yk ) Cov(TiX,TkX) TiCov(X, X)Tk TiΣTk i,k 1,2, ,m
例:
指标(X1,X2),在坐标系
察散点的分布, x2
x1
o
x
2
中,观
o x1
单独看这n个点的分量 x1 x2 ,它们沿着x1 方 向和 x2 方向都具有相近的离散性,如果仅考
虑其中的任何一个分x1 量,那x么2 包含在另一分
量中的信息将会损失,因此,直接舍弃某个 分量不是“确定主成分”的有效办法。
❖2012年A题 葡萄酒的评价 B题 太阳能小屋的设计
❖2010年B题 上海世博会影响力的 定量评估
❖2009年B题 眼科病床的合理安排 ❖2011年A题 城市表层土壤重金属
污染分析 ❖2012年A题 葡萄酒的评价 均可归属为-
基于数据分析的综合评价模型
两类模型常用建模方法
➢综合评价法 ➢测试分析法 ➢专题建模法 ➢信息合理运用法
三、明确重叠少数学意义
我们知道,当一个变量与有关联时 难免表达信息有重复,没关联反映在数 学上最好是两变量独立,而这一要求过 强,较难满足,这里我们就要求新主成 分之间无线性关系就好,反映在概率理 论上就是每两个主成分之间的协方差为 “0”或相关系数为“0” 。
引 假设共有n个样品,每个样品都测量了两个
❖ 从收集资料的角度来看,收集较多的数据有利于 完整反映样品的特征,但是这些指标从统计角度 来看相互之间具有一定的依赖关系,从而使所观 测的数据在反映信息上有一定重叠,同时又使得 问题变得复杂。
思考:如何减少变量,但信息量保留得较多。
由此产生了主成分分析法。
主成分分析也称主分量分析(principal components analysis,PCA)是由美国 的科学家哈罗德·霍特林(Harold otelling)于1933年首先提出的。
X1 X2
TX
其中, T 为旋转变换矩阵,它是正交矩阵,即有 T T1 或 TT I 。故由 X 到Y 用的是正交变换。
推广一般主成分确定的模型
Y1
t11 X1
t12 X 2
t1p X p T1X
Y2
t21 X1
t22 X 2
t2 p X p T2X
Yp t p1 X1 t p2 X 2
一、降维的两个准则 准则1:信息量损失尽可能少。 准则2:新主成分之间相关性低、重叠少。
二、明确信息量的数学意义
我们知道,当一个变量所取数据相近时,这 个变量(数据)提供的信息量较为单一,当这 个变量取数据差异较大时,说明它对各种场景 的“遍历性”越强,提供的信息就更加充分, 从数学角度来论,变量的标准差或方差越大, 变量涵盖的信息越足。
其中 D(Yi ) 表示方差,Cov表示协方差, 这里X是多维随机向量,D(X)则表述
的是X的协方差阵,一般用
复习:关于随机向量的协方差矩阵
X (X1, X 2 , X 3,, X n ) X的协方差矩阵为
11 12 1n
cov(X i , X j ) E[( X i E(X i )( X j E(X j ))
综合评价基本方法 综合指数法
简易的方法有:
功效评分法
T OP S I S法
最优权法
层次分析法
主成份分析法
常用的方法有:
熵权法
模数糊据综包合络评分价析法法
灰色理论评价方法
测试分析法
❖回归分析 ❖曲线拟合 ❖计算机模拟与仿真
专题建模法
❖数学规划(线性规划与非线性规划) ❖概率论与数理统计 ❖图论 ❖微分方程 ❖各学科实际问题
信息合理运用法
❖将与问题相关的论文合理运用 07年选区的重新划分与统计物理 ❖将其他问题的论文合理运用
❖问题实际背景,在众多评价问题中,人们往往
会对评价样品收集尽可能多的指标,例如人口普 查往往要调查每个人的姓名、年龄、性别、文化 程度、住房、职业、收入、消费等几十项指标; 再如,2012年葡萄评价有24指标。
21
22
2n
,
ij
c ov(X i ,
X
j)
cov(X
j,
Xi)
ji
n1
n2
nn
所以协方差矩阵是对称矩阵,且为非负定的!
第一主成分求法
利用拉格朗日乘数法构造目标函数为:
T=T 1(T1,) T1ΣT1 (T1T1 1)
1
1
对目标函数1(T1, ) 求导数有:
1
T1
2ΣT1
2T1
数学建模主成分分析详解演示文稿
优选数学建模主成分分析
近几年赛题 为例
❖2009年A题 制动器试验台的控制方法分析 B题 眼科病床的合理安排
近几年全国数学建 ❖2010年A题 储油罐的变位识别与罐容表标定 模竞赛题 B题 上海世博会影响力的定量评估
❖2011年A题 城市表层土壤重金属污染分析 B题 交巡警服务平台的设置与调度
x1
o
引例:
事换实个上角,度散观点察的分布总有可能沿着某一个 方向略显扩张,这里沿椭圆的长轴方向数 据变化跨度就明显大于椭圆的短轴方向。
Y1
Y2
Y2
结换论个:角长度轴观方察向变量为第一主成分;短轴 方向变量为第二主成分。
Y1
Y2
Y2
当 新旧变量间夹角
为 时,由坐标变
换公式可得主成分获
Y1
t pp X p TpX
Y1 t11 t12 t1p X1
Ywk.baidu.com
t21
t 22
t2
p
X
2
Yp
t p1
t p2
t
pp
X
p
或 Y TX
其中T是正交矩阵
主成分满足的约束
要求:①Y的各分量是不相关的;②并且Y的 第一个分量的方差是最大的;第二个分量 的方差次之,……,等等。③为了保持信 息不丢失,Y的各分量方差和与X的各分 量方差和相等。
得的数学Y模2 型
Y2
结论:Y1 为第一主成分,Y2 为第二主成分。
确定主成分的数学模型:
由坐标转换公式得
YY21XX11csoisn
X2 sin X2 cos
我们看到新变量Y1 和Y2 是原变量 X1 和 X 2 的线性组合,它的
矩阵表示形
式为:
Y1 Y2
cos sin
sin cos
0
即Y1(Σ的方差I)T1 0
主成分的方差及它们的协方差
这里如果我们就取 m 个主成分,应该注意到,对于 Y1, ,Ym 有:
D(Yi ) D(TiX) TiD(X)Ti TiΣTi i 1, 2, , m
Cov(Yi ,Yk ) Cov(TiX,TkX) TiCov(X, X)Tk TiΣTk i,k 1,2, ,m
例:
指标(X1,X2),在坐标系
察散点的分布, x2
x1
o
x
2
中,观
o x1
单独看这n个点的分量 x1 x2 ,它们沿着x1 方 向和 x2 方向都具有相近的离散性,如果仅考
虑其中的任何一个分x1 量,那x么2 包含在另一分
量中的信息将会损失,因此,直接舍弃某个 分量不是“确定主成分”的有效办法。
❖2012年A题 葡萄酒的评价 B题 太阳能小屋的设计
❖2010年B题 上海世博会影响力的 定量评估
❖2009年B题 眼科病床的合理安排 ❖2011年A题 城市表层土壤重金属
污染分析 ❖2012年A题 葡萄酒的评价 均可归属为-
基于数据分析的综合评价模型
两类模型常用建模方法
➢综合评价法 ➢测试分析法 ➢专题建模法 ➢信息合理运用法
三、明确重叠少数学意义
我们知道,当一个变量与有关联时 难免表达信息有重复,没关联反映在数 学上最好是两变量独立,而这一要求过 强,较难满足,这里我们就要求新主成 分之间无线性关系就好,反映在概率理 论上就是每两个主成分之间的协方差为 “0”或相关系数为“0” 。
引 假设共有n个样品,每个样品都测量了两个
❖ 从收集资料的角度来看,收集较多的数据有利于 完整反映样品的特征,但是这些指标从统计角度 来看相互之间具有一定的依赖关系,从而使所观 测的数据在反映信息上有一定重叠,同时又使得 问题变得复杂。
思考:如何减少变量,但信息量保留得较多。
由此产生了主成分分析法。
主成分分析也称主分量分析(principal components analysis,PCA)是由美国 的科学家哈罗德·霍特林(Harold otelling)于1933年首先提出的。
X1 X2
TX
其中, T 为旋转变换矩阵,它是正交矩阵,即有 T T1 或 TT I 。故由 X 到Y 用的是正交变换。
推广一般主成分确定的模型
Y1
t11 X1
t12 X 2
t1p X p T1X
Y2
t21 X1
t22 X 2
t2 p X p T2X
Yp t p1 X1 t p2 X 2
一、降维的两个准则 准则1:信息量损失尽可能少。 准则2:新主成分之间相关性低、重叠少。
二、明确信息量的数学意义
我们知道,当一个变量所取数据相近时,这 个变量(数据)提供的信息量较为单一,当这 个变量取数据差异较大时,说明它对各种场景 的“遍历性”越强,提供的信息就更加充分, 从数学角度来论,变量的标准差或方差越大, 变量涵盖的信息越足。
其中 D(Yi ) 表示方差,Cov表示协方差, 这里X是多维随机向量,D(X)则表述
的是X的协方差阵,一般用
复习:关于随机向量的协方差矩阵
X (X1, X 2 , X 3,, X n ) X的协方差矩阵为
11 12 1n
cov(X i , X j ) E[( X i E(X i )( X j E(X j ))
综合评价基本方法 综合指数法
简易的方法有:
功效评分法
T OP S I S法
最优权法
层次分析法
主成份分析法
常用的方法有:
熵权法
模数糊据综包合络评分价析法法
灰色理论评价方法
测试分析法
❖回归分析 ❖曲线拟合 ❖计算机模拟与仿真
专题建模法
❖数学规划(线性规划与非线性规划) ❖概率论与数理统计 ❖图论 ❖微分方程 ❖各学科实际问题
信息合理运用法
❖将与问题相关的论文合理运用 07年选区的重新划分与统计物理 ❖将其他问题的论文合理运用
❖问题实际背景,在众多评价问题中,人们往往
会对评价样品收集尽可能多的指标,例如人口普 查往往要调查每个人的姓名、年龄、性别、文化 程度、住房、职业、收入、消费等几十项指标; 再如,2012年葡萄评价有24指标。
21
22
2n
,
ij
c ov(X i ,
X
j)
cov(X
j,
Xi)
ji
n1
n2
nn
所以协方差矩阵是对称矩阵,且为非负定的!
第一主成分求法
利用拉格朗日乘数法构造目标函数为:
T=T 1(T1,) T1ΣT1 (T1T1 1)
1
1
对目标函数1(T1, ) 求导数有:
1
T1
2ΣT1
2T1
数学建模主成分分析详解演示文稿
优选数学建模主成分分析
近几年赛题 为例
❖2009年A题 制动器试验台的控制方法分析 B题 眼科病床的合理安排
近几年全国数学建 ❖2010年A题 储油罐的变位识别与罐容表标定 模竞赛题 B题 上海世博会影响力的定量评估
❖2011年A题 城市表层土壤重金属污染分析 B题 交巡警服务平台的设置与调度