清华大学数据可视化教程高维数据可视化v

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多维尺度分析(MDS)简介
• 需要注意的几个问题:
– MDS降维后,坐标系统已无实际意义 – 数据点较多时,MDS结果容易陷入局部收敛,且
对初值非常敏感
• 后续研究:基于标记的MDS、多重网格MDS、 力引导MDS、层次结构加速的MDS
等距特征映射(ISOMAP)简介
• 一种非线性降维方法,影响了整个工业界。 • 其核心思想与MDS类似,只是ISOMAP用数据
• 这两条原理本质上是等价的,从这两个角度都可以推 导出PCA算法的结论。
最大方差理论
• 最大方差理论
– 方差描述了信号的信息量 – 在信号处理中认为信号具有较大的方差,噪声有较
小的方差 – 所谓信噪比就是信号与噪声的方差比,这个量越大
越好
最大方差理论
• 我们希望将数据从n维投影到k维后,每一维的 方差都很大,比如下图有5个样本点:(已经 做过预处理,均值为0,特征方差归一)
– 最大速度(英里/小时)
– 发动机功率
正相关
– 发动机排量
比例关系
高维数据的特点
• 高维 vs 多元
– 高维:数据具有多个独立属性 – 多元:数据具有多个相关属性
• 还是刚才的例子
– 最大速度(千米/小时) – 最大速度(英里/小时) – 发动机功率 – 发动机排量 – 最大里程
高维数据可视化
多维尺度分析(MDS)简介
• MDS与PCA的区别:
– 如果将数据点的相似度定义为数据点之间的欧式距 离,那么MDS等价于PCA
– MDS允许定义不同的相似度,因而更加灵活
Biblioteka Baidu
多维尺度分析(MDS)简介
• 现实世界中数据点之间的距离往往很难精确的 给出数学描述,MDS最典型的应用就是结合感 知距离(比如来自市场调研,用户调查等)。
清华大学“大数据”系列课程
高维数据可视化
计算机系 胡事民
高维数据可视化
• 数据维度 • 高维数据可视化
– 数据变换 – 数据呈现 – 数据交互
数据维度
• 一维数据
– 通过柱状图、饼图等表达
“eaten or not”
单独的一个bar代表一个一维数据
数据维度
• 二维数据
– 可使用平面坐标系表达
数据维度
贡献度
• 从不同的角度我们都可以得出协方差矩阵特征 值的大小描述了对应特征向量的重要程度,因 此我们可以基于特征值谱来定义贡献度:
– 特征值从大到小排序,前k个特征值之和占所有特 征值和的比例称为贡献度 ,该值衡量了将特征从 m维降到k维后新数据对原始数据的保真度
– 在实际工程应用中一般至少要求
PCA 应用
3.5
3
2.5
2
1.5
1
0.5
0
0
0.5
1
1.5
2
2.5
3
3.5
主成分分析(PCA)
• 第一步,样本去中心化:分别求x和y的平均值, 然后对于所有的样例,都减去对应的均值
– x的均值是1.81 – y的均值是1.91
x 2.5 0.5 2.2 1.9 3.1 2.3 2 1 1.5 1.1 y 2.4 0.7 2.9 2.2 3.0 2.7 1.6 1.1 1.6 0.9
多维尺度分析(MDS)简介
• 与PCA不同,MDS从另外一个角度去寻找合适 的低维空间,即数据集相似程度。
• 该算法要求投影前后,数据点对之间的距离尽 量接近:
多维尺度分析(MDS)简介
• 与PCA不同,MDS从另外一个角度去寻找合适 的低维空间,即数据集相似程度。
• 其优化目标为:
,
,
,
, 是数据点i和j之间在原始空间的相似度 , 是数据点i和j之间在K空间的相似度 是数据集在K空间的投影
主成分分析(PCA)
• 第三步,特征分解:求协方差矩阵的特征值和 特征向量,得到 =
主成分分析(PCA)
• 第四步,将特征值按照从大到小的顺序排序, 选择其中最大的k个,然后将其对应的k个特征 向量分别作为列向量组成特征向量矩阵。
– 这里特征值只有两个,我们选择其中最大的那个, 这里是1.2840,对应的特征向量是:
对称矩阵 – 计算协方差矩阵的特征值和特征向量,将特征值从
大到小排序保留最上面的k个特征向量 – 将原数据映射到由k个特征向量张成的新空间中,
从而达到将数据从n维降到k维的目的
主成分分析(PCA)
• PCA算法之所以能达到预期的目的,其内在原 理为这种变换能够:
– 最大化投影后的方差 – 最小化投影后的误差
最大方差理论
• 下面将样本投影到某一维上,假设我们选择两 条不同的直线做投影,那么左右两条中哪个好 呢?
方差 更大
最大方差理论
• 红色点表示样例 ,蓝色点表示 在u上的投影, u是直线的斜率也是直线的方向向量,而且是单位向 量, 由于这些样本点(样例)的每一维特征均值都为 0,因此投影到u上的样本点的均值仍然是0。
主成分分析(PCA)
• 假设我们得到的2维数据如下:
– 列代表了样例,这里有10个样例 – 行代表特征,每个样例两个特征
x 2.5 0.5 2.2 1.9 3.1 2.3 2 1 1.5 1.1 y 2.4 0.7 2.9 2.2 3.0 2.7 1.6 1.1 1.6 0.9
主成分分析(PCA)
最大方差理论
• 我们要求的是最佳的u,使得投影后的样本点方差最 大.由于投影后均值为0,因此方差为: 令等式左边为
协方差 矩阵
最大方差理论
• 我们要求的是最佳的u,使得投影后的样本点 方差最大.由于投影后均值为0,因此方差为:
• 由于 =1 ,所以有
• 即投影后的方差 就是协方差矩阵的特征值, 因此特征值最大的特征向量就是方差最大的 投影方向。
教育程 度
大学
籍贯 上海
高中 浙江
赵五 175cm 75kg 53

初中 广东

高维数据可视化的简单思路
• 在二维/三维图表上增加视觉通道,以表达更多 的属性信息
– 散点的形状、填充形式、颜色、大小等
高维数据可视化的简单思路
• “多视图协同关联”
– 不同的视图表示数据的一部分属性
更高维度
• 增加视觉通道?
• 人脸数据
– 每一幅人脸图像具有64 x 64 = 4096维特征
PCA 应用
• 应用PCA分解,并选取
的50维特征
• 每个脸部重建为一系列人脸基或特征人脸的线
性组合
特征人脸
平均的人脸
PCA 应用
• 仅用50张特征人脸重建出的结果
– 此时对每一幅人脸数据我们只需要一个50维的系数 向量就可以描述,极大降低的数据的维度
• 物理含义:将数据投影到了一个能更好刻画数 据特征的正交坐标系中
**
第二主成分
*
*
* **
* *
*
* *
*
* ** *
* *
*
* * 第一主成分
* *
原始坐标轴
数据点
算法回顾
• 假设有m个数据,每个数据n个属性
– 数据预处理:所有属性减去其平均值 – 计算属性之间的协方差矩阵,该矩阵是一个n*n的
– 人眼能同时处理的视觉通道只有5-7种
• 增加视图?
– 每一视图都只能显示数据的局部属性 难以直观显示数据的整体属性
在信息可视化中,现实的 数据往往具有很高的维度
高维数据的特点
• 真实的数据虽然具有较高维度,但不同的属性 之间往往具有非常强的内在关联性,例如汽车
样本数据可能同时包含:
– 最大速度(千米/小时)
点间的测地距离来定义距离度量矩阵。
高维数据可视化
• 数据维度 • 高维数据可视化
– 数据变换 – 数据呈现 – 数据交互
数据呈现
• 基于点的方法
– 散点图矩阵、径向布局
• 基于线的方法
– 线图、平行坐标、径向轴
• 基于区域的方法
– 柱状图、像素图、堆叠图、马赛克图
• 基于样本的方法
– 星形图、切尔诺夫脸谱图、邮票图
x' 0.69 -1.31 0.39 0.09 1.29 0.49 0.19 0.81 0.31 0.71 y' 0.49 -1.21 0.99 0.29 1.09 0.79 -0.31 -0.81 -0.31 -1.01
主成分分析(PCA)
• 第二步,求特征协方差矩阵:
=
物理含义:对角线上分别是x和y的方差,非对角线上是协 方差。协方差大于0表示x和y若有一个增,另一个也增; 小于0表示一个增,一个减;协方差为0时,两者独立。协 方差绝对值越大,两者对彼此的影响越大,反之越小。
最小误差理论
• 由 =0得到 • 带入并进行简单推导:
最小误差理论
• 最终得到:
协方差矩阵类似,只是 缺少个分母m-1,我们
称之为散列矩阵S
常数
最小误差理论
• 要使二次误差最小,就要使下式最大
• 但同时需要满足约束
,引入拉格朗日乘子
(
)
• 令偏导数为0,问题再一次转化为协方差矩阵的特征
值和特征向量问题
– 假设在图中放置一个弹簧小球,小球沿着x轴方向往复运动, 同时我们在空间中放置了三台相机来捕获小球的运动轨迹。
– 由于小球只沿着x轴方向往返运动,一个垂直于x轴的相机就 可以最大程度的刻画小球的运动,但我们在图中的三个相机 中都检测到了小球的运动,因为这三个相机得到的数据隐藏 了冗余的信息。
– PCA可以快速地去除冗余信息,从而定位到 刻画小球运动最本质的特征。
(-0.6779, -0.7353)T
主成分分析(PCA)
• 第五步,将样本点投影到选取的特征向量上,假
设样本数为m,特征数为n.
– 减去均值后的样本矩阵为

– 协方差矩阵是

– 选取的k个特征向量组成的矩阵
– 那么将n维特征降维成k维特征后的结果为:
主成分分析(PCA)
• 在这个例子中,我们取k=1,得到将原始数据 从两维降到一维后的结果:
• 三维数据
– 可使用空间坐标系表达,本质也是二维的投影 – 人类的视觉感知系统很难脱离
三维空间定势,对三维空间的 理解已远没有二维直观
数据维度
• 多维数据
– 怎样在视觉空间(三维空间/二维平面)上表达?
姓名 张三 李四
身高 体重 180cm 65kg 168cm 55kg
年龄 23 18
性别 男 女
x 2.5 0.5 2.2 1.9 3.1 2.3 2 1 1.5 1.1 y 2.4 0.7 2.9 2.2 3.0 2.7 1.6 1.1 1.6 0.9
Final Data -0.83 1.78 -0.99 -0.27 -1.68 -0.91 0.10 1.14 0.44 1.22
主成分分析(PCA)
直线的二次误差为:
=
+
<
• 这条新直线的二次误差小于原直线,产生矛盾
最小误差理论
• 我们的目标就是寻找一个条最佳的直线,使得 投影后的二次误差最小。
• 由于一条直线可以由一个点t和一个单位向量 唯一确定, 因此我们用下式来刻画这个投影:
• 其中 为 到点 距离,由于数据点的中点一 定在这条直线上,这里我们取 为数据点的中点, 方便起见,我们假设数据的所有属性已经减去 了对应的均值,那么数据点的中点 =0
• 数据维度 • 高维数据可视化
– 数据变换 – 数据呈现 – 数据交互
数据变换
• 降低维度:使用线性或非线性变换把高维数据 投影到低维空间,去掉冗余属性。
• 目标:投影后保留重要的关系
– 减少信息损失 – 保持数据区分度
降低维度
降维方法
• 线性方法
– 主成分分析(PCA) – 多维尺度分析(MDS)
• 非线性方法
– 等距特征映射(ISOMAP) – 局部线性嵌套(LLE)
主成分分析(PCA)
• 一种常用的分析和简化数据的技术 • 定义了一个正交变换,将高维多元数据变换
到一个新的低维坐标系统,使得数据投影的第 一大方差在第一个坐标上,第二大方差在第二 个坐标上,以此类推
主成分分析(PCA)
• 通过下面的简单物理模型来直观表述PCA的目的:
散点图矩阵
• 使用一个二维散点图 表达每对维度之间的 关系
• 直观显示两个维度间 的相关性
• 散点图数目与数据维 度平方成正比
散点图矩阵改进
• 使用自动方法寻找散点图矩阵中可能感兴趣的 散点图
聚类特征
线性特征
A. Tatu, G. Albuquerque, M. Eisemann, P. Bak, H. Theisel, M. Magnor, and D. Keim, “Automated Analytical Methods to Support Visual Exploration of High-Dimensional Data,” IEEE Transactions on Visualization and Computer Graphics, vol. 17, no. 5, pp. 584–597, 2011.
最小误差理论
• 最小误差理论:
– 将数据从高维投影到低维后的损失最小 – 这里以二次误差来定义投影损失,及所有数据点投
影前后的距离之和最小(最小平方误差)
最小误差理论
• 我们首先证明这条直线一定经过所有数据点的 中点,反证法:假设这条直线不经过数据点的
中点,即数据点中点到该直线的距离为
,
则数据点到平行于该直线且经过数据点中点的
相关文档
最新文档