第8 章 高维数据可视化-SDU

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

衡量当前时间点所独有的信息
关键词提取
1. 2. 3. 4. 对文档做分词,生成一个单词集合 用Porter Stemmer清理单词 生成一个co-occurrence graph 用LexRank提取关键词
生成初始字云
1. 生成关键词的相似矩阵 2. 利用MDS生成关键词的散点图
3. 将关键词放入相应的位置,利用力学模型 生成字云
http://www.flickr.com/photos/twitteroffice/5681263084
Did Twitter Break the news?
Tweets posted between 10:20 and 10:45 pm
http://www.flickr.com/photos/twitteroffice/5681263084
年龄 23 18 53
性别 男 女 男
教育程 度 大学 高中 初中
籍贯 上海 浙江 广东
简单的思路
增加视觉通道,以表达更多的属性信息
散点的形状、填充形式、颜色、大小等
简单的思路
多视图协调关联
更高维度
高维数据可视化
数据变换
降低维度
使用线性或非线性变换把高维数据投影到低维空间
投影保留重要的关系(无信息损失;保持数据区分等 )
基于力的字云生成
ห้องสมุดไป่ตู้
Example: AIG News Data
13,828 articles (Jan. 14, 2008 to Apr. 5, 2009)
Example: AIG News Data
Example: Apple News
1933 news articles from NYT (1989-‐2009)
稳定的动态布局
基本概念
一个话题由一组语义相关的关键词所定义
两个关键词如果经常在文本集里面出现在一起 ,他们就被认为是语义相关的
我们的方法
基于上下文的动态字云可视化方法
语义关系和空间利用 多个字云之间的稳定布局
系统总揽图
趋势线图 + 动态字云
字云的相似度
基于信息熵
H(X): X所含的信息 H(X;Y): X和Y所共有的信息 H(X|Y): X所独有的信息

Classifier
• • •
% of tweets classified as certain
0.2 0.4 0.6 0.8
Keith Urbahn ABC, NBC and 1 CBS
0
Did Twitter convince its audience?
Time
Obama speech
22:21 22:28 22:35 22:41 22:46 22:51 22:55 22:59 23:02 23:06 23:09 23:13 23:16 23:20 23:23 23:27 23:30 23:34 23:37 23:41 23:45 23:48 23:52 23:56 0:00 0:05 0:10 0:15
News breakers
1200
Mentions per min
1000 800 600
@keithurbahn @jacksonjk @brianstelter 10:24 pm 10:32 pm
400
200
0
22:21 22:23 22:25 22:28 22:30 22:33 22:35 22:37 22:39 22:41 22:43 22:45
1200
Mentions per min
1000 800 600
@keithurbahn @jacksonjk @brianstelter
400
200
0
22:21 22:23 22:25 22:28 22:30 22:33 22:35 22:37 22:39 22:41 22:43 22:45
Time
第二主成分
* * * * * * * * * * ** * * * * * * *
原始坐标轴
数据点
主成分分析(PCA)
• 最大化投影后的方差 • 最小化投影后的损失
* * * * 第一主成分 *
第二主成分
* * * * * * * * * * ** * * * * * * *
原始坐标轴
数据点
方差 (1/2)
Time
Did Twitter convince its audience?
• • All English Tweets in data set: 420,134 Certainty classification
• • • Certain: They caught Osama Bin Laden! Uncertain: Rumor, Bin Laden dead. Don’t know for sure. Irrelevant: Obama: "the US is not – and never will be – at war with Islam…Bin Laden was not a Muslim leader; he was a mass murderer...“ Training set: 300 tweets, 2 raters agreed on 235 (78.3%) SVM with bag-of-words as features Cross-validation: 75.8% overall confidence
News breakers
@jacksonjk: Jill Jackson – CBS News Capitol Hill producer @keithurbahn: Keith Urbahn - Chief of staff of former defense secretary Donald Rumsfeld @brianstelter: Brian Stelter – New York Times reporter
MDS允许定义不同的相似度,因而更加灵活
实例:美国地图
已知一些城市间的距离
MDS的结果
MDS的运用案例分析
Cui et al. IEEECG&A 2010
文档数据
文本分析
商业咨询和情报分析
字云
字云
不适合做对比分析
直接的方法
挑战 (1/2)
富有语义意义布局 V.S. 紧凑的布局
挑战(2/2)
基于数据集相似程度的降维方法
在某些情况下,只能够衡量数据点之间的距离
多维尺度分析(MDS)
输入 数据点X间的相似矩阵M,以及投影的维度K 输出 所有数据点在K维平面上的坐标Y 投影空间(平面)中点对间的相似度尽量逼近原 始空间的相似度
目标函数
MDS与PCA
如果将数据点的相似度定义为数据点之间的 欧氏距离,那么MDS等价于PCA
散点矩阵
散点矩阵
使用一个二维散点图 表达每对维度之间的 关系 直观显示两个维度间 的相关性 散点图数目与数据维 度平方成正比
改进
使用自动方法寻找散点图矩阵中可能感兴趣的散点图
聚类特征 维度相关性特征
A. Tatu, G. Albuquerque, M. Eisemann, P. Bak, H. Theisel, M. Magnor, and D. Keim, “Automated Analytical Methods to Support Visual Exploration of High-Dimensional Data,” IEEE Transactions on Visualization and Computer Graphics, vol. 17, no. 5, pp. 584–597, 2011.
Example: Apple News
1933 news articles from NYT (1989-‐2009)
Example: Apple News
1933 news articles from NYT (1989-‐2009)
数据呈现
高维数据呈现方法
基于点的方法——散点矩阵、径向布局
Twitter broke Bin Laden’s death
10:45 pm: ABC, NBC & CBS report Bin Laden’s death
http://www.flickr.com/photos/twitteroffice/5681263084
Twitter broke Osama Bin Laden’s death
有特征的维度对
径向布局法
径向布局法
基于弹簧模型的圆形布局方法
将代表N维的N个锚点至于圆周上
根据N个锚点作用的N种力量将数据点散布于圆内。
径向布局法
线图
线图
单变量可视化方法。
通过多子图、多线条等方法可以延伸表示高维数据。 通过不同的视觉通道编码不同的数据属性
Twitter上的爆炸性新闻的传播
降低维度
方法
线性方法
* 主成分分析(PCA) * 多维尺度分析(Multidimensional Scaling,MDS)
* 非负矩阵分解(NMF)
非线性方法
* ISOMAP
* 局部线性嵌套(LLE)
主成分分析(PCA)
• 最大化投影后的方差 • 最小化投影后的损失
* * * * 第一主成分 *
11:30 pm: Pres. Obama begins remarks
http://www.flickr.com/photos/twitteroffice/5681263084
Data
• • • • May 1st 10:20 pm EST – May 2nd 12:20 am EST “laden” 614,976 tweets Sampled (roughly 10%)
http://www.flickr.com/photos/twitteroffice/5681263084
Twitter broke Bin Laden’s death
10:24 pm: Keith Urbahn tweets about Osama rumor
http://www.flickr.com/photos/twitteroffice/5681263084
第12章 高维数据可视化
山东大学计算机科学与技术学院
蒋志方
目录
数据维度 高维数据可视化
数据变换
数据呈现
数据交互
数据维度
一维数据
二维数据
三维数据
Elmqvist et al. IEEE TVCG 2008
多维数据
身高 张三 李四 赵五 … 180cm 168cm 175cm
体重 65kg 55kg 75kg
Who generated the buzz?
100 accounts mentioned in 18.10% of sampled tweets
Mainstream media Media people Twitter celebrities Real-life celebrities Blogs Political people & org “Osama”, “Jesus” News aggregators Others 26 @cnn, @nytimes, @cnnbrk 18 @jacksonjk, @brianstelter 16 @nzafro, @yourfavwhiteguy 15 @stevemartintogo, @kimkardashianb 6 @realmorte, @ugglytruth 4 @barackobama, @whitehouse 4 @real_bin_laden, @osamabinladen 3 @breakingnews, @usabreakingnews 5 @jtalarico328, @realliltunechii
Hu et al. ACM CHI 2012
Twitter broke Bin Laden’s death
http://www.flickr.com/photos/twitteroffice/5681263084
Twitter broke Bin Laden’s death
9:45 pm: White House announces Pres. Obama speech
方差描述变量的信息量
y x * * * * * * * * * * ** * * * * * * *
Noise
* * * * Signal *
数据点
方差 (2/2)
最大化投影后的方差
特征向量
特征值谱
PCA 应用于脸部数据
64 x 64 = 4096
PCA 应用于脸部数据
把每个脸部重建为一系列人脸基或特征人脸的线性组合
基于线的方法——线图、平行坐标、径向轴 基于区域的方法——柱状图、表格显示、像素图、 维度堆叠、马赛克图 基于样本的方法——切尔诺夫脸谱图、邮票图
高维数据呈现方法
基于点的方法——散点矩阵、径向布局
基于线的方法——线图、平行坐标、径向轴 基于区域的方法——柱状图、表格显示、像素图、 维度堆叠、马赛克图 基于样本的方法——切尔诺夫脸谱图、邮票图
平均的人脸
重建
90%的方差是可以被前50个特征向量捕获
只需50张基图像就可以重建存在的人脸
基于PCA的可视化过程
问题:
• 主成分难以理解 • 空间转换难以联系
方法:
• 基于PCA的可视化过程
Müller et al. APVIS 2006
用第一主成分排列数据
关联映射空间和原始空间
多维尺度分析(MDS)
相关文档
最新文档