914295-大数据解决方案交流-大数据的科学问题与若干研究_0829

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

可展示的几何空间
Facebook
Wordle
Whisper
大数据研究中的科学问题(可视分析问题)
基本科学问题
Microsoft T-drive [Yuan et al., 2010]
高维数据的本质特征提取; 形象的结构化表征(可表达几何空间的构造); 从数据特征空间到可表达几何空间的映照设计; 基于不变量(几何,代数)的高维数据展示方式; 非结构化数据的隐结构识别与展示;
y(x0, )
x0
光斑
梯度流: 类中心:
dx
dt
x P( x,
)
x(0) x0
y(
x0
,
)
lim
t
x(t;
x0
,
)
300类 ( = 0.2 )
3类( =1)
1 类 ( = 5 )
基于尺度空间的数据建模(聚类)
梯度流迭代公式:
基于尺度空间的聚类算法
步骤 1:确定一序列尺度 0,1,..,. 其中0 0 。当 0 0 时, 每个数据点都是一 类,而该数据点即为所在类的类中心。令 i 1 。 步骤 2:在尺度 i下,从 0 前一尺度 i1的聚类中心点出发,找到新的聚 0类中 心,并对数据进行聚合归类。 步骤 3:如果类数大于1, 令i i 1, 返回步骤2。
高维问题:p>>n; 大数据高维问题:p=O(exp(n)), n ->∞.
线性模型: y = b1x1 + b2x2+, , bpxp 数据:D = {(x1, y1),(x2, y2 ), ,(xn, yn )} 矩阵形式: Y = b Xn´p p´1
➢ 解 bˆ = (X ' X)-1X 'Y
➢ 渐近正态 n(bˆ
-
b
)
~
N
(0,
1 n
(X
'
X
)-1s
2
d

N
(0,
s
2
I
p´ p
)
大数据研究中的科学问题(超高维问题)
热点研究:稀疏建模(压缩感知、低秩矩阵分解、基于稀 疏性的特征提取、数据降维、压缩学习等)
基本科学问题
如何补足信息使问题可解? 低维几何的高维泛化(积分几何); 高维统计推断 超高维数据的低维特征(多维特征提取等);
大数据研究中的科学问题(重采样问题)
大数据的重采样:如何进行合适的subsampling,将大数据随机划分成 若干小数据集,而根据小数据集所获得的统计推断,进行聚合处理后 能反应原大数据集的规律与形态。
随机机制
D1
X1
….
X2
X3 …
Dk

….
Xn
Dm
聚合机制
热点问题:The Big Data Bootstrap. Kleiner et.al. 2012 ICML
特征 = (坐标,颜色)
图像滤波:
将象素点的颜色替换为所 在类的中心点颜色。
输入图像
滤波图像
图像分割:
将类的标号赋予该类的所 有像素点。
输入图像
分割边界
Mean Shift [Dorin Comaniciu, IEEE Trans. PAMI, 2002]
三个基本问题: 如何离散化尺度? 什么是类? 类是单调演化的吗?
基于视觉认知的数据建模(视觉聚类器)
应用到各种复杂数据集:
数据集
视觉聚类器结果
尺度空间聚类结果
未引入连续率的结果
引入连续率的结果
具有显著密度差 异性数据
流形结构数据
具有噪声的流形结 构数据
图像分割
基于尺度空间的数据建模(聚类)
应用到图像滤波/分割:
大数据价值:数据整体蕴含事件的相关性、发展的规律性与趋势, 揭示这样的相关性、规律性与趋势为科学探索、解决广泛的社会 发展与国家安全问题提供了依据与可能(特别是高的社会价值和 解决社会学问题的方法论)。
科学研究
• 高能物理 • 天文 • 生命科学 • 机械设计 • ………
经济与社会
国家治理
• 推动物联网、云计算产业升级
纽约与华盛顿之间的流量监控 Data: http://internet2.edu/observatory/achive/data-collections.html
初步探索(基于视觉认知的非结构化信息处理)
核心思想:将非结构化数据建模问题看成是一个认知问题,然后通过 模拟视觉认知原理来解决。
为什么我一眼就 看出来了呢?
聚类
分类
回归
基于尺度空间的数据建模(尺度空间)
问题:如何从数学上刻画视网膜上的图像清晰程度与观察距离或 者晶状体曲率之间的关系?
令 p(x) 为自然界中某个物体的光强分布, 该物体在视网膜上所形成的光 强分布 可P(以x,通) 过如下偏微分方程描述:
线性扩散 模型:
P
xP
P(x,0) p(x)
平行坐标系
解决上述科学问题的初步探索
大数据高维问题(稀疏建模) 重采样和分布式计算 流数据的实时计算 非结构化问题
初步探索(重采样与分布式计算)
Step 1:重采样数据使得整体数据随机均匀的分布在m台local machines上.
D1
均匀分布
….
X1
X2
X3
Dk

….

Xn
Global Machine
(结构化大数据<15%:表格、曲线、几何图形、程序 、有限规则集)
(非结构化大数据>85%:文本、图像、时空数据、基因与蛋白质、视频)
大数据研究中的科学问题(非结构化问题)
基本科学问题
异构数据的统一表示与分析方法 (向量 矩阵 张量)
非结构化 数据处理的统一框架(特 别是机器学习算法);
多源异构数据的信息融合; 基于认知的非结构化信息处理;
分布式实时计算:是大数据处理的计算模式,它包含多处理器自主计算、 相互通信,为完成统一任务而并行工作的实时计算过程。主要挑战来自 数据的分布性与计算的实时性要求。
HDFS
HBase
MapReduce
Hadoop
大数据研究中的科学问题(分布实时计算)
基本科学问题
与分布式实时计算相适应的存储 与查询 (理论、技术);
数据图像: 尺度空间图像:
p(x)
1 N
N
(x xi )
i 1
P(x, ) p(x) k(x, )
p(x y)
1
e dy
|| y||2 2 2
2 2
数据集的多尺度演化:
= 0.2
= 1.2
= 5.0
基于尺度空间的数据建模(聚类)
什么是类:一个光斑可解释为一类。光斑是由收敛于同一极大值点的所 有数据点所组成,而极大值点即为该类的类中心。
关于大数据(什么是大数据?)
大数据:不能集中存储、难以在可接受时间内分析处理、 而数据整体呈现高价值的海量复杂数据集。
体量大
不能用现有的物理设备集中存储, 开放,高速可扩展。
复杂性高
价值丰富
多源、异构、相关、非结构化、不一 个体或部分数据呈现低价值,而数据
定可靠、不一致性。
整体呈现高价值。
大数据研究(价值与意义)
非结构化数据
文本
图像
视频
统一机器学习框架
决策: F(x)
大数据研究中的科学问题(可视分析问题)
可视分析:运用与人类视认知相一致的图形或者图像方式生动展示高维 数据的内在结构与规律性。提供了人机协同处理数据、人人广泛参与收 集理解的平台(或许是解决大数据问题的另外一条道路)。
数据空间
映照关系
特征提取
P(x, ) p(x)* g(x, ) p(x y)g( y, )dy
其中,
g(x, )
1
|x|2
e 2 2
( 2 )2
为尺度, 表示物体与视网膜之间的距离或者晶状体的曲率。
注:该模型仅为理想视网膜模型,即假设视网膜的成像是各向同性和空间不变的。
基于尺度空间的数据建模(聚类)
基本原理: 将数据点视为单位光强的光点,将数据集视为一幅图像; 通过模拟人眼的视觉原理,发展基于尺度空间的聚类原理与算法 (Trans. PAMI, 2000).
初步探索
关于大数据(什么是大数据?)
大数据是指无法在容许的时间 内用常规的软件工具对其内容 进行抓取、管理和处理的数据 集合,大数据规模的标准是持 续变化的,当前泛指单一数据 集的大小在十几TB和PB之间。 (维基百科)
ZB(1021),EB(1018),PB(1015),TB(1012),GB(109),MB(106)
管理、物理、 电子与信息
数据获取
数据存储、 查询与管理
计算机科学
数学与统计学
数据分析 与理解
数据应用
各行各业
大数据产业管理(产业链管理、商业模式、公共政策)
大数据研究中的科学问题
超高维问题 重采样问题 分布式实时计算问题 非结构化问题 可视分析问题
大数据研究中的科学问题(超高维问题)
大数据高维问题:“决策要素(p)伴随大数据规模(n)呈现更高量级”所引 起的解的不确定性与经典统计推断失效问题。 经典统计学:n>>p;
Dm
Local Machines
聚合机制
Global Machine
初步探索(重采样与分布式计算)
Step 2: 分布地在每台local machine运行某算法,再整合到global machine.
D1
均匀分布
….
X1
X2
X3
Dk

….

Xn
Global Machine
Dm
Local Machines
Zongben Xu et.al. Efficiency speed-up for evolutionary computation
Fundamentals and Fast-Gas. AMC 2003
大数据研究中的科学问题(非结构化问题)
非结构化问题:不能用有限规则完全表征与刻画,并不能在可接受时间内 形式化处理的大数据。主要的挑战来自数据的异构性、信息的不相容性与 认知的不一致性。
ຫໍສະໝຸດ Baidu
大数据研究中的科学问题(重采样问题)
基本科学问题
如何重采样以刻画大数据整体特征? 基于试验设计的重采样; 基于目标信息处理的重采样; 更加有效的聚合原理(Boosting,
Bagging);
未知 总体
大数据就 是“总体”
实验设计 数 据
如何实验设计体现总体
大数据研究中的科学问题(分布实时计算)
聚合机制
Global Machine
初步探索(重采样与分布式计算)
试验及初步理论
线性回归模型: 参数设置: 噪声: 样本个数:100万(MB级) 参数空间维数:100 数据总量:6G 使用local machines:
初步理论:
试验结果
初步探索(流数据的实时计算)
网络流量异常检测: 网络数据是一类典型的流数据(大数据)。通过 检测源节点到目的地节点连接的通信流,识别网络流量异常。
问题的可分解性与解的可组装性? 针对流数据的分布式实时算法
设计(超越nlog(n)复杂性); 大数据环境下的机器学习与数据挖掘; 众包(crowdsourcing)方法论
……….
数据D1
D1 + D2
函数:F(x)
新增加 数据D2
Fnew (x)
编码 X = (0, 0, 0,1,1,1, 0, 0, , 0,1,1, 0)
交通异常检测
初步探索(流数据的实时计算)
网络拓扑图
稀疏异常矩阵:A 稀疏-低秩建模:
低秩交通矩阵:X
LLA-LADM算法:序列收敛到目标函数的稳定点
初步探索(流数据的实时计算)
Abilene IP网络
• 11个城市,41个链接,121条OD通信流 • 每5分钟记录一次网络流量 • 动态监控网络流量的变化,实时识别流量异常
• 数据资产 (国家竞争力)
• •

大数据商业模式 (vs工业化模式) 企业核心竞争力 (数据规模、 活性与解释力) 影响社会文化与组织
• • • •
数据主权 (同边、海、空防) 国防安全监控 网络监控 …….
• 远程医疗
• ……..
大数据研究是高度的多学科综合研究
大数据研究催生大数据产业 (从数据到价值的产业链)
大数据研究的若干科学问题
徐宗本
(西安交通大学)
Email: zbxu@mail.xjtu.edu.cn Homepage: http://zbxu.gr.xjtu.edu.cn
内容提要
关于大数据的认识 大数据研究中的若干科学问题
超高维问题 重采样问题 分布式实时计算问题 非结构化问题 可视分析问题
相关文档
最新文档