大数据研究的若干科学问题及初步研究结果
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据研究中的科学问题(非结构化问题)
基本科学问题
异构数据的统一表示与分析方法 (向量 矩阵 张量)
非结构化 数据处理的统一框架(特 别是机器学习算法);
多源异构数据的信息融合; 基于认知的非结构化信息处理;
非结构化数据
文本
图像
视频
统一机器学习框架
决策: F(x)
大数据研究中的科学问题(可视分析问题)
关于大数据的认识(价值与意义)
大数据价值:数据整体蕴含事件的相关性、发展的规律性与趋势, 揭示这样的相关性、规律性与趋势为科学探索、解决广泛的社会 发展与国家安全问题提供了依据与可能(特别是高的社会价值和 解决社会学问题的方法论)。
科学研究
• 高能物理 • 天文 • 生命科学 • 机械设计 • ………
定可靠、不一致性。
整体呈现高价值。
关于大数据的认识(时代背景)
被多数发达国家列为未来国家战略优先发展领域 ➢ 2011年,奥巴马在“美国创新战略”中发布了《大数据研究和发展倡议》 ➢ 欧盟将信息技术作为《欧洲2020战略》的优先发展领域之一,而大数据研究 为其中非常重要的一个方向 ➢ 法国、德国、英国、日本、韩国和俄罗斯等重要国家都将信息产业列为国家 未来战略优先发展领域之一
基于Hadoop的分布式算法:Hadoop是主流的分布式处理系统框架。Map-
Reduce是基于Hadoop的一种分布式数据处理编程模式,其工作原理为“分而 治之”。基于这种分而治之的策略设计的算法可统称之为分布式算法。
HDFS
HBase
MapReduce
Hadoop
重采样问题:分布式回归的可行性
引起国际社会广泛关注 ➢ 麦肯锡2011年5月发布《下一个前沿:创新、竞争和生产力》报告,认为大数 据将引发新一轮的生产力增长与创新 ➢ 世界经济论坛2012年发布《Big Data,Big Impact》报告,阐述大数据为世 界带来的新机遇 ➢ 联合国在2012年5月公布了《大数据促发展:挑战与机遇》白皮书 ➢ IDC 在2012年6月发布《中国互联网市场洞见:互联网大数据技术创新研究》 报告,指出大数据将引领中国互联网行业新一轮技术浪潮
大数据研究的若干科学问题 及初步研究结果
(西安交通大学)
内容提要
关于大数据的认识 大数据分析与处理中的科学问题 若干进展
关于大数据的认识(数据)
数据: 信息的载体;计算机处理的基本对象。
数据的多样性和高复杂性
(文本、图像、地理数据、基因与蛋白质数据、视频、程序、有限规则集等)
关于大数据的认识 (什么是大数据?)
大数据研究中的科学问题(非结构化问题)
非结构化问题:不能用有限规则完全表征与刻画,并不能在可接受时间内 形式化处理的大数据。主要的挑战来自数据的异构性、信息的不相容性与 认知的不一致性。
(结构化大数据<15%:表格、曲线、几何图形、程序 、有限规则集)
(非结构化大数据>85%:文本、图像、时空数据、基因与蛋白质、视频)
D1
均匀分布
….
X1
X2
X3
Dk
…
….
…
Xn
Global Machine
Dm
聚合机制
Global Machine
Local Machines
重采样问题:分布式回归的可行性
Step 3: 将local machine所获得的m个回归估计聚合形成一个整体估计 (运用某种聚合算法,例如简单平均)。
模型:
K均值:
最优划分:
噪音特征:一个特征j为噪音特征如果对于 任意给定的划分C都有
否则为相关特征。
超高维问题:大数据聚类
理论:如果数据X由高斯混合模型产生,其中有p*个
相关特征,p-p*个噪音特征,则
(I)
(II)
结论:高斯混合数据具有稳定聚类;对于这样的大数 据而言,其最优划分与p无关(n足够大):
大数据关注程度:30%企业已开始大数据工作,34%的企业 已计划两年内开始。其中50%数企业并不知道如何从数据 中获取价值。
一一《2013年大数据普及程度及背后的炒作》(Gartner)
为什么要关 注呢,能做 什么?
数据的价值得到广泛认可 数据挖掘成为普世的高新技术
高附加值在哪里?
值得热,但不可以一哄而起!
HDFS
HBase
MapReduce
Hadoop
大数据研究中的科学问题(分布实时计算)
基本科学问题
与分布式实时计算相适应的存储 与查询 (理论、技术);
问题的可分解性与解的可组装性? 大数据环境下的机器学习与数据挖掘; 众包(crowdsourcing)方法论
……….
数据D1
函数:F(x)
经济与社会
国家治理
• 推动物联网、云计算产业升级
• 数据资产 (国家竞争力)
• •
大数据商业模式 (vs工业化模式) 企业核心竞争力 (数据规模、 活性与解释力)
• • •
数据主权 (同边、海、空防) 国防安全监控 网络监控
• 影响社会文化与组织
• …….
• 远程医疗
• ……..
关于大数据的认识(值得热吗?)
流数据(容易=处理速度快于数据更新速度) 分布式数据(容易=交互速度快于数据处理速度)
…
R = A(D)
Rt = At (Dt )
数据处理
交互
D1
D2 D3
大数据研究中的科学问题(分布实时计算)
分布式实时计算:是大数据处理的计算模式,它包含多处理器自主计算、 相互通信,为完成统一任务而并行工作的实时计算过程。主要挑战来自 数据的分布性与计算的实时性要求。
可视分析:运用与人类视认知相一致的图形或者图像方式生动展示高维 数据的内在结构与规律性。提供了人机协同处理数据、人人广泛参与收 集理解的平台(或许是解决大数据问题的另外一条道路)。
数据空间
映照关系
特征提取
可展示的几何空间
Wordle
Whisper
大数据研究中的科学问题(可视分析问题)
传递性
大数据研究中的科学问题(计算理论问题)
计算理论:大数据背景下有关一个计算问题是否可解与能解的理论。传统 上,一个可解性问题是指能在有限步内在图灵机上求解的问题;一个问题 能解是指在可接受的存储空间与时间代价下,该问题可以求解。
经典的计算复杂性理论(可解性理论): 计算时间(时间复杂性),占用内存空间(空间复杂性)
Xp1
Xp2
Xp3
……
Xpt
C*1
C*2
C*3
……
C*t
超高维问题:大数据聚类
实现算法:
超高维问题:大数据聚类
实验:从高斯混合分布产生60个样本,其中有50个特征为相关特征,其它为
噪音特征,总特征数分别取p=200,500,1000.比较三种不同算法的特征选择结 果与聚类结果如下:
重采样问题:分布式回归的可行性
科学研究
互联网、物联网、社会网
Hale Waihona Puke Baidu
安全监控
环保监视
远程医疗
大型企业信息存储
关于大数据认识(什么是大数据?)
大数据:不能集中存储、难以在可接受时间内分析处理、 而数据整体呈现高价值的海量复杂数据集。
体量大
不能用现有的物理设备集中存储, 开放,高速可扩展。
复杂性高
价值丰富
多源、异构、相关、非结构化、不一 个体或部分数据呈现低价值,而数据
M.R. Garey, D.S. Johnson, Computers and Intractability: A guide to the theory of NP-
completeness.
大数据研究中的科学问题(计算理论问题)
基本科学问题
大数据问题的可解性理论; 时间复杂性理论(难和易如何定义?) 对具体类大数据的复杂性理论:
基本科学问题
Microsoft T-drive [Yuan et al., 2010]
高维数据的本质特征提取; 形象的结构化表征(可表达几何空间的构造); 从数据特征空间到可表达几何空间的映照设计; 基于不变量(几何,代数)的高维数据展示方式; 非结构化数据的隐结构识别与展示;
平行坐标系
解决科学问题的若干进展
大数据研究中的科学问题(重采样问题)
基本科学问题
如何重采样以反映整体数据特征? 分布式算法可行性吗? 基于试验设计的重采样; 更加有效的聚合原理; Subsampling的原则(相似性,传
递性,……)
未知 总体
大数据就 是“总体”
实验设计 数 据
相似性
如何实验设计体现总体
D1 D2 D3
新增加 数据D2
D1 + D2
Fnew (x)
编码 X = (0, 0, 0,1,1,1, 0, 0, , 0,1,1, 0)
Zongben Xu et.al. Efficiency speed-up for evolutionary computation
Fundamentals and Fast-Gas. AMC 2003
超高维问题:大数据聚类 重采样问题:分布式算法的可行性 实时计算问题:网络流计算 非结构化问题:基于视觉原理的数据挖掘
超高维问题:大数据聚类
大数据聚类:对特征数p远大于样本数n的大数据进行聚类。新问题:有大量 冗余特征,聚类时必须同时剔除冗余特征(识别有效特征);特征数随样本 数变化(p=p(n))。本质上要求同时解决聚类、特征选择、不同时刻聚类 相容性问题(特别是稳定聚类问题)。
大数据研究:高度的多学科综合研究
大数据研究催生大数据产业 (从数据到价值的产业链)
物理、材料、 电子等
数据获取 与管理
数据管理
数据质量 数据标准 数据共享 数据隐私
计算机科学
数据查存 与处理
存储查询
存储模式 查询算法 实时处理
软硬件
数学与统计学
数据分析 与理解
数据表示
数据挖掘
数据建模 高效计算
统计推断
分布式回归算法: Step 1:重采样数据使得整体数据随机均匀的分布在m台local machines上.
D1
均匀分布
….
X1
X2
X3
Dk
…
….
…
Xn
Global Machine
Dm
聚合机制
Global Machine
Local Machines
重采样问题:分布式回归的可行性
Step 2: 分布地在每台local machine运行一个回归算法(例如正则 化回归算法),得到m个回归估计。
大数据是指无法在容许的时间 内用常规的软件工具对其内容 进行抓取、管理和处理的数据 集合,大数据规模的标准是持 续变化的,当前泛指单一数据 集的大小在十几TB和PB之间。 (维基百科)
ZB(1021),EB(1018),PB(1015),TB(1012),GB(109),MB(106)
关于大数据的认识(主要来源)
各行各业
数据工程 与应用
数据工程
大数据产业管理(产业链管理、商业模式、公共政策)
大数据分析与处理中的科学问题
超高维问题 重采样问题 计算理论问题 分布实时计算问题 非结构化问题 可视分析问题
大数据研究中的科学问题(超高维问题)
大数据高维问题:“决策要素(P)伴随大数据(n)呈现更高量级”所引起 的解的不确定性与经典统计推断失效问题。
➢ 渐近正态 n(bˆ
-
b
)
~
N
(0,
1 n
(X
'
X
)-1s
2
d
)®
N
(0,
s
2
I
p´ p
)
大数据研究中的科学问题(超高维问题)
热点研究:稀疏建模(压缩感知、低秩矩阵分解、基于稀 疏性的特征提取、数据降维、压缩学习等)
基本科学问题
如何补足信息使问题可解? 非iid 数据统计学; 低维几何的高维泛化(积分几何); 超高维数据的低维特征(多维特征提取等);
大数据研究中的科学问题(重采样问题)
大数据的重采样:如何进行合适的subsampling,将大数据随机划分成 若干小数据集,而根据小数据集所获得的统计推断,进行聚合处理后 能反应原大数据集的规律与形态 (分布式算法)。
随机机制
D1
X1
….
X2
X3 …
Dk
…
….
Xn
Dm
聚合机制
热点问题:The Big Data Bootstrap. Kleiner et.al. 2012 ICML
经典统计学:n>>p; 高维问题:p>>n; 大数据高维问题:p=O(exp(n)), n ->∞.
线性模型: y = b1x1 + b2x2+, , bpxp 数据:D = {(x1, y1),(x2, y2 ), ,(xn, yn )} 矩阵形式: Y = b Xn´p p´1
➢ 解 bˆ = (X ' X)-1X 'Y
K均值聚类:
导致:
期望:
最优分类与特征的维数p变化无关 对有效特征有严格的判定准则
超高维问题:大数据聚类
基本思路:重写目标函数为特征的“分离可加”形式,以此抽象新的最优
划分定义,使得最优划分与p无关,从而产生大数据的稳定聚类。
( Chang ,Lin & Xu, Sparse K-Means via l∞/l0 Penalty for High-dimensional Data Clustering, 2014.)