大数据研究的若干科学问题及初步研究结果

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据研究中的科学问题(非结构化问题)
基本科学问题
异构数据的统一表示与分析方法 (向量矩阵张量)
非结构化数据处理的统一框架（特别是机器学习算法）；
多源异构数据的信息融合；基于认知的非结构化信息处理；
非结构化数据
文本
图像
视频
统一机器学习框架
决策： F(x)
大数据研究中的科学问题（可视分析问题）
关于大数据的认识（价值与意义）
大数据价值：数据整体蕴含事件的相关性、发展的规律性与趋势，揭示这样的相关性、规律性与趋势为科学探索、解决广泛的社会发展与国家安全问题提供了依据与可能（特别是高的社会价值和解决社会学问题的方法论）。
科学研究
• 高能物理 • 天文 • 生命科学 • 机械设计 • ………
定可靠、不一致性。
整体呈现高价值。
关于大数据的认识（时代背景）
被多数发达国家列为未来国家战略优先发展领域 ➢ 2011年，奥巴马在“美国创新战略”中发布了《大数据研究和发展倡议》 ➢ 欧盟将信息技术作为《欧洲2020战略》的优先发展领域之一，而大数据研究为其中非常重要的一个方向 ➢ 法国、德国、英国、日本、韩国和俄罗斯等重要国家都将信息产业列为国家未来战略优先发展领域之一
基于Hadoop的分布式算法:Hadoop是主流的分布式处理系统框架。Map-
Reduce是基于Hadoop的一种分布式数据处理编程模式，其工作原理为“分而治之”。基于这种分而治之的策略设计的算法可统称之为分布式算法。
HDFS
HBase
MapReduce
Hadoop
重采样问题：分布式回归的可行性
引起国际社会广泛关注 ➢ 麦肯锡2011年5月发布《下一个前沿：创新、竞争和生产力》报告，认为大数据将引发新一轮的生产力增长与创新 ➢ 世界经济论坛2012年发布《Big Data，Big Impact》报告，阐述大数据为世界带来的新机遇 ➢ 联合国在2012年5月公布了《大数据促发展：挑战与机遇》白皮书 ➢ IDC 在2012年6月发布《中国互联网市场洞见：互联网大数据技术创新研究》报告，指出大数据将引领中国互联网行业新一轮技术浪潮
大数据研究的若干科学问题及初步研究结果
(西安交通大学)
内容提要
关于大数据的认识大数据分析与处理中的科学问题若干进展
关于大数据的认识（数据）
数据: 信息的载体;计算机处理的基本对象。
数据的多样性和高复杂性
(文本、图像、地理数据、基因与蛋白质数据、视频、程序、有限规则集等)
关于大数据的认识 (什么是大数据?)
大数据研究中的科学问题（非结构化问题）
非结构化问题：不能用有限规则完全表征与刻画，并不能在可接受时间内形式化处理的大数据。主要的挑战来自数据的异构性、信息的不相容性与认知的不一致性。
(结构化大数据<15%：表格、曲线、几何图形、程序、有限规则集)
(非结构化大数据>85%:文本、图像、时空数据、基因与蛋白质、视频）
D1
均匀分布
….
X1
X2
X3
Dk
…
….
…
Xn
Global Machine
Dm
聚合机制
Global Machine
Local Machines
重采样问题：分布式回归的可行性
Step 3: 将local machine所获得的m个回归估计聚合形成一个整体估计（运用某种聚合算法，例如简单平均）。
模型：
K均值：
最优划分:
噪音特征:一个特征j为噪音特征如果对于任意给定的划分C都有
否则为相关特征。
超高维问题：大数据聚类
理论：如果数据X由高斯混合模型产生，其中有p*个
相关特征，p-p*个噪音特征，则
（I）
(II)
结论：高斯混合数据具有稳定聚类；对于这样的大数据而言，其最优划分与p无关（n足够大）：
大数据关注程度：30%企业已开始大数据工作，34%的企业已计划两年内开始。其中50%数企业并不知道如何从数据中获取价值。
一一《2013年大数据普及程度及背后的炒作》（Gartner）
为什么要关注呢，能做什么？
数据的价值得到广泛认可数据挖掘成为普世的高新技术
高附加值在哪里？
值得热，但不可以一哄而起!
HDFS
HBase
MapReduce
Hadoop
大数据研究中的科学问题（分布实时计算）
基本科学问题
与分布式实时计算相适应的存储与查询 (理论、技术)；
问题的可分解性与解的可组装性? 大数据环境下的机器学习与数据挖掘; 众包(crowdsourcing)方法论
……….
数据D1
函数：F(x)
经济与社会
国家治理
• 推动物联网、云计算产业升级
• 数据资产 (国家竞争力)
• •
大数据商业模式 (vs工业化模式) 企业核心竞争力 (数据规模、活性与解释力)
• • •
数据主权 (同边、海、空防) 国防安全监控网络监控
• 影响社会文化与组织
• …….
• 远程医疗
• ……..
关于大数据的认识（值得热吗？）
流数据（容易=处理速度快于数据更新速度）分布式数据（容易=交互速度快于数据处理速度）
…
R = A(D)
Rt = At (Dt )
数据处理
交互
D1
D2 D3
大数据研究中的科学问题（分布实时计算）
分布式实时计算:是大数据处理的计算模式，它包含多处理器自主计算、相互通信，为完成统一任务而并行工作的实时计算过程。主要挑战来自数据的分布性与计算的实时性要求。
可视分析：运用与人类视认知相一致的图形或者图像方式生动展示高维数据的内在结构与规律性。提供了人机协同处理数据、人人广泛参与收集理解的平台（或许是解决大数据问题的另外一条道路）。
数据空间
映照关系
特征提取
可展示的几何空间
Facebook
Wordle
Whisper
大数据研究中的科学问题（可视分析问题）
传递性
大数据研究中的科学问题（计算理论问题）
计算理论：大数据背景下有关一个计算问题是否可解与能解的理论。传统上，一个可解性问题是指能在有限步内在图灵机上求解的问题；一个问题能解是指在可接受的存储空间与时间代价下，该问题可以求解。
经典的计算复杂性理论（可解性理论）：计算时间（时间复杂性），占用内存空间（空间复杂性）
Xp1
Xp2
Xp3
……
Xpt
C*1
C*2
C*3
……
C*t
超高维问题：大数据聚类
实现算法：
超高维问题：大数据聚类
实验:从高斯混合分布产生60个样本，其中有50个特征为相关特征，其它为
噪音特征，总特征数分别取p=200,500,1000.比较三种不同算法的特征选择结果与聚类结果如下：
重采样问题：分布式回归的可行性
科学研究
互联网、物联网、社会网
Hale Waihona Puke Baidu
安全监控
环保监视
远程医疗
大型企业信息存储
关于大数据认识（什么是大数据？）
大数据：不能集中存储、难以在可接受时间内分析处理、而数据整体呈现高价值的海量复杂数据集。
体量大
不能用现有的物理设备集中存储，开放，高速可扩展。
复杂性高
价值丰富
多源、异构、相关、非结构化、不一个体或部分数据呈现低价值，而数据
M.R. Garey, D.S. Johnson, Computers and Intractability: A guide to the theory of NP-
completeness.
大数据研究中的科学问题（计算理论问题）
基本科学问题
大数据问题的可解性理论；时间复杂性理论（难和易如何定义？）对具体类大数据的复杂性理论:
基本科学问题
Microsoft T-drive [Yuan et al., 2010]
高维数据的本质特征提取；形象的结构化表征（可表达几何空间的构造）；从数据特征空间到可表达几何空间的映照设计；基于不变量（几何，代数）的高维数据展示方式；非结构化数据的隐结构识别与展示；
平行坐标系
解决科学问题的若干进展
大数据研究中的科学问题（重采样问题）
基本科学问题
如何重采样以反映整体数据特征? 分布式算法可行性吗? 基于试验设计的重采样；更加有效的聚合原理; Subsampling的原则（相似性，传
递性,……)
未知总体
大数据就是“总体”
实验设计数据
相似性
如何实验设计体现总体
D1 D2 D3
新增加数据D2
D1 + D2
Fnew (x)
编码 X = (0, 0, 0,1,1,1, 0, 0, , 0,1,1, 0)
Zongben Xu et.al. Efficiency speed-up for evolutionary computation
Fundamentals and Fast-Gas. AMC 2003
超高维问题：大数据聚类重采样问题：分布式算法的可行性实时计算问题：网络流计算非结构化问题：基于视觉原理的数据挖掘
超高维问题：大数据聚类
大数据聚类:对特征数p远大于样本数n的大数据进行聚类。新问题：有大量冗余特征，聚类时必须同时剔除冗余特征(识别有效特征）；特征数随样本数变化（p=p(n)）。本质上要求同时解决聚类、特征选择、不同时刻聚类相容性问题(特别是稳定聚类问题)。
大数据研究:高度的多学科综合研究
大数据研究催生大数据产业 (从数据到价值的产业链）
物理、材料、电子等
数据获取与管理
数据管理
数据质量数据标准数据共享数据隐私
计算机科学
数据查存与处理
存储查询
存储模式查询算法实时处理
软硬件
数学与统计学
数据分析与理解
数据表示
数据挖掘
数据建模高效计算
统计推断
分布式回归算法： Step 1:重采样数据使得整体数据随机均匀的分布在m台local machines上.
D1
均匀分布
….
X1
X2
X3
Dk
…
….
…
Xn
Global Machine
Dm
聚合机制
Global Machine
Local Machines
重采样问题：分布式回归的可行性
Step 2: 分布地在每台local machine运行一个回归算法（例如正则化回归算法），得到m个回归估计。
大数据是指无法在容许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合，大数据规模的标准是持续变化的，当前泛指单一数据集的大小在十几TB和PB之间。（维基百科）
ZB（1021）,EB（1018）,PB（1015）,TB（1012）,GB（109）,MB（106）
关于大数据的认识（主要来源）
各行各业
数据工程与应用
数据工程
大数据产业管理（产业链管理、商业模式、公共政策）
大数据分析与处理中的科学问题
超高维问题重采样问题计算理论问题分布实时计算问题非结构化问题可视分析问题
大数据研究中的科学问题（超高维问题）
大数据高维问题：“决策要素（P）伴随大数据(n)呈现更高量级”所引起的解的不确定性与经典统计推断失效问题。
➢ 渐近正态 n(bˆ
-
b
)
~
N
(0,
1 n
(X
'
X
)-1s
2
d
)®
N
(0,
s
2
I
p´ p
)
大数据研究中的科学问题（超高维问题）
热点研究：稀疏建模（压缩感知、低秩矩阵分解、基于稀疏性的特征提取、数据降维、压缩学习等）
基本科学问题
如何补足信息使问题可解? 非iid 数据统计学；低维几何的高维泛化(积分几何)；超高维数据的低维特征(多维特征提取等)；
大数据研究中的科学问题（重采样问题）
大数据的重采样：如何进行合适的subsampling，将大数据随机划分成若干小数据集，而根据小数据集所获得的统计推断，进行聚合处理后能反应原大数据集的规律与形态 (分布式算法)。
随机机制
D1
X1
….
X2
X3 …
Dk
…
….
Xn
Dm
聚合机制
热点问题：The Big Data Bootstrap. Kleiner et.al. 2012 ICML
经典统计学：n>>p; 高维问题：p>>n; 大数据高维问题：p=O(exp(n)), n ->∞.
线性模型: y = b1x1 + b2x2+, , bpxp 数据：D = {(x1, y1),(x2, y2 ), ,(xn, yn )} 矩阵形式： Y = b Xn´p p´1
➢ 解 bˆ = (X ' X)-1X 'Y
K均值聚类：
导致：
期望：
最优分类与特征的维数p变化无关对有效特征有严格的判定准则
超高维问题：大数据聚类
基本思路:重写目标函数为特征的“分离可加”形式，以此抽象新的最优
划分定义，使得最优划分与p无关，从而产生大数据的稳定聚类。
( Chang ,Lin & Xu, Sparse K-Means via l∞/l0 Penalty for High-dimensional Data Clustering, 2014.)