关于大数据若干科学问题的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
谁做大数据研究?(高度的多学科综合研究)
大数据研究催生大数据产业 (从数据到价值的产业链)
0
0
0
0
1
2
3
4
数据获取与数 据资源管理
数据存取与 处理
数据分析与 理解
数据应用
管理领、域物科信理学息、问电题子一与
领域计科算学机问科题学二
领数域学科与学统问计题学三
领域各科行学各问业题四
支持大大数数据据存分大取大析数与的据数处统获大理据计取数的产学、据计与数业工算计据程机管算质(技基理量目术础管(标与(理定基产表、位础示可业、(与用链数约性据管简分准传、析理备输挖、、、掘数先存商与据验储分融业建策析合模模略、、式建安评访模全、估存与管公准与计理则计共算、等算、公政)的评共策均估政衡)与策、优等高化效等算)法等)
大数据=事实的抽样 大数据=真理的碎片化
问题P
数据D
时间T
计算机系统C
什么是大数据?
大数据: “量大、复杂、时变、价值密度低”的数据集。
量大
PB—ZB 数量级 存在的分布性 存储的分布性
时变
增长的动态、时变性 以数据流呈现
复杂
多源、异构 容余不完全并存 非结构化
unreliable, inconsistent.
➢ 解 bˆ = (X ' X)-1X 'Y
➢ 渐近正态 n(bˆ
-
b
)
~
N
(0,
1 n
(X
'
X
)-1s
2
d
)®
N
(0,
s
2
I
p´ p
)
大数据关键科学问题?(超高维问题)
200
300
400
500
Data series
预测预报
聚类分析
5、大数据计算 技术
6、数据可视化 技术
关联性分析
分类分析
简化表示
大数据核心技术?
1、数据获取技 术
2、数据资源管 理技术
3、数据存取
4、数据挖掘技 术
5、大数据计算 技术
6、数据可视化 技术
高性能计算 增量式计算
分布式计算 实时计算
大数据核心技术?
遥感技术 物联网技术
雷达技术 社交网络
大数据核心技术?
1、数据获取技 术
2、数据资源管 理技术
3、数据存取
4、数据挖掘技 术
5、大数据计算 技术
6、数据可视化 技术
质量、共享、融合、标准、安全、隐私、保护
大数据核心技术?
1、数据获取技 术
2、数据资源管 理技术
3、数据存取
4、数据挖掘技 术
5、大数据计算 技术
1、数据获取技 术
2、数据资源管 理技术
3、数据存取
4、数据挖掘技 术
5、大数据计算 技术
6、数据可视化 技术
Wordle
Whisper
Microsoft T-drive [Yuan et al., 2010]
大数据关键科学问题?
关键科 学问题
超高维问题 重采样问题 大数据计算复杂性问题 分布、实时计算问题 非结构化信息处理问题
价值
存在大价值 价值依赖转体 价值密度低
大数据能干什么?
推动行业深化发展并形成朝阳产业
互联网行业、信息获取行业、云计 算、形成数据产业
对大数据归 纳处理, 实 现让事实说
话
智慧医疗、智慧交通、智慧教育、 智慧城市…
服务于改善人们的日常生活 方式, 增强幸福感
带来科学研究的第四范式
实验 —>理论—>模似(计算) —>数据
关于大数据若干科学问题的研究
目录
第一部分 第二部分 第三部分
大数据与大数据研究
关于若干大数据科学问题的研究 小结
什么是数据?
历史的记录、交易的轨迹、过程的监控、 经验的积累 数据: 以编码形式存在的信息载体。
文件
结构化数据(<15%)
视频
记录
歌曲
报告
(表格、曲线、几何图形、程序、有限规则集)
决策支持、政策评估、风险评估、 事件预测等
实现基于数据事实的决策,支 持管理科学与实践的革命
大数据能干什么?
该剧的制片方是美国影视租赁网站Netflix。在 2011年,Netflix网络电影销量占据美国用户在 线电影总销量的45%,Netflix在美国拥有 2700万订阅用户,每天在Netflix上产生3000 多万个行为,比如暂停、回放或者快进等,并 且用户每天还会给出400万个评分,以及300 万次搜索请求。通过分析这些数量惊人的数据 ,Netflix邀请作品点击量领先的导演大卫•芬 奇和男演员凯文•斯派西担任主创,并根据数据 ,确定了“政治惊悚”的主题。
非结构化数据(>85%)
图片
表格
数据的常见形式
(文本、图像、时空数据、基因数据、视频)
什么是大数据?
大数据是指无法在容许的时间内用常规 的软件工具对其内容进行抓取、管理和 处理的数据集合,大数据规模的标准是 持续变化的,当前泛指单一数据集的大 小在十几TB和PB之间。(维基百科)
“大”是相对的
给定计算机系统C,时间T,问题P,和数据D, 若C不能在T内求解输入为D的P,则称D为相对C 、T、P的大数据。
6、数据可视化 技术
云存储、数据中心等,支持大数据的高效存取 、存取与处理的一体化
大数据核心技术?
1、数据获取技 术
2、数据资源管 理技术
3、数据存取
4、数据挖掘技 术
Residual error
300 Gaussian kernel Polynomial kernel
200
100
0
-100
0
100
如何应用大数据解决问题?
目标确 定及分
析
目标导 向的数 据获取 与管理
选择合 适的数 据存储 方式
数据分 析与挖 掘
与领域 相关联 的数据 解释
应用与 决策
选择合适的大数据技术!
大数据核心技术?
1、数据获取技 术
2、数据资源管 理技术
来自百度文库
3、数据存取
4、数据挖掘技 术
5、大数据计算 技术
6、数据可视化 技术
可视分析问题
大数据关键科学问题?(超高维问题)
大数据高维问题:“决策要素(P)伴随大数据(n)呈现更高量级”所引起 的解的不确定性与经典统计推断失效问题。 经典统计学:n>>p;
高维问题:p>>n; 大数据高维问题:p=O(exp(n)), n ->∞.
线性模型: y = b1x1 + b2x2+, , bpxp 数据:D = {(x1, y1),(x2, y2 ), ,(xn, yn )} 矩阵形式: Y = b Xn´p p´1
Google公司通过分析5000万条美国 人最频繁检索的词语,成功预测了 2009冬季流感的传播。
分析出观众群体中80% 为女性,从而确定了老 爸和萌娃的阵容。
商品个性化推荐
大数据能干什么?
应用的典型领域(数据驱动型领域)
基于社会媒体
基于交易与服务
基干调查或统计
基于经验积累
基于试验数据
基于生产制造数据