大数据与数学研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
具有数量大、增长快、类型多、价值
密度低等4V特征的数据集。
大数据=现有数据处理技术难以处理的超 大规模数据
Volume
PB—ZB 量级 不可能集中存储 不可能集中处理
Velocity
动态增长Baidu Nhomakorabea时变 以数据流呈现,有时
效性
Variety
形式、来源多样 冗余、不完全并存 非结构化
Value
大数据及其面临的挑战
核心: 在大数据技术中,分析与处理是核心(MIT Technology Review, 2015)
大数据技术需要多学科综合研究
数据获取与 数据管理
数据存储 与处理
数据分析 与理解
结合领域的 大数据应用
数
价
据
值
领域科学问题一: 大数据资源管理与
公共政策
领域科学问题二: 大数据高效获取、 存储、调用与处理
新一轮 信息技 术革命
互联网、云 存储作为基 本的基础设 施
服务计算作 为计算机应 有的基本模 式
数字化(Digitization) 数据化(Datafication)
大数据及其面临的挑战
重要性: 发展大数据技术是国家战略
大数据技术是解决众多国家重大现实需求问题的共性基础
社会媒体、人口流 动、居住交通数据
为什么大数据会热?是必然还是炒作?
新一轮信息技术革命 与人类社会经济活动 交汇融合必然产生大 数据;
大数据从信息载体这 一底层 (一个更普适 、更本质的角度)捕 捉到了信息化的共性 基础、未来发展与普 适技术。
物联网作为 联接人、机、 环境的基本 交互方式
大数据处理 与分析是信 息处理的基 本形式
大S数ta定tic理al和ly 中Hy心p极ot限he定si理s 的条 件In(fe样re本nc数e T>e>st维ing数()SHIT!). 对于一大类问题应用,P = 0.01 导致11%的误报率;
Goo而gPle=Fl0u.0T5re导nd致s:2大9%量的误误报 流感报爆率发!规模。(Estimating high—1R0.0Nouuztzoof, S1t0a8tiwsteiceakls) — DE. rLraozresr,, Netaatul.,reT,h2e0P1a4rable of Google Flu: Traps in Big Data Analysis, Science, 2014
医疗、医保、健康、 影像等大数据
环境、气象、交通、 社会发展等大数据
交通流、医疗、商业、 环境、劳动力等数据
突发事件预测、关键 人群监测
医疗诊断方案
环境治理
城市智慧管理
大数据技术:有关如何收集、整理(存储)、解读和应用大数据的理论与方法
大数据及其面临的挑战
价值: 大数据具有重大的科学社会经济价值
大数据技术是一个 国家创新能力的核 心要素及核心竞争 力指标:它能帮助 人们从大数据中发 现新知识,创造新 价值,形成新理念, 因而是认知世界与 改造世界的能力 (即国家创新驱动 发展的一种能力)
样本等于母体? 相关性能替代因果性? 大数据推出来的才是真的? 数据足够多可代替理论?
(从数据到模式、从模式到知识、 从知识到决策每一个阶段都需要猜 想、假设和理论的支撑)!
--- Financial times,2014 --- Science,2014
Big Data or Big Mistake?
大数据及其面临的挑战
挑战二: 方法论上的冲击
方法论上的冲击
分析基础被破坏(统计学基础、计算理 论基础、逻辑等)
计算模式受拷问(异构环境下的多粒度 分布并行计算)
处理算法不可用(必须采用新计算模式 ,形成新方法论)
真伪性更加难以判定(基础不牢,地动 山摇!)
独P立值同检分验布的被基破础坏被破坏
公众要的是答案、不是数据!
大数据 大垃圾
大分析 大价值
大数据及其面临的挑战
挑战一: 认识论上的困惑
数据特征的改变
中小规模、固定 尺寸、非时变、 单一结构、集中 存储
超大规模、分布存 储、流数据、超高 维、多源异构等;
分析目标的改变
寻找统计规律, 因果分析为主
关联性分析,支 持智能决策
认识论上的困惑
的信息技术
领域科学问题三 大数据分析与处 理的统计学与计
算基础
领域科学问题四 大数据工程(结 合领域的大数据
应用)
数据是基础、平台是支撑、分析是核心、效益是根本
大数据及其面临的挑战
处理
分析
统计
查询
(电商、语音识别等) (google翻译、风险、信
用评估等等)
发展趋势预测 (负荷预测等)
共性结构发现 (电力客户细分等)
排序 (网页排序、推荐系统等)
比对 (电商等)
关联性
模式识别
(设备交叉故障等) (设备故障诊断等)
融合 (互联网+)
预处理 (对齐、配准、标准化等)
关键要素分析
优化与控制
(售电量影响因素分析等) (电力调度等)
大数据及其面临的挑战
聚焦大数据分析与处理具有紧迫性
据IDC统计数据显示,中国目前拥有的数据量占全球的14%(己收集),但数 据利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用。
大数据与数学研究
目录
第一部分 第二部分 第三部分 第四部分
大数据及其面临的挑战
大数据分析与处理中的关键科学问题 关于若干大数据科学问题的研究 结语
什么是大数据?数据
历史的记录、交易的轨迹、过程的监控、 经验的累积、…… 数据: 以编码形式存在的信息载体,是真实世界的碎片化反映
文件
视频
记录
歌曲
我们信奉上帝, 除了上帝任何人 都要以数据说话 ! (大数据文化)
现有的数据采集 、传输、存储、 处理与分析技术 己无法适用于现 有的需要! (大数据挑战)
什么是大数据?更本质的定义
大数据 反映真实世界的数据 (碎片)其量己达到 可以从一定程度上反 映其真实面貌的程度。
(量变 质变)
“大”是一个相对的概念
存在大价值 但依赖整体 价值密度低
什么是大数据?泛化定义
泛指一个时代、一项技术、一种文化、一个挑战。(通常也是大数据集、大数 据技术与大数据应用的总称)
拥有大数据是时 代特征、解读大 数据是时代任务 、应用大数据是 时代机遇! (大数据时代)
能够对复杂海量 数据进行实时获 取、传输、存储 、加工和利用的 高新技术! (大数据技术)
数据的常见 形式
报告
图片
表格
ZB(1021),EB(1018),PB(1015), TB(1012),GB(109),MB(106)
什么是大数据?常规定义
大数据是指无法在容许的时间内用常规的 软件工具对其内容进行抓取、管理和处理 的数据集合,大数据规模的标准是持续变 化的,当前泛指单一数据集的大小在十几 TB和PB之间。(维基百科)