大数据时代信息化发展趋势概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
件统
样化的进程 能的系统
和
系 统
设备和技术的多样复杂、非结构化事务和信息的处理、 2的50-100次方级大数据的组织与利用、跨领域且物 理世界相对松散的事务处理、设备(系统)控制与事
集 务处理的融合,复杂系统、不同类型对象的建模
成 重用、测试、可靠性、安全性、生产率、适应新模式
建模技术、软件工程技术、自动编程技术、验证技术
1--120020/10/16
知识总量和质 量
这是发展速 度的示意图, 不是规模
信息能力不仅是生命、智能进化 的基础,也与产业发展正相关
经过约300万年: 语言 记忆思维概念等能力的形成
约8000年 文字形成
示意图时间尺度不成比例
约2000年 纸和印刷术的
发明形成
最近几十年
计算机、信息网 络、传感和记录 等技术的发明
用,需要寻 复杂的存储 找新的技术 与处理系统
储
集成度,从当前的32/28nm,快步前进到14/16nm及以下
低功耗、嵌入式、可靠性、小型、可移动
2020/10/16
高性能,超级计算机、汇聚计算资源能力
感知获取技术: 一组需求驱动快速发展的技术
/ /
/
感 知 获 取
2020/10/16
空间、地球、生物、生命、 感知什么 社会等全方位、细粒度的感
对历史纵切面的分析有两点主要结论
1. 历史发展进入一个新的转型期:从工业社会走 向信息社会,在这个历史发展转型期,中国存 在超越的可能
2. 这个可能在于13亿人的素质:知识、聪明、勤 奋,我们会有5亿以上的人口进入经济社会发展 的综合平台上,形成强大的发展动力,远远超 过其他强国 中国的IT梦与中国梦重合的历史必然
1、处理、传输、存储技术延续高速发展
2、感知、显示、获取技术驶入快车道
3、内容处理、智能系统技术不断成熟
4、技术体系不断完善
11
传输技术:走向宽带泛在普及
传
人与人
物与人
走向
从个位数
G级
到T级P级
输
人与物
甚至更高
物与物
超高速
泛在
新的体系 架构
端到端数百兆到吉比特,4个以上数量级的汇接带宽,3D 及虚拟现实等传输要求,许多场景下并发数量急剧增加
信息
材料 管理
能源
二、信息技术为大数据开辟了前进道路
信息技术进展是大数据产生和发展的主要动力
• 传感技术:大数据的主要来源 • 存储技术:不仅数据量大,而且要有信息存储模式 • 传输技术:不仅提供传输能力,还是数据的创造者 • 处理技术:不仅是处理能力,更是处理方法(结构
化语义处理)
信息技术继续快速发展,技术 体系更趋完善
更加深入的融合:三网、固移,工作网、物联网、互联网
当前的关键技术:端到端G级、下一代互联网、新技术条 件下的城域网和骨干网体系架构,……
2020/10/16
处理存储技术:20年内提升3个数量级
/
处
高性能,一些重要 更加复杂和 处理能力的
理
的应用,需要继续 智能化的应 集成,更加
存
沿摩尔定律提升3 个以上数量级
二是关于数据利用及适应应用需求的研究,包括用户 视图、联机数据分析、数据挖掘、检索等。
大数据技术,内容角度要重视三个方面的来源
三是关于语义上理解信息的研究,几乎可以将人工智能研究的 全部成果作为大数据研究的基础,因为从语义角度理解信息是人工 智能的基础。从图灵测试到专家系统,从五代机到cyc,从模式识别 到神经网络,从自然语言识别和理解到机器人,都是从不同角度研 究理解信息的技术、方法理论。
f(d)={∑Y+∑Z+∑S+∑T}xƿ
其中 Y=有效信息总量
Z=知识总量和质量 S=使用者总量和质量 T= 同一交流平台参与人数
Ƿ=发展环境系数 实际上,YZST是非独立的, 最关键的因子是T
2020/10/16
使用者 总量和 质量
同一
交流平 台人数
发展环 境系数
有效 信息 总量
知识总 量和 质量
三、大数据是走向信息时代的奠基石
35亿年生命史,展示了信息是 智能进化的主要因素
35亿年前开始 生命形成生物进
化
数亿年 动物的进化
千万年 猴子到人的进化
感知、记录、传输、存储、处理
文字、记录
约300万年人的进化
约8000年 文字形成
感知、传递、反应 模仿(抽象)、记忆、判断、反应
语言、概念体系
意识、思维、概念(更高层次的抽象)
IBM的DeepQA,通过针对广泛收集特定应用领域的信息和知识, 在适度结构化、一系列规则和算法的基础上,具备这一领域人的智 能。其代表作“沃森”,已经击败了美国电视台“危险”这个具有 之力竞赛性质的娱乐节目的冠军,今天,又落户纽约州的伦斯勒里 工学院,与学生一起学习,英语和数学。Google的“谷歌大脑”将 1.6万个处理器构成当前世界上最大的人工脑,模拟人类脑神经系统, 通过算法从互联网中提取信息识别猫。
• 有的文章将大数据看作石油,大数据研究与自然资源利用发现、 开采、提炼存在一定的相似之处
• 研究大数据,首先要研究各种有用的信息在何处,就是找矿 • 其次是把满足特定需求的信息收集过来,就是开矿 • 第三是把收集的信息按应用需求进行结构化处理,就是提炼,
如同石油必须经过炼化才能变成消费用的汽油、柴油或作为原 料用的聚乙烯、聚丙烯 • 第四是将这样的信息与具体的应用结合,使之发挥作用,这就 是基于大数据的应用系统,或称之为围绕应用的大数据管理系 统,如同汽油通过加油站加到消费者的汽车内,石化原料变成 衣服、设备或其部件。
利用:与具体应用的结合
• 将结构化的信息与具体的应用结合,使之 发挥作用
• 这就是基于大数据的应用系统,或称之为 围绕应用的大数据管理系统,如同汽油通 过加油站加到消费者的汽车内,石化原料 变成衣服、设备或其部件。
– 是否已经以信息形式存在 – 是否需要采集
开矿:收集和获取
• 用何种方法收集、获取
– 要用什么样的方式采集
• 已有的怎么获取:
– 购买、交换、再收集
• 没有的怎么采集:
– 委托、技术方案、自采
提炼:变成适用信息
• 相对于信息,提炼的本质是按应用需求进行 结构化处理
• 按需求 • 语义和物理的机构化 • 语义相对于应用的目的 • 物理相当于处理、存储、传输的速度和成本
大数据是一个阶段性的概念
大数据是信息和信息资源 开发利用这个稳定概念在今天 这个特定时期的代表名词。关 于大数据所有作用和意义的期 待,都包含在1970年哈佛大学 关于资源三角形的论述中。这 个论述简而言之就是材料、能 源、信息是推动社会发展的三 种基本资源。美国人相信它40 多年了,并为之持续不断地做 了大量的工作,也是美国在IT领 域,包括信息资源领域,一家 独大的一个原因。
2020/10/16
信息内容的技术:走向智能的核心
信 应对数量变化, 应对音视频信 应对应用需求 息 2的50-100次方 息类型的变化 的变化 组
织
文字声音的转化、声音处理、图像处理
、
管
理
机器翻译为代表的自然语言处理
和
利
概念体系为基础、不同粒度、不同场景的
用
大规模信息组织、管理和利用
2020/10/16
2020/10/16
信息战:显示了 将所有战争要素 集中在一个信息 平台上的力量
2020/10/16
从人工细化分工到自动化生产线
主要的变化也是信息感知、传输、 处理、利用的能力增加
2020/10/16
从大规模生产到个性化生产
信息资源成为现代化发展的基础资源
应对消费者需求及供 应商变化的IT供应链
打印机、 复印机、 传真机、 扫描仪
虚拟现实 虚实结合
的现实
控制技术
机器人
三维空间 精确行为
与感知、网络能力并行的 反应、行动能力,在不同 空间范围信息系统的物理 行为无需人来执行
软件和系统集成:承载信息社会运行控制
软
使设备和系统变 应对设备和系 Saas及新的 成可靠的工作系 统复杂化和多 业态,构建智
知
热、压、声 构成、损伤、
遥感
关系
声纳
技术类型
字声 磁生
RFID 转 音 转 物 换文 换光
机器阅读 及其他语 义信息的 获取
各类感知 远、细、 清的要求
显示反应技术:走向智能
/ /
/
显 示 反 应
2020/10/16
字声 转音 换文
磁生 转物 换光
清晰 色彩
节能 适应
3D及多维
轻便 可靠
表 语文 情 言字
我们每个人都在制造和使用信息
• 过去3年数据量比以往数万 • 每秒发出290万条短信
年还多
• 每天Twitter上发布5000万
• 2020年数据产出量将比
条微博
2009年的44倍还多
• 每天Google处理的数据24PB
• 2006年全球生成、复制的 • 2012年11月11日第一秒,用 数字化信息量大约16.1万 户向阿里网购提出1千万请
“大数据时代”信息化 发展趋势
杨学山
二o一三年五月十日
2020/10/16
主要内容
1. 大数据的由来和发展 2. 信息技术为大数据开辟了前进道路 3. 大数据是走向信息时代的奠基石 4. 大数据发展的关键环节 5. 电子政务发展中的大数据
一、大数据的由来和发展
大数据是一个自然形成的发展中、阶段性概念
PB,当年的信息产生量约 求
是历史上图书信息总量的 • 全球新增网页571个 3000倍
为什么叫大数据:二是类型多
• 二是类型多
结构特征:结 构化、半结构 化、非结构化
形态特征: 语音、文本、 数值、图像、 视频
拥有特征:私有、 共有、公开
三是更接近把握信息资源的本质
• 大数据真正开始把信息变成资源
本报告所称大数据是指具有数量巨大、 多类型、不同结构化程度、不均衡价值密度、 不一致动态特征、不同应用处理特征等特点 信息集合。
本报告所称大数据系统是指一个围绕特 定目的而形成的数据及其处理系统。并不是 每一个大数据系统的信息集合都具有上述全 部特征,一种或两种类型,数量巨大,也是 大数据。
在计算机处理 能力不断发展、 信息系统处理 的信息日益增 长,特别是互 联网(包括移 动互联网)的 发展、传感技 术的广泛应用, 大数据概念应 运而生
四、大数据发展的关键环节:
1. 收集、组织、管理、利用 2. 认识、技术、法律、制度、标准 3. 主体、商业模式或运行机制 4. 信息的结构化 5. 大数据管理系统
(一)收集、组织、管理、利用
1. 找矿 2. 开矿 3. 炼矿 4. 用矿
找矿:发现需要的信息资源
• 定义需要的信息资源 • 确定的信息资源在哪里
在这里,大数 据和信息、信 息资源是同义 词
为什么叫大数据:一是数量大
绝大部分 应用在这 两个数量 级
ZB:2的70次方, EB的1000倍
YB:2的80次方, ZB的1000倍
PB:2的50次方, TB的1000倍
EB:2的60次方, PB的1000倍
GB:2的30次方, MB的1000倍
TB:2的40次方, GB的1000倍
以T主线,我们可以初步推 论信息交流平台和参与人 数与社会发展的关系
使用者总 量和质量
同一 交流平 台人数
信息社会
发展环境 千万--亿-几十亿 系数
工业社会
使用者总 量和质量
有效信息 同一 交总流平量
台人数
农业社会
发展环境
十万--百万 系数
原始社会
有效信息 总量
知识总量和质 量
原始家族
万--十万
百--千
灵活供应链
连接产品开发与设计, 再到制造的工艺
建模与仿真
简化产品移 动的工厂与 配送中心的 实时信息流
智能工厂 分销配送
工厂工人用知 识为基础的技 术,优化生产、 降低成本
用中在 的,这 是起样 什引的 么领企 ?作业
全球先进制造 业发展新趋势
先进制造企业 概念
用户
用户定制产品,产品使用全 过程跟踪以及产品回收和再 制造
/
信息技术体系架构不断完善,信息、能源、 材料技术融合,以智能技术为标志的新一代
生产力 体系逐渐成形
处 理 存 储
信息组织、管理与利用 软件和系统集成
传 输
2020/10/16
大数据技术,从内容角度要重视三个方面的来源
一是关于数据管理和处理研究,包括物理和语义两个 领域数据管理。数据结构、算法和数据库相关领域取得的 进展最为突出,如文件系统、数据库、数据仓库、元数据、 数据模型、内存处理、云存储的研究。应当看到近十年来, 关于多维数据结构和算法、机器视觉和摄录象研究和技术, 对于大数据研究具有极其重要的参考意义。
约2000年 纸和印刷术的
发明形成
最近几十年
计算机、信息网 络、传感和记录 等技术的发明
感知、传递、反应
语言、概wk.baidu.com体系
模仿(抽象)、记忆、判断、 文字、记录
反应
感知、记录、传输、存储、处理
意识、思维、概念(更高层 形成了当今世界的智能体系和水
次的抽象)
平
设一个具有若干个紧密联系 群体且有一定相互关联地域, 其信息与社会发展关系函数 为f(d):令