工业大数据技术与数据治理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据流分析
图运算
机器学习 引擎
SQL近似查询
SQL查询引擎
快速的分布式计算执行引擎 基于内存的文件系统
集群资源管理器 已完成项目 正在开发中 相关的外部项目
这尼玛 是让人 崩溃的 节奏啊 …
一弄数据深似海, 从此软件不好买…
如何辨别大数据系统呢?
◦ 数据库排名网站
◦ www.db-engines.com
保存网页快照数据 “小机器”拼成“大机器” 为“并行计算”分布“数据”
GFS Master
心跳, Chunk server
C0 C1 C2
C0
C1
C2 File
C3
负载均衡, 副本, etc… Chunk server
C0 C3 C2
Chunk server C3 C0 C1
Chunk server
工业大数据的发展,应 用与挑战
刘英博 清华大学软件学院
主要内容
关于清华大数据中心 大数据技术发展脉络 大数据应用案例分享 数据质量与大数据技术 大数据应用思路
清华大学软件学院 与大数据中心
清华大学软件学院
• • • 2001年12月14日成立,推动软件工程成为一级一类学科 2012年全国软件工程学科评估第一名 专注软件理论及软件技术在工业界应用研究,在过去20年中,研发和孵 化了一批国产工业软件(CAD, PDM, MRO) • 依托软件学院的国家中心:
软件学院大数据中心管委会
• • • • 2013年10月软件学院联合企业成立大数据中心 中心管委会主任 孙家广院士 中心主任 王建民,副主任 陆薇、黎彤 目标定位:一个大数据平台,两个应用领域(工业和健康)
Philip S. Yu ACM/IEEE/IBM Fellow
Jiaguang Sun Member of CAE
11
广泛的国际合作
与大数据领域国际知名学者和研究团体建立了密切的合作
关于大数据
放高利贷的改叫P2P 乞讨改叫众筹 统计改叫大数据分析 忽悠改叫互联网思维 做耳机的叫穿戴设备 看场子收保护费的叫平台战略 搅局的叫颠覆性创新
大数据概念下的众生相
哈哈!,大数据产品都是开源的,可以不要钱了,欧耶!
奇怪?Oracle跑得好好的,怎么一下蹦出来这么多幺蛾子了。 不就是原来的数据仓库换了一身马甲嘛。
Wil van der Aalst European Academia
Wei Lu
Jianmin Wang
Tong Li
7
中心定位
• 研发世界领先的技术和产品
• 机器大数据平台及其行业分析应用

支撑国家战略发展规划,承担国家相关重大项目
• 工信部:中国制造2025重大专项-工业大数据基础软件

在国计民生重大领域做出切实的贡献
C3 C1 C2
写入本地硬盘 PC机 PC机 PC机 19
2
BigTable – Google大表
保存网页特征数据 海量的半结构化数据
网页特征数据 ( 属性少则几个,多则数十万个)
− URL ,元数据 , 链接 , 锚点 , …
美国CNN首页
Bigtable: A Distributed Storage System for Structured Data. Fay Chang, Jeffrey Dean, etc, Google, Inc. OSDI 2006.
海量高速
机器24*7产生, 产生速度快, 数据量大
一个典型的大规模机器大数据应用系统 (如工程机械物联网、油气生产物联网、 智能电网、车联网、地质勘探等),每天 产生的数据量是淘宝交易的100倍,且要 在这些数据上实时做复杂的领域相关分析
独特数据类型
机器产生的时间序列,时空 序列,或者数组阵列数据, 非常结构化,多种类型
工业大数据是不容忽视的社会资产
资料来源:Big data: The next frontier for innovation, competition, and productivity(麦肯锡)
工业大数据分析面临的挑战
领域知识
• 产品原理 • 液压、机械、 • 电控、底盘、 转塔 • 故障原理 • 泄漏、断裂
-http://en.wikipedia.org/wiki/Big_data
计算机诞生的时候就有的问题,数据集越 来越大,要长期面对的问题
现代数据管理的历程
1960年 1970年 1980年 1990年 2000年 2010年 NOSQL/ NewSQL 2020年 文本与 多媒体 数据库 网状 数据库 Web/XML 数据库 互联 网应 用
完成300余家企业 的应用 支持动气灾后重建 建立中国MRO技术 承担“核高基”课 题开发任务 社区 共同组建中国最大 工程机械物联网 基于Hadoop/ Cassandra研制云 支持最大功率机车 数据管理平台 设计 2012年获得教育部 科技进步一等奖 开始在信息服务、 PostgreSQL内核 工业领域进行应用 2013年获得中国电 分析 子学会科技进步一 2006年获得教育部 等奖 科技进步二等奖
• • • 国家企业信息化应用支撑软件工程技术研究中心 信息技术国家实验室物联网技术中心 信息系统安全教育部重点实验室
专职教师 高级 28 讲师 10 合计 38 本科生 248 在校学生 研究生 556 合计 804
4
软件学院创始人-孙家广院士
◦ 曾任国家自然科学基金委副主任。 ◦ 现任清华大学信息学院院长、 ◦ 信息科学与技术国家实验室主任、 ◦ 清华大学学术委员会副主任、 ◦ 国家企业信息化应用支撑软件工程技术研究中心主任、 ◦ 国务院学位委员会委员、学科评议组成员、 ◦ 国家教育部软件工程教指委主任、 ◦ 中国云体系产业创新战略联盟理事长、 ◦ 国家发改委大数据专项评审组组长、 ◦ 全军信息化专家委专家。
Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing applications.
结构化非结 构化客户信 息
DATA
网络日志
传统的企业信息系统数 据
交易数据
Leabharlann Baidu
社交媒体
◦ 关系型数据 ◦ 查询和统计分析 ◦ 代表厂商:Oracle, IBM, SAP
蓬勃发展的互联网应用 数据
– 文本、图片、影像等 – 搜索、用户行为分析、舆 情分析等复杂分析 – 代表厂商:Google, BAT
工业大数据的主体—机器数据
早期Google低成本DIY硬件平台
每个查询的成本 < 5美分
23 来源:Mass Data Processing Technology on Large Scale Clusters
Hadoop-Google的翻版
Google GFS Bigtable MapReduce Chubby HDFS HBase Hadoop Zookeeper Hadoop
数据量超领域 专家分析能力 的极限
工况数据容量大, 变化快,质量仍 需改进 基础数据
• 工况数据 • 服务数据 • 质保数据 • 设计工艺
沃尔玛“啤酒加尿布”经典案例,1993年 塔吉特百货孕妇营销分析,2002年 谷歌预测流感,2009年 奥巴马成功连任,2012年 微软成功预测奥斯卡21项大奖,2013年
咱们今天看
林彪也玩大数据,1948年 孙膑增兵减灶,公元前341年
http://www.thebigdata.cn/YingYongAnLi/10905.html http://www.topnews9.com/article_20140829_40002.html
◦ DB-Engines排名依据
◦ 网页上给出的搜索量 ◦ Google和Bing ◦ 公众的感兴趣的程度 ◦ Google Trends ◦ 在技术论坛上的热度 ◦ Stack Overflow ◦ DBA Stack Exchange ◦ 技术职位的数量 ◦ Indeed 和 Simply Hired ◦ 在专业社交网络上的人气 ◦ Linkedin ◦ 在一般社交网络上的人气 ◦ Twitter
3
Google MapReduce 计算框架
程序
Job Tracker Task Tracker
数据 数据 数据 数据
让“程序”找“数据” 使“分而治之”更加容易
数据
4
Chubby - Google同步服务
分布式锁服务 GFS - 选择主节点(master) BigTable - 选择主节点、为表加锁、用户链接 MapReduce – 同步访问共享资源
1
2
3
4
大数据技术发展脉络
Hadoop生态系统
2005年开源,大数据典型生态系统, 2008 年,Yahoo!基于Hadoop管理了1万个CPU核的服务器集群
2 1
3
4
Spark生态系统
学术界的创新,成为工业界追捧的大数据分析平台 2015年6月15日,IBM宣布每年资助 “hundreds of millions of dollars”
老师,我们的OA跑得好慢啊,能帮我们换大数据吗? 快快快,趁着别人还不知道,把大数据的大旗插在咱的山头上…
我会装Hadoop,我为大数据代言…
大数据技术还在路上
物联网 Gartner2014 走出“泡沫期”进入“幻灭期” 大数据
云计算
大数据问题的提出
大数据,用传统数据系统难以处理的、大且复杂的数 据集
From “One size fits all” 分析/挖掘 关系理论 面向对象 To “One数据库 size fits none” (DW/OLAP/DM ) 和SQL语言
业务 驱动 事务处理 (OLTP)
数据 仓库
层次 数据库
18
关系 数据 库
1
GFS - Google文件系统
GFS 客户端
获2012年教育部科技进步一等奖 获2013年中国电子协会科学技术奖 获2014年国家科技进步二等奖
大数据成果得到国内外认可
• 国际ISO/IEC JTC 1 大数据研究组成员 • 美国国家标准化局NIST大数据工作组成员 • 国家“核高基”重点科技专项课题牵头单位 • 国家工信部非结构化数据标准化工作组副组长单位 • 国家工信部大数据标准化工作组发起单位 • 中国计算机学会大数据专家委员会成员
5
软件学院大数据领域的工作
2001年 2007年 2009年 2013年
大数据管理平 台
成立清华大学(软 件学院)-英泰伟业 大数据技术联合研 究中心 2014年获国家科技 进步二等奖
产品全生命周 复杂装备运维 非结构化数据 期管理(PLM) (MRO)支持 管理系统 系统 平台 (LaUDMS)
1
定义
2
来源多样
时间序列 位置轨迹 实时安全
3
密集采样
4
存储和分析
工业大数据特点及其应用行业
机器大数据在多个行业广泛存 在
◦ 工业:电力,石油,化工,冶 金,制造,建筑 ◦ 农业 ◦ 公用事业:铁路,航空,路桥 ◦ 军事 ◦ 科学:基因,遥感,气象,地 震,海洋,地理 实时深度分析
基于复杂数值算法的实时和 历史分析
开源大数据解决的商用系统没有 解决的问题
数据来源:http://db-engines.com/
当今大数据技术的玩家
为什么开源的东西不是免费的? 为什么我们玩不转Hadoop? 为什么大数据不是数据仓库?
大数据公司 解决方案 开源社区 DIY
商用数据 库系统
21世纪什么最贵?
工业大数据应用
大数据引爆数据思维
• 帮助相关政府部门和企业大数据落地实施 • 已有部分合作单位:三一重工,国家气象局,万达集团,海关 总署数据中心,空间应用与技术中心,总装,南车,公安
中心牵头中国制造2025-工业软件领域
操作系统与工业软件
9
所获国家项目支持和奖项
获得多项国家项目支持
• 国家“核高基”科技重大专项 • 国家重点基础研究计划(国家973计划) • 国家863计划 • 国家自然科学基金
看点儿别的
http://www.renqi8.com/3075.html
大数据的格局
方兴未艾前景广阔的工业大数据
– 时序、时空、多维矩阵数据 – 查询统计和复杂数值算法分析 – 有少量新兴公司,目前无行业统治者
机器设备
运行监控数据
物理世界数据
天气,交通,地情, 道路情况,卫星等
各种设备产生
位置
客户
相关文档
最新文档