大数据分析和内存计算

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
新量级、新处理模式、新企业智能
移动互联网
Mobile Internet
物联网
Internet of Things
2020/1/21
在Web 2.0时代,人们从信息的被动 接受者变成了主动创造者
2020/1/21
大数据举例
互联网:社交网络、视频、图片、电子商务 物联网:移动设备、传感器 天文、地理、环境、气象、交通信息 扫描书籍、历史文献、社会交互信息 医疗扫描、电子病历
2020/1/21
2020/1/21
大数据典型应用
搜索引擎: Google 、Bing、Baidu、… 电子商务:淘宝、京东、Amazon、eBay… 零售业:Walmart
可能净利润增长水平为60%或以上
政府公共服务
欧洲政府部门每年3500亿美元,大约每年0.5%的增长率
医疗服务
美国每年3000亿美元,大约每年0.7%的增长率
大数据分析和内存计算
第一讲:课程介绍
李国良 清华大学计算机系
2020/1/21
提纲
大数据背景 大数据由来 大数据定义 大数据与相关领域的关系 大数据挑战 大数据现有系统 大数据现有关键技术 课程介绍 课程考核
2020/1/21
大数据(Big Data)时代来临
2020/1/21
提纲
大数据背景 大数据由来 大数据定义 大数据与相关领域的关系 大数据挑战 大数据现有系统 大数据现有关键技术 课程介绍 课程考核
2020/1/21
与大数据相关的几个热点问题
非结构化数据 云计算与大数据 Hadoop + HDFS + Map/Reduce NoSQL
2020/1/21
什么是“大数据”?
海量数据(信息) 非结构化数据 Hadoop+Map/Reduce 云计算数据 (Cloud Data) 数据密集型计算数据(DIC Data)
2020/1/21
大数据的性质(4V)
Velocity 快速的数据流转
Value
Variety 多样的数据类型
2020/1/21
提纲
大数据背景 大数据由来 大数据定义 大数据与相关领域的关系 大数据挑战 大数据现有系统 大数据现有关键技术 课程介绍 课程考核
2020/1/21
大数据诞生
Big Data专刊
Dealing with Data专刊 IT企业研究报告
美国重大研究计划 “十二五”规划 科学研究“第四范式”
热点,证实IT2推00动0业务发展,增加对IT投资。
手工化向自动化转型: 成熟度低 成长阶段 中国建筑信息化投入 占总收入0.03%
移动互联化
数据智能化 大数据
金融 电信
政府 互联网企业
从IT系统走向大数据决策分析 未来着眼点在于服务
建筑 流通
2020/1/21
制造业
自动化走向初步信息化 快速发展 整体解决方案需求 年600亿投资规模
2020/1/21
巨大的数据价值
Volume 海量的数据规模
大数据的性质实例——城市计算
规模大(Volume)
街旁网有1亿次签到数据
速度快(Velocity)
北京出租车每分钟400万条定位数据
机器&人工
类型多(Variety)
POI、路网、轨迹、路况、评论
价值密度低(Value)
特殊事件(赛事、事故) 用户评论(污染、堵塞)
制造业
产品开发、组装成本降低50%
2020/1/21
大数据潜力
不同行业中,企业信息化成熟度差异明显 政府 等行业 的信息化成熟 度明显领先,总 体 处于扩展和 整合优 化阶段 ;
除金融和电信之外的服务行业的信息化建设成 熟度相对较低,仍处 在成长阶段。 对大数据的处理需求将启发对于IT系统投资新
2020/1/21
国内大数据计划
国内各地制定云计算“十二五”规划
云计算、物联网园区
中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政 绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。 云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括 的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘 和分析的技术发展,我们即将步入基于大数据的智能化时代。
信息化走向移动互联化 基本架构已经建立 相对成熟 500亿以上投资规模
大数据潜力
2020/1/21
国外大公司的角逐 互联网越来越智能
Google精确掌握用户行为、获取需求
Facebook用户 产生内容,创造 需求。
雅虎提供静态的 导航信息
Google分析用 户搜索信息,满 足用户需求
Google:满足用户需求,将互联网将变得越来越智能。 Facebook:人际网络,创造新的需求。 Google利用好用的、免费得软件产品,换取对用户的理解;通过精准的 广告,找到生财之道,颠覆了微软卖软件拷贝赚钱的模式。
2020/1/21
大数据 —— 外延
与应用密切相关的各类数据,强调对于支持实际 应用所涉及到的多个来源且相互关联的大量、高 速、异构、质量差的数据
生产数据、设计数据、统计数据 文本、多媒体数据、各种文档数据
Heterogeneous Information Network 世界上的数据80%是非结构化数据 80-20规则
大数据研究意义
传染病预测
智能交通
海啸实时预警
搜索与电子商务
大数据研究意义
• 居民消费价格指数(CPI) • CPI意义:
– 与民生密切相关的国家 经济决策重要指标 – 反映通货膨胀率
• 目前存在问题:
– “滞后、不科学” —原社科院金融发展室主任易宪容 – “86%认为CPI与消费感受不符合”—中国政协网
如何准确计算分析CPI 大数据计算
大数据定义及特点
大数据是通过传统数据库技术和数据处理工具不能处 理的庞大而复杂的数据集合。
5亿用户 8亿商品 20亿PV/天
3万条/秒 5万订单/分钟
用Baidu Nhomakorabea评论
提纲
大数据背景 大数据由来 大数据定义 大数据与相关领域的关系 大数据挑战 大数据现有系统 大数据现有关键技术 课程介绍 课程考核
相关文档
最新文档