大数据技术及应用简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
“大智移云”时代
• 大数据、人工智能、移动互联网和云计 算是新一代信息产业发展的重点方向。
–2015年8月31日:《促进大数据发展 行动纲要》
–2015年12月29日:《“互联网+”行
11
智能 设计
智能 客服
智能 销售
互联网+智能制造
智能制造
智能采购
智能 仓储
智能 运输
12
目录
1. 大数据概述 2. 大数据处理、分析与挖掘 3. 大数据分析的挑战及技术创新 4. 大数据分析平台及应用
4. 观点
对某些事件的观点
19
对象数据的表达
对象 年龄 性别
1 48 女 2 40 男 3 51 女 4 23 女 5 57 女 6 57 女 7 22 男 8 58 男 9 37 女 10 54 男
收入 子女数
17546 1 30085.1 3 16575.4 0 20375.4 3 50576.3 0 37869.6 2 8877.07 0 24946.6 0 25304.3 2 24212.1 2
空间GPS数据
图像/视频 语音/文本 SMS/MMS
数据多样性及复杂性增加
对数据的使用者来讲,如果数据集超出了使用者所拥有的 信息处理和分析的能力,就给使用者带来了大数据问题
7
大数据V特征
Volume 数据规模大
Value
价值
Velocity 数据变化快
Variety 数据类型复杂
8
大数据的价值 (Value)
美国医疗保健
每年产值达3000亿美金 每年生产率增长约0.7%
欧洲公共部门
管理
每年2500亿欧元 每年生产率增长约0.7%
全球个人定位
数据
1000亿+的服务供应商收 入
为终端用户带来高达7000 亿美的价值
美国零售业
净利率增长可能高达 60%+
每年生产率增长0.5-1.0%
制造业
最多可节省50%的产品研发、 组装成本
最多可节约7%的营运资金
未来大数据的产业规模将会至少以万亿美元来进行衡量,
大数据将会给信息技术领域带来一个新的增长点。
9
国家大数据战略
• 十八届五中全会确定实施国家大数据战略 • 十三五规划纲要提出,实施国家大数据战略,把大数据作为
基础性战略资源,全面实施促进大数据发展行动,加快推动 数据资源共享开放和开发应用。建设国家大数据平台、数据 中心等基础设施。
传统计算机的问题
•使用成本高 •资源分散 •资源不足 •资源浪费 •高能耗 •环境污染
云计算的优点
•成本低 •易于普及 •可扩展能力高 •节能 •环保
24
云环境 (A Cloud)
• 云指的是一个计算环境,为计算环境外的用户提供可扩展和 可度量的计算资源。
• 用户不需要知道具体的云环境在哪里。如用户在深圳,云环 境可能在内蒙古。
13
数据资源向信息、知识、价值转换的流程
数据 采集
数据 存储
数据 处理
分析 挖掘
应用
数据加工处理分析的过程是数据价值提升的过程
14
• 人工采集
数据采集 • 自动化采集
数据 采集
数据 存储
数据 处理
分析 挖掘
应用
15
中央磁盘存储
数据存储
云存储
数据 采集
数据 存储
数据 处理
分析 挖掘
应用
16
数据处理、转换和融合
6
大数据
大数据 = 交易数据 + 交互数据 + 观测数据
传感器/RFID/移动终 端 用户点击流数据
Big Da情t感a数据
用户生成内容
Web 日志 WEB
CRM
ERP 财务数据 人事数据 采购数据
客户数据 客户分群 客户服务 客户行为
动态定价 销售网络 网络营销 行为定向营销 动态营销渠道
用户间交互 & 上传
数据 采集
数据 存储
数据 处理
分析 挖掘
应用
17
关联分析
数据分析与挖掘
分类模型
聚类分析
数据 采集
数据 存储
数据 处理
预测模型
分析 挖掘
应用
18
对象及属性
社交群体的属性:
社交网络图
1. 基本属性
性别、年龄、职业、住址、 收入、…
2. 喜好
读书、旅游、交友、…
3. 行为
购买记录、行为记录、手机 日志
256个状态,2的8次方 • 1KB (kilobyte)=1024B • 1MB (megabyte)=1024KB (兆字节) • 1GB (gigabyte)=1024MB(千兆字节)
• 1TB(terabyte)=1024GB(百万兆字节)
• 1PB (petabyte) = 1024 TB (百亿兆字节)
分类模型
新数据
分类结果
分类模型
21
21
目录
1. 大数据概述 2. 大数据处理、分析与挖掘 3. 大数据平台技术 4. 大数据应用
22
计算机系统的发展
23
云计算
• 云计算是一种新的大规模分布式计算模式
– 通过网络和资源虚拟技术,实现计算和存储资源集中管 理,面向用户提供服务;
• 云计算可以解决目前计算机使用的诸多问题,是计 算技术发展的一个新的里程碑。
25
云环境的计算资源
• 物理服务器—CPU, 内存, 外存(磁盘、磁带) • 虚拟服务器—CPU, 内存, 外存 • 软件 • 服务 (应用)
物理服务器
虚拟服务器
软件
服务
26
虚拟化是云计算的核心技术
• 虚拟化技术可以将一个物理服务器当作多个虚拟服务器使 用,多个用户共享物理服务器的资源,但用户对虚拟服务 器的体验是独立的计算机,用户不需要了解物理服务器。
有无车 房贷

0

1

0

0

0

0

0

0

0

0
是否投资
Y N N N N Y Y N N N
• 统计特征:平均年龄、男女比例、收入分布、有房贷比例 • 聚类:根据客户的属性特征值将客户分组 • 分类:从数据中学习是否投资的分类模型 • 预测:预测客户是否投资
20
训练样本
分类模型的学习及运用
学习算法
大数据技术及应用简介
1
目录
1. 大数据概述 2. 大数据处理、分析与挖掘 3. 大数据平台技术 4. 大数据应用
2
什么是数据?
数据是所表达的对象的信息载体,记录对象的属性特征。 学生成绩及排名表
3
数据有多样化的表达形式
4
ห้องสมุดไป่ตู้
数据 》信息 》知识 》智慧
5
数据的大小
• 1 bit (比特)= 1位二进制,0 和 1 两个状态 • 1 Byte(字节)= 由8 bit(位),例 11001010,可以表达
• 虚拟服务器的运行由物理服务器统一管理和维护,虚拟机 用户不需要维护。
• 当某虚拟机用户需求变化时,物理服务器的资源可以自动 扩展。
27
弹性化和可扩展性
相关文档
最新文档