微软Azure云端大数据解决方案概览
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
世纪互联: 中国最大的第三方电 信中立互联网基础设 施服务提供商
微软: 向世纪互联授权世界 领先的公有云平台技 术与商用应用技术, 包括 Windows Azure 与 Office 365
上海蓝云: 专注于基于微软技 术的公有云服务的 运营和服务,包括 Windows Azure和 Office 365
点击流
维基 /博客
移动 广告
WEB2.0
电子商务
ERP/CRM 应付款(企业内部数联据系人)
薪酬
订单追踪
盘存
销售管道
大数据
传感器 /RFID/设备
协作 数字化营销 搜索营销 Web日志 推荐
数据复杂度:多样化与高速度
音频 /视频 日志文件
空间 &GPS协调 数据营销源 电子政务源
Victoria
国际科技本土运营的云服务
2012年11月1日,微软与上海市政府签署了中国具有里程碑意义的 协议,由世纪互联运营中国第一个国际公有云平台。 2014年3月26日,由世纪互联运营的Windows Azure在中国正式商 用2014年4月15日,由世纪互联运营的Office365在中国正式商用 两个平台目前用户数约20,000家
低处理延迟 (sub-seconds)
可支持多个stream的关联 分析,或stream与参考数 据的关联分析
使用近似SQL语言
内置window和join操作 可使用简单的策略配置来 处理事件的乱序或晚到
保证事件的delivery
自动和快速的故障恢复 支持监测和运维警告
事件中心(Event Hub)
目的清洗,为长期 存储分区
- HDI和客户代码作为转 换或清除工具被使用, 例如: 整合、标准化 等
- 产生分析前数据(例如: 维度或影响因素、聚合 的大数据等)
- 产生结果集驱动应用或 商业处理(例如: 一个 web站点的产品推荐显 示列表)
- 可能在企业内部或 云端
- 产生结果集驱动应 用或商业处理(例 如: 一个web站点 的产品推荐显示列 表)
SE Asia Singapor
e
China North *
Beijing
East Asia Hong Kong
Japan East Saitama
JapanFra Baidu bibliotekWest Osaka
Australia East New South Wales
已运营 已宣布/未运营 * 21世纪互联运营
Australia South East
实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效
大数据对对数据质量的要求不像传 统%,要求那么高
数据的要求是尽量要多样化,要海 量,
大数据建设是一个持续不断优化的 过程,而不只是一个结果,通过不 断的大数据分析与验证,训练一个 适合企业自身特点的业务模型
大数据更多的是对未来的预测性分 析,而非对过去数据的总结性分析
Search
DocumentDB
Tables
混合运营
Azure AD Connect Health
AD Privileged Identity Management
Backup
Operational Insights
Import/Export
Site Recovery StorSimple
微软大数据端到端解决方案
洞察力
Power BI
丰富数据
Azure Marketplace
数据管理
本地数据中心
HDInsight Azure
Microsoft Azure 数据服务
转换 + 分析
数据
可视化 + 决策
获取 + 管理
离线数据解决方案
数据源
获取
结构化 非结构化 批量
Blob 存储
HDI
预处理 (标准化,清除)
Stream Analytics
Machine Learning
Event Hubs
Mobile Engagement
基础架构服务
Visual Studio Team Project
Azure SDK
Application Insights
SQL Database
Redis Cache
SQL Data Warehouse
分析 (多维,机器学习)
HDI,客户代码
HDI,Machine Learning
AzureBlob存储
发布
消费
关系型数据仓库/数 据挖掘
应用展现 客户Website
- 数据源来自于企 业内部、SaaS服 务或云端
- 每次移动的数据 量100G或更小
- 最通常的是每天 或每小时收集数 据
- 数据是暂时性的 - 处理步骤: 为合规
天气 文字 /图像
大数据建设特点
体量Volume
非结构化数据的超大规模和增长
总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
多样性 Variety
大数据的异构和多样性
很多不同形式(文本、图像、视频、机 器数据) 无模式或者模式不明显 不连贯的语法或句义
速度Velocity
Power BI前端展现
牛津计划
人脸识别
人脸检测
多人脸分组
多人脸验证
32个特征点
"faceRectangle":{ "width":228, "height":228, "left":460, "top":125},
"faceLandmarks":{ "pupilLeft":{ "x":507, "y":204}, "pupilRight":{ "x":609.8,
全球3大网络
2倍于AWS, 6倍Google的数据中心区域
G系列 – 全球最大的虚拟机, 32核心, 448GB内存, SSD…
West Europe Netherlands
India West Mumbai
India Central
Pune
China South *
Shanghai
India South Chennai
- 应用可以是任何使 用数据的程序。最 通用的是后端的 web应用调用程序
流数据解决方案
RabbitMQ / ActiveMQ
Stream processin
g
,R7解决方案一般架构
微软预测性维护参考方案
设备
& VLP XODWRU
$]XUH ,R7 6XLWH 预测性维护
: HE0 RELOH $SS
微软Azure云端 大数据解决方案概览
张强,首席技术顾问 MD]KDQ# P LFURVRIWFRP 微软(中国)有限公司
议题
大数据生态现状 微软$]XUH云端大数据概览 成功案例 问答
什么是大数据?
Petabyte
Terabyte
Gigabyte Megabyte
社交数据(微博/微信)
可信、安全、国际水准服务
在CCID 中国IT服务年会上获得了 “2014年中国最具影响力云服务 商奖”与“2014年中国云服务解 决方案创新奖”
由世纪互联运营的Windows Azure 提供公有云计算平台服务,包括计算、 存储、数据库、整合及网络化服务
由世纪互联运营的Office 365 提供Office应用、电子邮件、联 机协作、联机会议等服务
大数据建设思路总结
界定目标
收集和存储初步确定的所 有数据
了解和记录可用数据
采集
探索
建模
增强
使用迭代方法产生分析模 型
设计
用丰富数据来补充初 始数据
分析
数据洞察力
提升
参考资源action
Event Hub http://www.windowsazure.cn/home/features/event-hubs/
3RZ HU%,
6WRUDJH EOREV
' RFXP HQW' %
,R7 + XE 6WUHDP $QDO\WLFV (YHQW+ XE
: HE -REV
/RJLF $SSV
$]XUH $FWLYH ' LUHFWRU\
后端系统 处理
Azure Stream Analytics
每秒可处理数百万事件 (可 达 1GB/s)
Automation
Key Vault
Store / Marketplace VM Image Gallery & VM Depot
Cloud Services
Batch
Service Fabric
Remote App
平台服务
Web Apps
Mobile Apps
API Apps
Logic Apps
Device Device Device
Event Hub
Partition1 Partition2 Partition3
Event Consumer
Event Consumer
Event Consumer
连接数百万设备,吞吐量高达每秒数百万事件
Microsoft Azure Machine Learning
大 数 据 生 态 发 展 现 状
大数据生态发展现状
基础架构
分析
应用
跨基础架构
数据源
开源
大数据的几个方向
Oracle Exadata
一体机
实时商务智能
内存数据库6$3 + $1 $、0 RQHW' %
IBM Netezza
核心业务系统搬迁
Teradata …
大数据+ DGRRS 0 33 ' % ¬
"y":175.4人}, 脸身份辨识
"noseTip":{ "x":596.4, “y”:250.9}
……
相似人脸搜索 表情识别
计算视觉
图片分析
视频人脸跟踪
缩略图生成 视频运动检测
文字提取 视频去抖
语音语义服务
语音文字互转
语义理解
声纹识别
声纹匹配
牛津计划资料
• 牛津计划主页: https://cn.projectoxford.ai/ http://www.projectoxford.ai • 申请牛津计划免费密钥: https://cn.projectoxford.ai/subscription
大数据战略价值
数据成为继物质、能源之后的第三大战略资源。大数据提供了认识复杂系统的新 思维、新手段
全体数据
挖掘
近似求解 关联关系
数据量 9ROXP H
速度 9HORFLW\
多样性 9DULHW\
价值 9DOXH
大数据思维
随机样本 精确求解 因果关系
传统思维
数据规模指数级增长,大约年翻一倍,年7%, 年=%,年 预计=%, 是过去年内产生
议题
大数据生态现状 微软$]XUH云端大数据 成功案例 问答
Microsoft Azure -- 面向全球基础架构能力
全球24个区域, 19个在线…巨大的计算能力…每年持续增长
US Gov Iowa
North Central US
Illinois
Central US Iowa
Canada Central Toronto
API Management
Notification Hubs
Storage Queues
Hybrid Connections
Biztalk Services
Service Bus
Media Services
Content Delivery Network (CDN)
HDInsight
Data Factory
Canada East Quebec City
West US Californi
a
South Central US
Texas
East US Virginia
US Gov Virginia
East US 2 Virginia
North Europe Ireland
100+ 数据中心
Brazil South Sao Paulo
Steam Analysis http://www.windowsazure.cn/home/features/stream-analytics/ http://www.windowsazure.cn/documentation/articles/stream-analytics-get-started/ https://azure.microsoft.com/zh-cn/services/stream-analytics/
世纪互联虚拟机,云存储,SQL 数据库三项云服务获得国内首批 可信云服务认证
蓝云 ISO20000/27001 认证
由世纪互联运营的WindowsAzure通过信息安全等 级保护二级评测
安全&管理
Portal
Active Directory
Multi-Factor Authentication
中国大数据现状
全球的大数据应用处于发展初期,中国大数据应用刚刚起步
互联网是大数据应用的领跑者
大数据应用加速向传统领域拓展
金融
医疗
大数据应用初级发展阶段特征,各个开发商处于´瞎子摸象µ的尝试阶段 缺少典型性、共性强的大数据应用; 关键技术和分析方法主要依赖国外技术和产品 在´创新³ 开源³ 产品µ的大数据技术链条上贡献度低 中国互联网企业的技术优势难以顺畅地扩散到各行业,行业整合度低