大数据技术特点 ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互 信息,位置信息等是大数据的主要来源.
•能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义 分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得 应用.
• 1s 是临界点.
Hadoop:大数据分析的利器
Hive
▪ Apache Hadoop 是一个用java语言实现的软件框架, 在由大量计算机组成的集群中运行海量数据的分布式计 算,它可以让应用程序支持上千个节点和PB级别的数据。
▪ 设计理念:可靠、高效、扩展 可靠:假设计算元素和存储会失败,因此它维护多个
工作数据副本,确保能够针对失败的节点重新分布处理。 高效:因为它以并行的方式工作,通过并行处理加快
技术描述
针对大量数据进行分布 式处理的系统框架 文本内容分词与分析; 图像、音视频分析
流计算引擎
通过交互式可视化界面 辅助用户进行分析 计算机模拟人类学习行 为,包括特征提取、图 形生成等 保护隐私数据与信息个 体的对应关系等安全技 术 存储、放置、调度大规 模的数据
大 数
可视化交互界面
据
分
智能数据分析
析
存储、 组织、 管理
数据隐私保护 高效存储和管理大规 模数据
关键技术
Hadoop 生态系统
文本处理技术;自然 语言理解; 多媒体处 理技术… Streaming Data 交互式可视化探 索分析技术 大规模机器学习 技术
数Hale Waihona Puke 隐私防范保 护措施与数据安 全技术 数据存储备份技术、 数据放置和调度技术、 数据溯源
处 理速度。 扩展:容易扩展,能够处理 PB 级数据。
Hadoop核心
HBase
Hadoop
ZooKeeper
Hadoop
Hadoop的核心子项目,提供了一个分布式文 件系统(HDFS)和支持MapReduce的分布式计 算。
HBase
建立在Hadoop内核之上,提供可靠的,可扩 展的分布式数据库。
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智 能(咨询、报告等)
实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
Velocity 速度
• 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无 效的.
• 实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别 之一.
Volume 数据量
PB是大数据层次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
大数据技术特点
大数据的4V特性
体量Volume 多样性Variety 价值密度Value 速度Velocity
非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
ZooKeeper
一个分布式的、高可用的协调服务。 Zookeeper提供分布式锁之类的基本服务用于 构建分布式应用。
Hive
分布式数据仓库。Hive管理HDFS中存储的数 据,并提供基于SQL的查询语言用以查询数据。
大数据涉及的关键技术
需求
大
海量数据分布式处理
数
据
采
非结构化数据处理
集
处
理
实时数据处理