大数据技术分享
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于Row key你可以理解row key为传统RDBMS中的某一个行的主键, Hbase是不支持条件查询以及Order by等查询,因此Row key的设计 就要根据你系统的查询需求来设计了额。 Hbase中的记录是按照 rowkey来排序的,这样就使得查询变得非常快。
hive简介
Hive是基于hadoop构建的数据仓库基础架构,通过提供一系列的工具, 使得用户能够方便的做数据ETL,数据结构化,并针对存放在hadoop 上的海量数据进行查询和分析
安全在于心细,事故出在麻痹。20.10.1620.10.1619:33:5119:33:51October 16, 2020
踏实肯干,努力奋斗。2020年10月16日下午7时33分 20.10.1620.10.16
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月16日星期 五下午7时33分 51秒19:33:5120.10.16
大数据技术分享
演讲提纲
01 数据存储/Hbase,MongoDB 02 数据分析/Hive,MR,R 03 实时计算/Storm,Spark 04 数据采集/Flume,Kafka 05 数据传输/Sqoop,Kafka 06 DPI大数据架构
NoSql数据库
NoSql
(Not Only Sql)
Hive和普通数据库的区别
由于Hive采用了SQL的查询语言HQL,因此很容易将Hive 理解为数据库。
Spark是什么?
参考spark学习.ppt 由于Spark是由Scala语言编写的,学习Spark首先要有Scala基础 Scala的学习可参考以下学习网站 http://zh.scala-tour.com/#/overview http://twitter.github.io/scala_school/zh_cn/
HRegionServer、HRegion、Hmemcache、Hlog、 HStore之间的关系
HBase表中的数据与HRegionServer的分布关系
为什么采用HBase?
HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储 的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于 行的模式,这样方面读写大数据的数据。
Arrays:arraFra Baidu bibliotek中的数据为相同类型,例如,假如array A中元素 ['a','b','c'],则A[1]的值为'b'。
内建运算符和函数
包括关系运算符(A=B, A!=B, A<B等等) 算术运算符(A+B, A*B, A&B, A|B等等) 逻辑运算符(A&&B, A|B等等) 复杂类型上的运算符(A[n], M[key], S.x) 各种内建函数。
hbase是基于列存储,查询速度为秒级
一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的 ,因此用户可以给行定义各种不同的列
什么是列存储?
什么是列存储?列存储不同于传统的关系型数据库,其数据在表中是 按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择 规则是通过列来定义的,因 此整个数据库是自动索引化的。按列存储 每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大 大减少读取的数据量,一个字段的数据聚集存储,那就 更容易为这种 聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列 存储的区别:
(2)复杂类型:
Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中 一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域a。
Maps(Key-Value对):访问指定域可以通过['element name']进行, 例如,一个Map M包含了一个group->gid的k-v对,gid的值可以通过 M['group']来获取。
严格把控质量关,让生产更加有保障 。2020年10月 下午7时 33分20.10.1619:33Oc tober 16, 2020
作业标准记得牢,驾轻就熟除烦恼。2020年10月16日星期 五7时33分51秒 19:33:5116 October 2020
好的事情马上就会到来,一切都是最 好的安 排。下 午7时33分51秒 下午7时33分19:33:5120.10.16
buckets(或clusters):在同一个partition中的数据可以根据某个列 的hash值分为多个bucket。partition和bucket并非必要,但是它们能 大大加快数据的查询速度。
数据类型
(1)简单类型: TINYINT - 1 byte integer SMALLINT - 2 byte integer INT - 4 byte integer BIGINT - 8 byte BOOLEAN - TRUE/ FALSE FLOAT - 单精度 DOUBLE - 双精度 STRING - 字符串集合
谢谢大家!
hbase
MongoD B
Lucene
/Solr 等
Hbase是什么
HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的 HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以 看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架 (算法)对HBase进行操作,如下图所示:
MySQL中现有的表结构
迁移至HBase中的表结构
原来系统中有2张表blogtable和comment表,采用HBase后只有一张 blogtable表,如果按照传统的RDBMS的话,blogtable表中的列是固 定的,比如schema 定义了Author,Title,URL,text等属性,上线后表字 段是不能动态增加的。但是如果采用列存储系统,比如Hbase,那么 我们可以定义blogtable表,然后定义info 列族,User的数据可以分为: info:title ,info:author ,info:url 等,如果后来你又想增加另外的属性, 这样很方便只需要 info:xxx 就可以了。
kafka服务器 (收集实时数据,
转发)
大数据平台 (hbase存储、查询。
hive分析)
Oracle数据
DSJPT_WEB (前端查询、
管理)
中心处理服务 (解析,入库)
图片异步下载 (远程下载图片,
写入hbase)
二次识别机 (图片识别结果
写入hbase)
谢谢
谢谢
树立质量法制观念、提高全员质量意 识。20.10.1620.10.16Friday, October 16, 2020
hive的设计目标是:可伸缩、可扩展、容错及输入格式松耦合。
数据单元
按照数据的粒度大小,hive数据可以被组织成:
1)databases: 避免不同表产生命名冲突的一种命名空间
2)tables:具有相同scema的同质数据的集合
partitions:一个表可以有一个或多个决定数据如何存储的partition key
一马当先,全员举绩,梅开二度,业 绩保底 。20.10.1620.10.1619:3319:33:5119:33:51Oc t-20
牢记安全之责,善谋安全之策,力务 安全之 实。2020年10月16日 星期五7时33分 51秒Fr iday, October 16, 2020
相信相信得力量。20.10.162020年10月 16日星 期五7时33分51秒20.10.16
人生得意须尽欢,莫使金樽空对月。19:33:5119:33:5119:3310/16/2020 7:33:51 PM
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.1619:33:5119:33Oc t-2016- Oct-20
加强交通建设管理,确保工程建设质 量。19:33:5119:33:5119:33Fri day, October 16, 2020
DPI大数据平台
1
Flume 日志采集
Flume 日志采集
大数据平台 CDH5.3
查询接口
分析(hive、mr)
Flume 日志采集
存储(hbase、mysql)
UI展现
(报表、柱状图、 曲线图等)
以往项目架构图
安徽省公安厅图云项目
全国缉查布控 数据库
(数据源)
SparkStreaming (黑名单布控、电子围栏 套牌车、积分预警等)
语言能力
hive查询语言提供基本的类sql操作,这些操作基于table和partition, 包括:
1. 使用where语句过滤制定行 2. 使用select查找指定列 3. join两张table或多张表 4. group by 5. 一个表的查询结果存入另一张表 6. 将一个表的内容存入本地目录 7. 将查询结果存储到hdfs上 8. 管理table和partition(creat、drop、alert) 9.hive提供jdbc功能,方便从关系型数据库中读取数据