大数据技术分享 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对于Row key你可以理解row key为传统RDBMS中的某一个行的主键， Hbase是不支持条件查询以及Order by等查询，因此Row key的设计就要根据你系统的查询需求来设计了额。 Hbase中的记录是按照 rowkey来排序的，这样就使得查询变得非常快。
hive简介
Hive是基于hadoop构建的数据仓库基础架构，通过提供一系列的工具，使得用户能够方便的做数据ETL，数据结构化，并针对存放在hadoop 上的海量数据进行查询和分析
安全在于心细，事故出在麻痹。20.10.1620.10.1619:33:5119:33:51October 16, 2020
踏实肯干，努力奋斗。2020年10月16日下午7时33分 20.10.1620.10.16
追求至善凭技术开拓市场，凭管理增创效益，凭服务树立形象。2020年10月16日星期五下午7时33分 51秒19:33:5120.10.16
大数据技术分享
演讲提纲
01 数据存储/Hbase,MongoDB 02 数据分析/Hive,MR,R 03 实时计算/Storm,Spark 04 数据采集/Flume,Kafka 05 数据传输/Sqoop,Kafka 06 DPI大数据架构
NoSql数据库
NoSql
(Not Only Sql)
Hive和普通数据库的区别
由于Hive采用了SQL的查询语言HQL，因此很容易将Hive 理解为数据库。
Spark是什么？
参考spark学习.ppt 由于Spark是由Scala语言编写的，学习Spark首先要有Scala基础 Scala的学习可参考以下学习网站 http://zh.scala-tour.com/#/overview http://twitter.github.io/scala_school/zh_cn/
HRegionServer、HRegion、Hmemcache、Hlog、 HStore之间的关系
HBase表中的数据与HRegionServer的分布关系
为什么采用HBase？
HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式，这样方面读写大数据的数据。
Arrays：arraFra Baidu bibliotek中的数据为相同类型，例如，假如array A中元素 ['a','b','c']，则A[1]的值为'b'。
内建运算符和函数
包括关系运算符(A=B, A!=B, A<B等等）算术运算符（A+B, A*B, A&B, A|B等等）逻辑运算符（A&&B, A|B等等）复杂类型上的运算符（A[n], M[key], S.x）各种内建函数。
hbase是基于列存储，查询速度为秒级
一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的，因此用户可以给行定义各种不同的列
什么是列存储？
什么是列存储？列存储不同于传统的关系型数据库，其数据在表中是按行存储的，列方式所带来的重要好处之一就是，由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别：
（2）复杂类型：
Structs： structs内部的数据可以通过DOT（.）来存取，例如，表中一列c的类型为STRUCT{a INT; b INT}，我们可以通过c.a来访问域a。
Maps（Key-Value对）：访问指定域可以通过['element name']进行，例如，一个Map M包含了一个group->gid的k-v对，gid的值可以通过 M['group']来获取。
严格把控质量关，让生产更加有保障。2020年10月下午7时 33分20.10.1619:33Oc tober 16, 2020
作业标准记得牢，驾轻就熟除烦恼。2020年10月16日星期五7时33分51秒 19:33:5116 October 2020
好的事情马上就会到来，一切都是最好的安排。下午7时33分51秒下午7时33分19:33:5120.10.16
buckets（或clusters）：在同一个partition中的数据可以根据某个列的hash值分为多个bucket。partition和bucket并非必要，但是它们能大大加快数据的查询速度。
数据类型
（1）简单类型： TINYINT - 1 byte integer SMALLINT - 2 byte integer INT - 4 byte integer BIGINT - 8 byte BOOLEAN - TRUE/ FALSE FLOAT - 单精度 DOUBLE - 双精度 STRING - 字符串集合
谢谢大家！
hbase
MongoD B
Lucene
/Solr 等
Hbase是什么
HBase是Apache Hadoop中的一个子项目，Hbase依托于Hadoop的 HDFS作为最基本存储基础单元，通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架 (算法)对HBase进行操作，如下图所示：
MySQL中现有的表结构
迁移至HBase中的表结构
原来系统中有2张表blogtable和comment表，采用HBase后只有一张 blogtable表，如果按照传统的RDBMS的话，blogtable表中的列是固定的，比如schema 定义了Author,Title,URL,text等属性，上线后表字段是不能动态增加的。但是如果采用列存储系统，比如Hbase，那么我们可以定义blogtable表，然后定义info 列族，User的数据可以分为： info:title ,info:author ,info:url 等，如果后来你又想增加另外的属性，这样很方便只需要 info:xxx 就可以了。
kafka服务器（收集实时数据，
转发）
大数据平台（hbase存储、查询。
hive分析）
Oracle数据
DSJPT_WEB （前端查询、
管理）
中心处理服务（解析，入库）
图片异步下载（远程下载图片，
写入hbase）
二次识别机（图片识别结果
写入hbase）
谢谢
谢谢
树立质量法制观念、提高全员质量意识。20.10.1620.10.16Friday, October 16, 2020
hive的设计目标是：可伸缩、可扩展、容错及输入格式松耦合。
数据单元
按照数据的粒度大小，hive数据可以被组织成：
1）databases：避免不同表产生命名冲突的一种命名空间
2）tables：具有相同scema的同质数据的集合
partitions：一个表可以有一个或多个决定数据如何存储的partition key
一马当先，全员举绩，梅开二度，业绩保底。20.10.1620.10.1619:3319:33:5119:33:51Oc t-20
牢记安全之责，善谋安全之策，力务安全之实。2020年10月16日星期五7时33分 51秒Fr iday, October 16, 2020
相信相信得力量。20.10.162020年10月 16日星期五7时33分51秒20.10.16
人生得意须尽欢，莫使金樽空对月。19:33:5119:33:5119:3310/16/2020 7:33:51 PM
安全象只弓，不拉它就松，要想保安全，常把弓弦绷。20.10.1619:33:5119:33Oc t-2016- Oct-20
加强交通建设管理，确保工程建设质量。19:33:5119:33:5119:33Fri day, October 16, 2020
DPI大数据平台
1
Flume 日志采集
Flume 日志采集
大数据平台 CDH5.3
查询接口
分析(hive、mr)
Flume 日志采集
存储(hbase、mysql)
UI展现
（报表、柱状图、曲线图等）
以往项目架构图
安徽省公安厅图云项目
全国缉查布控数据库
（数据源）
SparkStreaming （黑名单布控、电子围栏套牌车、积分预警等）
语言能力
hive查询语言提供基本的类sql操作，这些操作基于table和partition，包括：
1. 使用where语句过滤制定行 2. 使用select查找指定列 3. join两张table或多张表 4. group by 5. 一个表的查询结果存入另一张表 6. 将一个表的内容存入本地目录 7. 将查询结果存储到hdfs上 8. 管理table和partition(creat、drop、alert) 9.hive提供jdbc功能，方便从关系型数据库中读取数据