1019大数据笔记记录

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、大数据,云计算,AI概述

1、背景及来源

大数据的背景:20世纪开始,政府和各行业(如医疗、通信、交通、金融等)信息化的发展,积累了海量数据。而且目前数据增长速度越来越快。

如何实现对海量数据的存储、查询、分析,使之产生商业价值,是目前面临的主要挑战。

2、大数据的定义

目前没有统一的大数据的定义。

Gartner:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。

维基百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.

总结成一句话、大数据实际上不是一项单一的技术,而是一个概念,一套技术,一个生态圈。

3、大数据的4大特征

第一个特征:数据量大(Volume).

第二个特征:数据类型繁多(Variety)

第三个特征:价值密度低(Value)

第四个特征是速度快、时效高(Velocity)

4、大数据生态圈

框架:Hadoop、Spark

集群管理:MapReduce、Yarn、Mesos

开发语言:Java、Python、Scala、Pig、Hive、SparkSQL。

数据库:NoSQL、HBase、Cassandra、Impala。

文件系统:HDFS、Ceph。

搜索系统:Elastic Search

采集系统:Flume、Sqoop、Kafka

流式处理:Spark Streaming、Storm

发行版:HortonWorks、Cloudera、MapR

集群管理:Ambari、大数据管理平台

机器学习:Spark MLLib、Mahout

5、大数据应用

大数据的应用已经深入到各行各业各领域,如金融(银行、证券、P2P)、互联网、通信、交通、医疗、环保等等!

6、大数据应用:案例分享

案例:无线通信大数据平台VMAX

数据量:以深圳市南山区为例,一天大概2T的数据。

功能:无线网络质量监控、布网规划和优化

技术:Hadoop+SPARK+HBASE+Kafka+…

硬件配置:联想服务器(Linux环境,30台,每台40核,256G内存,12个4T外挂盘)

过程:开发+优化升级+运维

7、大数据应用:思维的转变

第一个思维变革:利用所有的数据,而不再仅仅依靠部分数据,即不是随机样本,而是全体数据。

第二个思维变革:我们唯有接受不精确性,才有机会打开一扇新的世界之窗,即不是精确性,而是混杂性。

第三个思维变革:不是所有的事情都必须知道现象背后的原因,而是要让数据自己“发声”,即不是因果关系,而是相关关系。

8、大数据应用:面临的问题

存储和计算问题

成本问题

数据质量问题

数据安全问题

9、大数据应用中的一些坑

大数据不是万能良方,发挥不出价值就只是一片坟墓

第一:数据它首先是成本,其次才是价值,要让价值作为一个取舍对象。而不是为了建一个数据中心而建一个数据中心。

第二:千万不要试图用我们的理念去束缚计算机,要把大数据和人工智能用来解决企业问题的时候,我们要抓住的是企业真正要解决的目标是什么,然后我们要去尊重计算机的方法。第三:不要用自己的人类语言套计算机身上,计算机在提供可预测性的时候,不一定提供可解释性,在提供可解释性的时候,不一定给出非常好的预测建议。

10、大数据应用:一些建议

注重数据的积累。

重视大数据技术。

重视大数据人才的培养。

时刻注意数据安全和法律合规风险。

二、大数据与云计算

1、云计算(CloudComputing)的定义

云计算(CloudComputing):是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

云计算是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备份冗余(High Available)等传统计算机和网络技术发展融合的产物。

2、云计算的特点

(1) 超大规模

(2) 虚拟化

(3) 高可靠性

(4) 通用性

(5) 高可扩展性

(6) 按需服务

(7) 价格廉价

(8) 潜在的危险性

3、云计算的服务形式

IaaS:基础设施即服务

PaaS:平台即服务

SaaS:软件即服务

4、目前已有的云计算平台

IaaS:AWS、Azure、GCP等;

Paas:GCP、IBM、Oracle、Azure等;

DELL、EMC、Oracle、Teradata和惠普等提供大数据系统一体机服务;

国内有:阿里云、腾讯云、平安云、华为云等。

5、为什么要用云计算?

大数据基础架构的特征,必须要支持节点的横向扩展,既然实现了通过横向扩展的架构来提高性能,就没必要在每个节点上花费太多的钱。

大数据的高可用性是通过软件设计和架构设计实现的,而不是通过传统的高性能、高可用性的高端硬件设备来实现的。

6、大数据与云计算:今后的趋势如何?

未来的趋势是:云计算平台作为存储和计算的底层,支撑着上层的大数据处理,而大数据的发展为云计算的落地找到而更多的实际应用。

相关文档
最新文档