1019大数据笔记记录
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、大数据,云计算,AI概述
1、背景及来源
大数据的背景:20世纪开始,政府和各行业(如医疗、通信、交通、金融等)信息化的发展,积累了海量数据。而且目前数据增长速度越来越快。
如何实现对海量数据的存储、查询、分析,使之产生商业价值,是目前面临的主要挑战。
2、大数据的定义
目前没有统一的大数据的定义。
Gartner:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。
维基百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.
总结成一句话、大数据实际上不是一项单一的技术,而是一个概念,一套技术,一个生态圈。
3、大数据的4大特征
第一个特征:数据量大(Volume).
第二个特征:数据类型繁多(Variety)
第三个特征:价值密度低(Value)
第四个特征是速度快、时效高(Velocity)
。
4、大数据生态圈
框架:Hadoop、Spark
集群管理:MapReduce、Yarn、Mesos
开发语言:Java、Python、Scala、Pig、Hive、SparkSQL。
数据库:NoSQL、HBase、Cassandra、Impala。
文件系统:HDFS、Ceph。
搜索系统:Elastic Search
采集系统:Flume、Sqoop、Kafka
流式处理:Spark Streaming、Storm
发行版:HortonWorks、Cloudera、MapR
集群管理:Ambari、大数据管理平台
机器学习:Spark MLLib、Mahout
5、大数据应用
大数据的应用已经深入到各行各业各领域,如金融(银行、证券、P2P)、互联网、通信、交通、医疗、环保等等!
6、大数据应用:案例分享
案例:无线通信大数据平台VMAX
数据量:以深圳市南山区为例,一天大概2T的数据。
功能:无线网络质量监控、布网规划和优化
技术:Hadoop+SPARK+HBASE+Kafka+…
硬件配置:联想服务器(Linux环境,30台,每台40核,256G内存,12个4T外挂盘)
过程:开发+优化升级+运维
7、大数据应用:思维的转变
第一个思维变革:利用所有的数据,而不再仅仅依靠部分数据,即不是随机样本,而是全体数据。
第二个思维变革:我们唯有接受不精确性,才有机会打开一扇新的世界之窗,即不是精确性,而是混杂性。
第三个思维变革:不是所有的事情都必须知道现象背后的原因,而是要让数据自己“发声”,即不是因果关系,而是相关关系。
8、大数据应用:面临的问题
存储和计算问题
成本问题
数据质量问题
数据安全问题
9、大数据应用中的一些坑
大数据不是万能良方,发挥不出价值就只是一片坟墓
第一:数据它首先是成本,其次才是价值,要让价值作为一个取舍对象。而不是为了建一个数据中心而建一个数据中心。
第二:千万不要试图用我们的理念去束缚计算机,要把大数据和人工智能用来解决企业问题的时候,我们要抓住的是企业真正要解决的目标是什么,然后我们要去尊重计算机的方法。第三:不要用自己的人类语言套计算机身上,计算机在提供可预测性的时候,不一定提供可解释性,在提供可解释性的时候,不一定给出非常好的预测建议。
10、大数据应用:一些建议
注重数据的积累。
重视大数据技术。
重视大数据人才的培养。
时刻注意数据安全和法律合规风险。
二、大数据与云计算
。
1、云计算(CloudComputing)的定义
云计算(CloudComputing):是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
云计算是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备份冗余(High Available)等传统计算机和网络技术发展融合的产物。
2、云计算的特点
(1) 超大规模
(2) 虚拟化
(3) 高可靠性
(4) 通用性
(5) 高可扩展性
(6) 按需服务
(7) 价格廉价
(8) 潜在的危险性
3、云计算的服务形式
IaaS:基础设施即服务
PaaS:平台即服务
SaaS:软件即服务
4、目前已有的云计算平台
IaaS:AWS、Azure、GCP等;
Paas:GCP、IBM、Oracle、Azure等;
DELL、EMC、Oracle、Teradata和惠普等提供大数据系统一体机服务;
国内有:阿里云、腾讯云、平安云、华为云等。
5、为什么要用云计算?
大数据基础架构的特征,必须要支持节点的横向扩展,既然实现了通过横向扩展的架构来提高性能,就没必要在每个节点上花费太多的钱。
大数据的高可用性是通过软件设计和架构设计实现的,而不是通过传统的高性能、高可用性的高端硬件设备来实现的。
6、大数据与云计算:今后的趋势如何?
未来的趋势是:云计算平台作为存储和计算的底层,支撑着上层的大数据处理,而大数据的发展为云计算的落地找到而更多的实际应用。