大数据技术体系及人才需求

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• count():返回数据集元素个数 • first():返回数据集的第一个元素 • take(n):以数组的形式返回数据集上的前n个元素 • top(n):按默认或者指定的排序规则返回前n个元素,默认按降序输出 • takeOrdered(n,[ordering]): 按自然顺序或者指定的排序规则返回前n个元素
• 1.物联网:为大数据分析提供数据源 • 2.云计算:为大数据分析提供计算平台 • 3.虚拟现实:为大数据分析提供应用场景 • 5.人工智能:模型训练需要依赖大量数据
• 1.趋势分析 • 2.行为分析 • 3.关系分析 • 4.异常检测
大数据应用场景
大数据行业应用
• 一、医疗大数据 看病更高效 • 二、生物大数据 改良基因 • 三、金融大数据 理财利器 • 四、零售大数据 最懂消费者 • 五、电商大数据 精准营销法宝 • 六、农牧大数据 量化生产 • 七、交通大数据 畅通出行 • 八、教育大数据 因材施教 • 九、舆情监控大数据 名探柯南 • 十、环保大数据 对抗PM2.5
• 易用性:Spark 提供了80多个高级运算符。 • 通用性:Spark 提供了大量的库,包括SQL、
DataFrames、MLlib、GraphX、Spark Streaming 。 • 多语言:Spark 支持Scala、python、java、R 等多 种开发语言。 • 多集群: Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器

大数据行业趋势
• 1.政府数据将成为地方政府最重要的资产。 • 2.大数据四要素是预警、预测、决策、智能。 • 3.中国大数据70%的需求集中在政府和金融应用。 • 4.大数据产业与传统产业深度融合。 • 5.数据源服务商构建大数据生态圈。 • 6.大数据智能会逐步取代搜索引擎。
大数据与其他技术的关系
RDD 行动操作
• reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据, func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直 到最后一个元素
• collect():以数据的形式返回数据集中的所有元素给Driver程序,为防止Driver程 序内存溢出,一般要控制返回的数据集大小
大数据的5V特点:Volume(大量)、Velocity(高速) 、Variety(多样)、Value(低价值密度)、Veracity(真实 性)。
大数据分析过程
• 大数据处理之一:采集数据 • 大数据处理之二:导入数据并进行预处理 • 大数据处理之三:进行统计与分析 • 大数据处理之四:对数据进行挖掘 • 大数据处理之五:可视化分析结果
RDD 转化操作
• map :返回一个新的分布式数据集,由每个原元素经过func函数转换后组成 • filter: 返回一个新的数据集,由经过func函数后返回值为true的原元素组成
flatMap: 类似于map,但是每一个输入元素,会被映射为0到多个输出元素 sample(withReplacement, frac, seed) :根据给定的随机种子seed,随机抽样 出数量为frac的数据 • union: 返回一个新的数据集,由原数据集和参数联合而成 • groupByKey:在一个由(K,V)对组成的数据集上调用,返回一个(K, Seq[V])对的数据集。 • reduceByKey : 在一个(K,V)对的数据集上使用,返回一个(K,V)对的 数据集, • Join:在类型为(K,V)和(K,W)类型的数据集上调用,返回一个(K,(V,W)) 对,每个key中的所有元素都在一起的数据集 • groupWith: 在类型为(K,V)和(K,W)类型的数据集上调用,返回一个数据集 。 • cartesian: 笛卡尔积。但在数据集T和U上调用时,返回一个(T,U)对的数 据集,所有元素交互进行笛卡尔积。
大数据技术体系及人才需求
主讲:刘军辉
大数据国家战略
• 经李克强总理签批,2015年9月,国务院印发《促 进大数据发展行动纲要》系统部署大数据发展工作 。
• 《纲要》部署三方面主要任务: • 一要加快政府数据开放共享,推动资源整合,提升
治理能力。 • 二要推动产业创新发展,培育新兴业态,助力经济
转型。 • 三要强化安全保障,提高管理水平,促进健康发展
• Spark SQL: 用来操作结构化数据。 • Spark Streaming: 用来操作实时的流数据。 • Mllib:提供机器学习算法库。 • GraphX: 用来操作图形,可以进行并行图计算。
Spark VS Hadoop
• 更快的速度:内存计算下,Spark 比 Hadoop 快100 倍。
Hadoop技术体系
• HDFS:分布式文件系统,解决大数据存储问题。 • MapReduce:分布式计算框架,解决大数据计算问题
。 • HBase: 列存储数据库,解决数据检索问题。 • Hive:数据仓库工具,解决数据挖掘问题。
Spark技术体系
• Spark Core: 包括任务调度、内存管理、错误恢复、与存 储系统交互,RDD的API定义。
大数据岗位需求
• 1.数据科学家 • 2.大数据算法工程师 • 3.数据规划师 • 4.数据分析师 • 5.大数据系统架构师 • 6.大数据开发工程师 • 7.大数据运维工程师
什么是大数据?
一种规模大到在获取、存储、管理、分析方面大大超出 了传统数据库软件工具能力范围的数据集合,பைடு நூலகம்有海量的数 据规模、快速的数据流转、多样的数据类型和价值密度低四 大特征。
Mllib算法库
• MLlib 是Spark的可以扩展的机器学习库,由以下部 分组成:通用的学习算法和工具类,包括分类,回 归,聚类,协同过滤,降维等。
• 使用Mllib 的步骤: • 1.用字符串RDD表示 信息。 • 2.运行特征提取算法,返回向量RDD。 • 3.对向量RDD调用分类算法 。 • 4.使用评函数 在测试集上评估模型。
相关文档
最新文档