Spark SQL数据加载和保存实战

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Spark SQL数据加载和保存实战

一：前置知识详解：

Spark SQL重要是操作DataFrame，DataFrame本身提供了save和load的操作，

Load：可以创建DataFrame，

Save：把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二：Spark SQL读写数据代码实战：

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.*;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

import java.util.ArrayList;

import java.util.List;

public class SparkSQLLoadSaveOps {

public static void main(String[] args) {

SparkConf conf = new SparkConf().setMaster("local").setAppName("SparkSQLLoadSaveOps");

JavaSparkContext sc = new JavaSparkContext(conf);

SQLContext = new SQLContext(sc);

/**

* read()是DataFrameReader类型，load可以将数据读取出来

DataFrame peopleDF = sqlContext.read().format("json").load("E:\\Spark\\Sparkinstanll_package\\Big_Data_Software\\spa rk-1.6.0-bin-hadoop2.6\\examples\\src\\main\\resources\\people.json");

/**

* 直接对DataFrame进行操作

* Json: 是一种自解释的格式，读取Json的时候怎么判断其是什么格式？

* 通过扫描整个Json。扫描之后才会知道元数据

//通过mode来指定输出文件的是append。创建新文件来追加文件

peopleDF.select("name").write().mode(SaveMode.Append).save("E:\\personNames");

}

读取过程源码分析如下：

1. read方法返回DataFrameReader，用于读取数据。

/**

* :: Experimental ::

* Returns a [[DataFrameReader]] that can be used to read data in as a [[DataFrame]].

* {{{

* sqlContext.read.parquet("/path/to/file.parquet")

* sqlContext.read.schema(schema).json("/path/to/file.json")

* }}}

* @group genericdata

* @since 1.4.0

@Experimental

//创建DataFrameReader实例，获得了DataFrameReader引用

def read: DataFrameReader = new DataFrameReader(this)

2. 然后再调用DataFrameReader类中的format，指出读取文件的格式。

/**

* Specifies the input data source format.

* @since 1.4.0

def format(source: String): DataFrameReader = {

this.source = source

this

}

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

/**

* Loads input in as a [[DataFrame]], for data sources that require a path (e.g. data backed by * a local or distributed file system).

* @since 1.4.0

// TODO: Remove this one in Spark 2.0.

def load(path: String): DataFrame = {

option("path", path).load()

}

至此，数据的读取工作就完成了，下面就对DataFrame进行操作。

下面就是写操作！！！

1. 调用DataFrame中select函数进行对列筛选

/**

* Selects a set of columns. This is a variant of `select` that can only select

* existing columns using column names (i.e. cannot construct expressions).