SparkSQL编程需注意的细节

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SparkSQL编程需注意的细节
SparkSQL是把Hive转为字符串后,以参数形式传递到SparkSession.builder().enableHiveSupport().getOrcCreate().sql(Hive_String)中执⾏。

例⼦
SparkSession spark = SparkSession.builder().enableHiveSupport().getOrcCreate();
String sql = “ALTER TABLE DB_NAME.TABLE1 DROP IF EXISTS PARTITION(pt_dt=')"+ partition_date +"')";
SparkSQL中,分区名、分区字段需⼩写。

如上⾯例⼦中的pt_dt分区名为⼩写,若写成PT_DT,则会报错。

同时,SELECT 分区字段时也需⼩写。

例如
String sql = "SELECT ID, "
+" NAME, "
+" pt_dt "
+" FROM DB_NAME.TABLE1 "
+" WHERE pt_dt = '" + partition_date + "'"
对传⼊参数要做判空处理
例如
if(versionNum==null || versionNum.isEmpty() || "none".equals(versionNum)) {
versionNum = "";
}
字符串拼接时,注意空格问题
若sql转为字符串没注意⾏⾸和⾏末的空格,可能出现sql解析时出现“粘连”现象。

例如
String sql = "SELECT ID,"
+" NAME, "
+" pt_dt"
+"FROM DB_NAME.TABLE1 "
+" WHERE pt_dt = '" + partition_date + "'"
其中,字段pt_dt后没有空格,FROM前也没有空格,sql解析出来会变成pt_dtFROM,造成语法错误。

相关文档
最新文档