决策树模型预测Spark SQL作业执行时间的方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第３８卷第４期计算机应用与软件
Ｖｏｌ３８Ｎｏ．４２０２１年４月
ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ
Ａｐｒ．２０２１
决策树模型预测ＳｐａｒｋＳＱＬ作业执行时间的方法
吴恩慈
（上海淇毓信息科技有限公司　上海２００１２０）
收稿日期：２０１９－０７－３１。

吴恩慈，高工，主研领域：大数据实时计算。

摘　要ＳｐａｒｋＳＱＬ在超大规模集群和数据集上存在易用性问题，如Ｃａｔａｌｙｓｔ最优执行计划的选择，ＳｈｕｆｆｌｅＰａｒｔｉｔｉｏｎ的配置对性能有较大的影响，数据倾斜往往导致集群性能变差。

为了在作业执行之前准确预测执行时间，更加充分地使用运行时数据，选择最优执行计划，提出通过决策树及其组合算法的回归模型预测作业执行时间的方法。

采用交叉验证方法优化模型超参数，通过剪枝和组合算法优化过度拟合问题，选择相关指标评估机器学习
模型预测的准确性。

实验表明，梯度提升树回归模型预测作业执行时间的Ｒ２超过０．８，且能够满足在线预测的
实时性要求，模型评估指标达到预期效果，相对于线性回归模型的评估指标具有一定的优势。

关键词任务调度　计算引擎　作业特征　执行时间　预测模型　决策树
中图分类号　ＴＰ３１１文献标志码　ＡＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０２１．０４．００５
ＭＥＴＨＯＤＯＦＰＲＥＤＩＣＴＩＮＧＳＰＡＲＫＳＱＬＪＯＢＥＸＥＣＵＴＩＯＮＴＩＭＥ
ＢＹＤＥＣＩＳＩＯＮＴＲＥＥＭＯＤＥＬ
ＷｕＥｎｃｉ
（ＳｈａｎｇｈａｉＱｉｙｕＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．，Ｓｈａｎｇｈａｉ２００１２０，Ｃｈｉｎａ）
ＡｂｓｔｒａｃｔＳｐａｒｋＳＱＬｉｍｐｌｅｍｅｎｔｓｈｉｇｈｓｐｅｅｄｃｏｍｐｕｔｉｎｇａｎｄｃｏｍｐｌｅｘｄａｔａｍｉｎｉｎｇ，ｂｕｔｔｈｅｒｅａｒｅｐｒｏｂｌｅｍｓｗｉｔｈｅａｓｅｏｆｕｓｅｏｎｖｅｒｙｌａｒｇｅｃｌｕｓｔｅｒｓａｎｄｄａｔａｓｅｔｓ．ＡｓｗｉｔｈｔｈｅｃｈｏｉｃｅｏｆＣａｔａｌｙｓｔｏｐｔｉｍａｌｅｘｅｃｕｔｉｏｎｐｌａｎ，ｔｈｅｃｏｎｆｉｇｕｒａｔｉｏｎｏｆＳｈｕｆｆｌｅＰａｒｔｉｔｉｏｎｈａｓａｌａｒｇｅｉｍｐａｃｔｏｎｐｅｒｆｏｒｍａｎｃｅ，ａｎｄｄａｔａｓｋｅｗｏｆｔｅｎｌｅａｄｓｔｏｐｏｏｒｃｌｕｓｔｅｒｐｅｒｆｏｒｍａｎｃｅ．Ｔｈｅｐｕｒｐｏｓｅｏｆｔｈｉｓｐａｐｅｒｉｓｔｏａｃｃｕｒａｔｅｌｙｐｒｅｄｉｃｔｅｘｅｃｕｔｉｏｎｔｉｍｅｂｅｆｏｒｅｔｈｅｊｏｂｉｓｅｘｅｃｕｔｅｄ，ｔｏｕｓｅｔｈｅｒｕｎｔｉｍｅｄａｔａｍｏｒｅｆｕｌｌｙ，ａｎｄｔｏｓｅｌｅｃｔｔｈｅｂｅｓｔｅｘｅｃｕｔｉｏｎｐｌａｎ．Ａｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌｆｏｒｐｒｅｄｉｃｔｉｎｇｊｏｂｅｘｅｃｕｔｉｏｎｔｉｍｅｂｙｄｅｃｉｓｉｏｎｔｒｅｅａｎｄｉｔｓｃｏｍｂｉｎａｔｉｏｎａｌｇｏｒｉｔｈｍｉｓｐｒｏｐｏｓｅｄ．Ｔｈｅｃｒｏｓｓｖａｌｉｄａｔｉｏｎｍｅｔｈｏｄｗａｓｕｓｅｄｔｏｏｐｔｉｍｉｚｅｔｈｅｍｏｄｅｌｐａｒａｍｅｔｅｒｓ．Ｔｈｅｐｒｕｎｉｎｇａｎｄｃｏｍｂｉｎａｔｉｏｎａｌｇｏｒｉｔｈｍｗａｓｕｓｅｄｔｏｏｐｔｉｍｉｚｅｔｈｅｏｖｅｒｆｉｔｔｉｎｇｐｒｏｂｌｅｍ，ａｎｄｔｈｅｒｅｌｅｖａｎｔｉｎｄｉｃａｔｏｒｓｗｅｒｅｓｅｌｅｃｔｅｄｔｏｅｖａｌｕａｔｅｔｈｅａｃｃｕｒａｃｙｏｆｔｈｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｏｄｅｌ．ＴｈｅｅｘｐｅｒｉｍｅｎｔｓｈｏｗｓｔｈａｔＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇｄｅｃｉｓｉｏｎｔｒｅｅｍｏｄｅｌｐｒｅｄｉｃｔｓ
ｔｈａｔｔｈｅＲ２
ｏｆｔｈｅｅｘｅｃｕｔｉｏｎｔｉｍｅｏｆｔｈｅｊｏｂｅｘｃｅｅｄｓ０．８，ａｎｄｉｔｃａｎｍｅｅｔｔｈｅｒｅａｌｔｉｍｅｒｅｑｕｉｒｅｍｅｎｔｓｏｆｏｎｌｉｎｅｐｒｅｄｉｃｔｉｏｎ．
Ｔｈｅｍｏｄｅｌｅｖａｌｕａｔｉｏｎｉｎｄｅｘａｃｈｉｅｖｅｓｔｈｅｅｘｐｅｃｔｅｄｅｆｆｅｃｔ，ａｎｄｈａｓｃｅｒｔａｉｎａｄｖａｎｔａｇｅｓｏｖｅｒｔｈｅｅｖａｌｕａｔｉｏｎｉｎｄｅｘｏｆｔｈｅｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌ．
ＫｅｙｗｏｒｄｓＴａｓｋｓｃｈｅｄｕｌｉｎｇ　Ｃａｌｃｕｌａｔｉｏｎｅｎｇｉｎｅ　Ｊｏｂｃｈａｒａｃｔｅｒｉｓｔｉｃｓ　Ｅｘｅｃｕｔｉｏｎｔｉｍｅ　Ｐｒｅｄｉｃｔｉｏｎｍｏｄｅｌ　Ｄｅｃｉｓｉｏｎｔｒｅｅ　
０　引　言
ＳｐａｒｋＳＱＬ借助核心引擎将集群规模扩展到数千个节点，
Ｃａｔａｌｙｓｔ提供了基于规则和代价的优化器，把数据仓库的计算能力推向新的高度。

但在超大规模数据集上存在易用性和可扩展性的问题，ＳＱＬ或Ｄａｔａｓｅｔ
程序在执行之前被解析成逻辑计划，然后生成可执行
的物理计划，不同的执行计划对性能有很大的影响。

若能够准确预测作业的执行时间，可以更加充分地运用作业运行时获取的数据，动态地选择一个最佳的物理执行计划。

例如基于作业运行时Ｓｈｕｆｆｌｅ信息，根据机器学习模型预测结果自动为每个作业设置合适的ＳｈｕｆｆｌｅＰａｒｔｉｔｉｏｎ值，调整可能发生数据倾斜的任
第４期吴恩慈：决策树模型预测ＳｐａｒｋＳＱＬ作业执行时间的方法２５
务并行度，动态地调整执行计划，能够有效提升集群性能。

１　相关工作
文献［１］研究了预测Ｈａｄｏｏｐ分布式存储系统中查询执行时间的方法，采用ＫＣＣＡ统计模型关联查询输出大小与执行时间，通过最近的类似查询的性能预测作业执行时间。

文献［２］提出了一种混合模型估计不同类型算子的性能，在关系型数据库中有良好的表现。

文献［３］使用样本数据模拟集群中不同节点的执行性能，存在Ｓｈｕｆｆｌｅ开销的ＩＯ密集型作业的预测精度较低。

文献［４］提出了一种多元线性回归方法，根据Ｓｐａｒｋ性能指标预测集群性能，模型指标Ｒ２小于平均值。

文献［５］研究了更改Ｓｐａｒｋ集群配置参数对性能的影响，在模型训练阶段捕获关键性能指标，允许用户询问配置参数对性能的影响。

文献［６］通过分析ＭａｐＲｅｄｕｃｅ任务执行过程中收集的数据，提出两阶段回归方法预测任务的完成时间。

文献［７］提出了一种Ｓｐａｒｋ应用程序的预测框架，使用非负最小二乘法匹配给定数据的最佳模型和参数。

本文通过决策树回归模型预测作业执行时间的方法不同于上述文献，本文基于Ｓｐａｒｋ分布式计算引擎，提取作业特征与选择指标时考虑了ＳＱＬ作业存在的宽依赖、各阶段间Ｓｈｕｆｆｌｅ开销，以及集群的弹性配置。

通过训练决策树及其组合算法生成的机器学习模型能够准确地预测作业的执行时间，主要完成了三方面的工作：（１）研究了作业调度策略与计算引擎，基于核心引擎构建机器学习应用模块，使复杂的模型训练与测试过程都变得易于实现。

（２）提供了模型的运行原理与特征数据的收集方法，通过Ｐｉｐｅｌｉｎｅ机制构建机器学习模型工作流。

（３）通过交叉验证方法进行超参数调优，采用剪枝和组合算法优化过度拟合问题，确保在训练集上训练出泛化能力较强的模型。

２　调度策略与计算引擎
２．１　作业调度策略与流程
机器学习模型的训练需要在多次迭代后获得足够小的误差才会停止［８］。

Ｓｐａｒｋ任务调度策略简化了机器学习模型训练和测试的过程，ＤＡＧＳｃｈｅｄｕｌｅｒ实现了相关组件在内存中无缝集成与任务协调，根据依赖对Ｐｉｐｅｌｉｎｅ进行优化实现对作业并行计算。

应用程序获取计算资源的策略包括两种，一种是把应用程序运行在尽可能多的Ｗｏｒｋｅｒ上，能够充分使用集群资源，有利于数据处理的本地性；另一种是应用程序运行在尽可能少的Ｗｏｒｋｅｒ上，适合ＣＰＵ密集型而内存使用较少的场景。

如果任务处于作业开始的调度阶段内，对应的ＲＤＤ分区首选运行位置的数据本地性为ＮｏｄｅＬｏｃａｌ；如果任务处于非作业开头的调度阶段，根据父调度阶段运行的位置得到首选位置，若Ｅｘｅｃｕｔｏｒ处于活动状态，数据本地性为ＰｒｏｃｅｓｓＬｏｃａｌ。

图１为作业调度流程图。

调度程序识别出ＲＤＤ之间依赖关系，应用程序编译为作业执行计划，划分阶段的主要依据是当前的计算因子输入是否确定。

ＴａｓｋＳｃｈｅｄｕｌｅｒ接收任务集合，创建任务集合管理器添加到调度池中，将任务的调度交给后端调度接口处理。

按照任务调度方法对调度池中的所有任务集合管理器进行排序，根据数据本地性原则分配资源，在每个分配的节点上运行任务。

任务计算的中间结果与最终结果将保存到存储系统。

ＪｏｂＬｉｓｔｅｎｅｒ对作业中每个任务执行成功或失败进行监听，通过监听事件向ＤＡＧＳｃｈｅｄｕｌｅｒ汇报任务执行情况，对于失败的任务存在重试与容错
机制。

图１　作业调度流程
２．２　计算引擎与内存管理
Ｓｐａｒｋ计算引擎在内存中完成多步骤的迭代计算，提升了机器学习应用的性能［９］。

计算引擎主要包括执行内存与Ｓｈｕｆｆｌｅ两部分，Ｓｈｕｆｆｌｅ性能优劣直接决定了计算引擎的性能和吞吐量。

执行内存包括在ＪＶＭ堆上分配的执行内存池和在操作系统内存中分配的Ｔｕｎｇｓｔｅｎ。

操作系统内存是整个架构的基础，无论执行内存如何分配，都离不开系统内存的支持。

操作系统通过确定数据所在的页缓存，并使用页缓存的偏移量和数据的长度读取数据，避免了ＪＶＭ加载额外类文件和对象，降低了ＧＣ扫描与回收的频率。

内存管理器负责申请和释放执行内存，执行内存的消费者组件包括３种，任务中间过程输出数据在ＪＶＭ堆上进行缓存和聚合等处理，操作系统内存中进行溢出和持久化处
２６
计算机应用与软件
２０２１年
理的Ｓｈｕｆｆｌｅ操作，以及键值对存储到连续的内存块的批处理。

图２为内存申请与分配原理图。

Ｔｕｎｇｓｔｅｎ是一种内存分配与释放的实现方式，直接操作系统内存实现类似于操作系统的页缓存的Ｍ
ｅｍｏｒｙＢｌｏｃｋ数据结构，准确地申请和释放堆外内存、计算序列化数据占用的
空间，降低了管理的难度和误差［１０］。

内存块中的数据
位于ＪＶＭ堆内存或者堆外内存，主要包括ｏｂｊ、ｏｆｆｓｅｔ和ｌｅｎｇｔｈ三个属性。

ｏｂｊ属性保存了对象在ＪＶＭ堆中的地址，
ｏｆｆｓｅｔ属性保存了页缓存的起始地址相对于对象在ＪＶＭ堆中地址的偏移量，ｌｅｎｇｔｈ属性保存了页缓存的大小。

Ｔ
ｕｎｇｓｔｅｎ处于堆内内存模式时，数据作为对象存储在Ｊ
ＶＭ堆中，从堆内找到对象使用ｏｆｆｓｅｔ定位数据的具体位置。

处于堆外内存模式时，通过ｏｆｆｓｅｔ属性从堆外内存中定位数据，从ｏｂｊ和ｏｆｆｓｅｔ定位的起始位置开始获取固定长度的连续内存块。

若申请的内存块大于等于１Ｍ
Ｂ，且ＭｅｍｏｒｙＢｕｆｆｅｒＰｏｏｌｓ中存在指定大小的内存块时，从内存缓存池中获取，否则单独创建
内存块用于分配。

图２　内存申请与分配原理
３　预测模型构建
３．１　预测模型的运行原理
图３为作业执行时间预测原理图。

预测模型的响应时间需要满足在线预测的实时性要求，能够并行化操作和处理更大规模的数据集与更加复杂的逻辑。

功能包括收集作业运行时特征与指标、构建模型训练与测试过程、预测作业的执行时间。

作业被编译生成ＤＡＧ时，在调度程序中注入计数器计算每个阶段所需特征。

运行ＳＱＬ作业实现模型离线训练，训练阶段的目标是从作业中提取特征向量Ｘ，以及相应的性能度量指标向量Ｙ。

如果一个阶段有Ｎ个Ｔａｓｋ并行执行
将为该阶段收集Ｎ组特征，
特征收集器的输出是特征向量Ｘ。

特征类别包括数据集规模、Ｓｈｕｆｆｌｅ和ＩＯ特征，以及集群配置等。

模型的输入包括特征向量和度量指标，输出是特征和指标之间关系的回归模型，通过
比较实际值和预测值评估模型预测的准确性。

图３　作业执行时间预测原理
通过解析作业执行计划提取特征向量，机器学习模型预测执行计划中每个阶段执行时间，根据每个阶段的执行时间估计作业的执行时间。

Ｄ
ＡＧ中阶段是根据ＲＤＤ依赖关系运行，某个阶段的执行时间是此阶段开始的最早任务的开始时间，与最后执行任务的完成时间之间的间隔，如式（１）所示。

ＦＴＳＴ表示在数据分区上某个阶段第一个任务的开始执行时间，ＬＴＥＴ表示在某个阶段最后一个任务的结束时间。

式（２）给出如何根据每个阶段的估计执行时间预测整个作业的执行时间，其中作业有Ｎ个阶段。

ＴＳｔａｇｅ（ｉ）＝ＦＴＳＦｉ－ＬＴＥＴｉ
（１）ＴＪｏｂ＝∑Ｎ
ｉ＝
１Ｔｓｔａｇｅ
（ｉ）（２）
３．２　特征与指标的收集方法
表１为Ｔａｓｋ特征向量Ｘ来源与取值示例。

机器学习任务中特征选择是重要的数据预理过程，剔除冗余和无关的特征，在高维数据分析中可以提升机器学习的性能。

特征选择方法主要分为监督和无监督两种。

卡方选择是统计学上常用的特征选择方法，通过特征和真实标签之间执行卡方检验确定关联度。

编号１～３表征了网络流量特征，编号４～１１表征了作业执行过程中的Ｓｈｕｆｆｌｅ和ＩＯ特征，编号１２～１５表征了数据规模特征。

作业特征与指标数据的提取主要借助ＬｉｓｔｅｎｅｒＢｕｓ机制和ＭｅｔｒｉｃｓＳｙｓｔｅｍ，采用异步线程将事件提交到对应的事件监听器。

作业数据集获取方法包括三种：运行时作业调度页面、通过ＲＥＳＴ接口获取度量信息、借助外部监控工具。

本文通过ＲＥＳＴ接口方式提取相关数据。

第４期吴恩慈：决策树模型预测ＳｐａｒｋＳＱＬ作业执行时间的方法２７
表１　特征向量来源与取值
编号Ｔａｓｋ特征向量Ｘ取值示例／ｍｓ１ＲｅｓｕｌｔＳｉｚｅ５１４４６
２ＭｅｍｏｒｙＢｙｔｅｓＳｐｉｌｌｅｄ２６０５７
３ＤｉｓｋＢｙｔｅｓＳｐｉｌｌｅｄ５０４６７
４ＳｈｕｆｆｌｅＲｅｍｏｔｅＢｌｏｃｋｓ８９８００
５ＳｈｕｆｆｌｅＬｏｃａｌＢｌｏｃｋｓ８８００３
６ＳｈｕｆｆｌｅＲｅｍｏｔｅＢｙｔｅｓＲｅａｄ６９６８９
７ＳｈｕｆｆｌｅＲｅｍｏｔｅＢｙｔｅｓ２５６５９
８ＳｈｕｆｆｌｅＬｏｃａｌＢｙｔｅｓＲｅａｄ３２３８８
９ＳｈｕｆｆｌｅＴｏｔａｌＲｅｃｏｒｄｓＲｅａｄ４４７８３
１０ＳｈｕｆｆｌｅＢｙｔｅｓＷｒｉｔｔｅｎ７２４１２
１１ＳｈｕｆｆｌｅＲｅｃｏｒｄｓＷｒｉｔｔｅｎ１９７４０
１２ＩｎｐｕｔＢｙｔｅｓＲｅａｄ９９２５１
１３ＩｎｐｕｔＲｅｃｏｒｄｓＲｅａｄ２２２１４
１４ＯｕｔｐｕｔＢｙｔｅｓＷｒｉｔｔｅｎ８４３４３
１５ＯｕｔｐｕｔＲｅｃｏｒｄｓＷｒｉｔｔｅｎ１９１８２
表２为Ｔａｓｋ度量指标Ｙ来源与取值示例。

选取的度量指标能够体现不同规模的数据集、不同类型算子的Ｓｈｕｆｆｌｅ和ＩＯ操作，以及网络流量方面的时间开销。

充分考虑了作业执行时间指标的动态性，每个作业执行计划的可用资源不同，作业并行运行时存在资源竞争，作业的ＧＣ时间和数据序列化与反序列化时间，以及网络传输存在一定的随机性与关联性，例如存在Ｓｈｕｆｆｌｅ过程算子的ＩＯ操作往往比较耗时。

表２　度量指标来源与取值
编号Ｔａｓｋ特征向量Ｙ示例／ｍｓ
１ＧｅｔｔｉｎｇＲｅｓｕｌｔＴｉｍｅ６２８１５
２ＥｘｅｃｕｔｏｒＤｅｓｅｒｉａｌｉｚｅＴｉｍｅ９７１８４
３ＥｘｅｃｕｔｏｒＤｅｓｅｒｉａｌｉｚｅＣＰＵ８４５１２
４ＥｘｅｃｕｔｏｒＲｕｎＴｉｍｅ８１１３１
５ＥｘｅｃｕｔｏｒＣＰＵＴｉｍｅ４５７１４
６ＪＶＭＧＣＴｉｍｅ５１６５０
７ＲｅｓｕｌｔＳｅｒｉａｌｉｚａｔｉｏｎＴｉｍｅ３８５６９
３．３　预测模型的评估指标
决策树可以使用复杂的非线性模型拟合数据，通过改变不纯度的度量方法用于回归分析。

类似线性回归模型使用对应的损失函数，决策树用于回归时使用不纯度度量方法［１３］。

方差是用于量度回归模型的节点处标签均匀性的量度。

如式（３）所示，均方根误差ＲＭＳＥ是均方误差ＭＳＥ的平方根，精确度会进一步放大，越接近零表示预测越准确，ｗＴｘ（ｉ）是预测值，ｙ（ｉ）是所有实际值。

如式（４）所示，平均绝对误差ＭＡＥ是预测值与实际值之差的绝对值的平均值，ＭＡＥ避免正负误差相互抵消，更好地反映预测值误差的实际情况。

如式（５）所示，拟合优度（Ｒ２）用来评估模型拟合数据的好坏程度，测量目标变量的变异度，表示可以根据自变量的变化来解释因变量的变体部分［１４］。

Ｒ２越接近１，表示自变量对因变量的解释程度越高。

ＲＭＳＥ＝∑ｎ
ｉ＝１
（ｗＴｘ（ｉ）－ｙ（ｉ））２
ｎ
（３）ＭＡＥ＝∑
ｎ
ｉ＝１
ｗＴｘ（ｉ）－ｙ（ｉ）
ｎ
（４）
Ｒ２＝１－
∑Ｎ
ｉ＝１
（ｙ
ｉ
－ｙ＾
ｉ
）
∑Ｎ
ｉ＝１
（ｙ
ｉ
－ｙ
ｉ
）
（５）４　过度拟合问题
４．１　过度拟合原因与对策分析
决策树易于解释和无须特征缩放，是分类和回归机器学习的有效方法［１１］。

决策树生成是一种贪婪算法，通过从一组可能的分割中选择最佳分割，贪婪地选择每个分区，以最大化树节点处的信息增益［１２］。

从根节点开始计算节点所有可能特征的信息增益，选择信息增益最大的特征，然后递归调用上述方法构造子节点直到所有特征的信息增益不再增加。

当决策树中节点下的所有记录属于同一个类，或者所有记录属性具有相同值时，生长过程终止。

递归算法生成的决策树通常具有过拟合问题，该问题可以从两个方面进行优化。

通过剪枝主动去掉一些分支来降低过拟合的风险，该方法的关键是如何确定最优参数，通过调整参数提前在节点处停止递归构造能够有效避免过度拟合，可调整的参数包括ＭａｘＤｅｐｔｈ与ＭｉｎＩｎｆｏＧａｉｎ等。

另一种方法是通过组合算法在一定程度上抵消过度拟合，ＳｐａｒｋＭＬ支持ＲａｎｄｏｍＦｏｒｅｓｔ和ＧｒａｄｉｅｎｔＢｏｏｓｔｅｄＴｒｅｅｓ两种决策树组合算法。

４．２　交叉验证法优化模型参数
通过最小化决策树的损失函数实现剪枝，在一定
２８
计算机应用与软件２０２１年
程度上能够避免过度拟合，当节点深度等于ＭａｘＤｅｐｔｈ参数时决策树停止生长。

ＭｉｎＩｎｆｏＧａｉｎ参数是拆分必须改善信息增益的最小值，没有分割候选项导致信息增益大于最小值时决策树停止生长。

机器学习能够通过数据集找到特定问题的最佳超参数，可以在独立的Ｅｓｔｉｍａｔｏｒ中完成，或者在包含多种算法和特征选择的工作流中完成。

通过重复进行模型训练和测试步骤，采用随机化抽样方法选定Ｋ个相似的互斥子集，每个子集尽可能地保持数据分布的一致性，分别训练和测试模型，通过取Ｋ个模型的均值避免过度拟合问题，该过程称为交叉验证，评估结果的稳定性和保真性在很大程度上依赖Ｋ的取值。

采用交叉验证方法评估模型参数时，计算由估计器拟合模型的不同数据对的平均评估指数，使用此参数重新拟合整个数据集的估算器，找到最佳配置参数，在整个训练集上训练具有较强泛化能力和相对较小误差的最佳模型。

当交叉验证方法的训练成本较高时，可使用ＴｒａｉｎＶａｌｉｄａｔｉｏｎＳｐｌｉｔ方法进行超参数调整，创建单个训练和测试数据集对。

使用训练比例参数将数据集拆分为两部分，常用７５％生成一组训练和测试数据集对，使用最佳参数配置和完整数据集拟合估计器。

交叉验证方法每个参数执行Ｋ次评估，ＴｒａｉｎＶａｌｉｄａｔｉｏｎＳｐｌｉｔ方法每个参数组合仅评估一次，训练数据集不够大时结果的可靠性较低。

４．３　组合算法优化过度拟合
随机森林采用Ｂａｇｇｉｎｇ思想，并行训练一组决策树集，模型训练过程是随机的，在每次迭代时对原始数据集进行二次采样，在每个树节点处分割不同的随机特征子集。

先对节点随机选择包含Ｋ个属性的子集再选择最优属性，参数控制了随机性的引入程度。

随机森林并不基于模型残差来构建集成模型，能够取得较低的方差，预测结果聚合了决策树集的预测。

将每棵树的预测计为一类投票，获得投票最多的类别作为分类预测结果，平均值用作预测回归结果，能够捕获非线性特征提高判别精度，在一定程度上避免过拟合。

梯度提升树算法是迭代训练决策树，比随机森林需要更长的训练时间。

每次迭代使用当前数据集来预测每个训练实例的标签，将预测结果与真实标签进行比较，然后重新标记数据集［１５］。

在下一次迭代训练中决策树将纠正先前的偏差，并可以进一步减少每次迭代训练数据的偏差，重新标记实例的机制由损失函数确定。

表３为ＳｐａｒｋＭＬ梯度提升树支持的损失函数
类型，Ｎ表示实例数，ｙ
ｉ
是实例的标签，ｘ
ｉ
是实例的特
征，Ｆ（ｘ
ｉ
）是模型预测标签。

梯度提升树根据观测值对预测结果进行调整，容易受到噪声点的影响，在训练时使用ＲｕｎＷｉｔｈＶａｌｉｄａｔｉｏｎ方法进行验证，当验证错误的改进不超过策略设置的容差时停止训练，能够有效地防止过度拟合。

表３　梯度提升树损失函数
损失函数类型任务公式
均方误差回归∑Ｎ
ｉ＝１
（ｙ
ｉ
－Ｆ（ｘ
ｉ
））２
绝对误差回归∑Ｎ
ｉ＝１
ｙ
ｉ
－Ｆ（ｘ
ｉ
）
５　实　验
５．１　ＳＱＬ作业实验过程
实验环境的集群配置１１个计算节点，每个节点配置１６内核、３２ＧＢ内存、５１２ＧＢＳＳＤ、万兆网卡。

每个节点上以独立模式运行Ｓｐａｒｋ２．０，数据存储在ＨＤＦＳ２．６。

决策树回归模型的超参数配置如表４所示，包括模型训练、度量方法和缓存策略等，超参数是通过交叉验证方法提取的最优参数。

调整ＭａｘＤｅｐｔｈ与ＭｉｎＩｎｆｏＧａｉｎ训练参数提前在节点处停止递归构造避免过度拟合。

表４　决策树回归模型超参数
图４为使用ＳｐａｒｋＢｅｎｃｈ模拟ＳｐａｒｋＳＱＬ作业生成测试数据集规模信息，数据集包含约１０００万个实例，每个实例有５０个属性。

测试设定的应用场景与实际业务场景类似，ＳＱＬ查询使用模拟生成的电子商务系统的订单数据，涵盖了ＣＰＵ、内存、Ｓｈｕｆｆｌｅ和ＩＯ密集型工作负载。

在此数据集上进行ＳｐａｒｋＳＱＬ工作负载测试，包括Ｊｏｉｎ与Ｇｒｏｕｐｂｙ算子的实验。

第４期
吴恩慈：决策树模型预测ＳｐａｒｋＳＱＬ作业执行时间的方法
２９
图４　ＳｐａｒｋＢｅｎｃｈ模拟数据集
图５为Ｊｏｉｎ算子作业数据集，数据集中用于模型训练的比率是０．７。

Ｊｏｉｎ算子作业共产生个２３６个Ｔａｓｋ，涉及到ＳｈｕｆｆｌｅＲｅａｄ（Ｗｒｉｔｅ）数据量约１８００ＭＢ。

计算过程中Ｉｎｐｕｔ（Ｏｕｔｐｕｔ）数据规模约１９００ＭＢ，作业累计持续时间５ｍｉｎ。

图５　Ｊｏｉｎ算子作业数据集
图６为Ｇｒｏｕｐｂｙ算子作业数据集，数据集中用于模型训练的比率是０．７。

Ｇｒｏｕｐｂｙ算子作业共产生２１８个Ｔａｓｋ，涉及到ＳｈｕｆｆｌｅＲｅａｄ（Ｗｒｉｔｅ）数据量约
１８００ＭＢ。

计算过程中Ｉｎｐｕｔ（Ｏｕｔｐｕｔ）数据规模约１６００ＭＢ，作业累计持续时间２７ｓ。

图６　Ｇｒｏｕｐｂｙ算子作业数据集
５．２　预测模型准确率分析
表５展示了决策树及其组合算法回归模型评估指标，其中Ｊｏｉｎ算子的３种决策树回归模型的预测精度
有明显的区别，梯度提升树回归模型的Ｒ２
超过０．８，
说明训练阶段选定的特征和模型有较好的匹配。

随机森林的指标存在一定的偏差，但优于决策树。

三种回归模型ＲＭＳＥ与ＭＡＥ指标偏差也呈现相同的规律。

Ｊｏｉｎ算子模型预测值与实际值对比如图７所示，其中：点号（·）表示真实值。

加号（＋）表示预测值，可以观察到梯度提升树回归模型的拟合程度优于随机森林模型与决策树模型。

表５　决策树回归模型评估指标
Ｊ
ｏｉｎ算子决策树及其组合算法回归模型评估指标模型决策树随机森林梯度提升树对比图图７（ａ）图７（ｂ）图７（ｃ）ＲＭＳＥ６５１２．６４８１５６５１１０．９３０９７５２２８４．４４５１３８ＭＡＥ
７３９．９６６４０３２４６２．１４９９４１６４４．５３９９６０６Ｒ
２
０．６４９３３２０１１
０．７８４０３６２１９
０．８５６８５３８２５
Ｇｒｏｕｐｂｙ算子决策树及其组合算法回归模型评估指标模型决策树随机森林梯度提升树对比图图８（ａ）图８（ｂ）图８（ｃ）ＲＭＳＥ８５６．４５４３７４１９０．１１６８２８３３１．８２６９６７５９ＭＡＥ
１５０．２８４２１５８４５．９５５２２１４４１５．１５７７７６６３Ｒ
２
０．５４６５１７９４１
０．８７７６５４３６２
０．８８１３６３９４７
（ａ）决策树
（ｂ）随机森林
３０
计算机应用与软件
２０２１
年
（ｃ）梯度提升树
图７　Ｊｏｉｎ算子模型预测值与实际值
由表５所示的Ｇｒｏｕｐｂｙ算子的三种决策树回归模型指标可见，随机森林和梯度提升树的Ｒ２
都超过０．８，决策树的拟合程度较低，
ＲＭＳＥ与ＭＡＥ指标偏差也呈现出相同的规律。

Ｇｒｏｕｐｂｙ算子模型预测值与实际值对比如图８所示，
梯度提升树和随机森林的拟合程度相近，所选择的特征很好地表征运算符，决策树有较大
的偏差。

（ａ
）决策树
（ｂ
）随机森林（ｃ）梯度提升树
图８
　Ｇｒｏｕｐｂｙ算子模型预测值与实际值三种其他回归模型评估指标如表６所示，线性回归使用弹性网正则化模型，广义线性回归模型采用高斯响应和身份链接功能训练模型。

Ｊ
ｏｉｎ算子三种回归模型的Ｒ２
都小于０．６，Ｇｒｏｕｐｂｙ算子三种回归模型的Ｒ２都小于０．３，其中广义线性回归模型的指标要优于
其他两种，但都低于决策树回归模型的指标。

Ｊｏｉｎ算子线性回归模型预测值与实际值如图９所示；Ｇｒｏｕｐｂｙ算子线性回归模型预测值与实际值如图１０所示。

可以看出，所选的特征数据与模型的匹配度较差。

表６　线性回归模型评估指标Ｊｏｉｎ算子Ｌｏｇｉｓｔｉｃ和线性回归模型评估指标
模型逻辑回归线性回归广义线性回归对比图图９（ａ）图９（ｂ）图９（ｃ）ＲＭＳＥ１１５４０．３１０８４８００１．７２９５２４７１７９．２２３７２２ＭＡＥ
４１９９．３８４９３７３５８６．６９０４７７３００３．４９８２００Ｒ
２
０．１０１０７２４７１
０．４７０６４３０４３
０．５７３８７６１２７
Ｇｒｏｕｐｂｙ算子Ｌｏｇｉｓｔｉｃ和线性回归模型评估指标模型逻辑回归线性回归广义线性回归对比图图１０（ａ）图１０（ｂ）图１０（ｃ）ＲＭＳＥ
１２９５．１６１２３３１０７８．６０３５０４１１０６６．３６１１８ＭＡＥ
２５０．０４９７７３２２５４．２６１４１６０２５４．５７９５６００Ｒ
２
０．０３７０４９１０６
０．２８０７５７５６８
０．２９６９９１９４３
（ａ）逻辑回归
第４期
吴恩慈：决策树模型预测ＳｐａｒｋＳＱＬ作业执行时间的方法
３１
（ｂ
）线性回归
（ｃ）广义线性回归
图９　Ｊｏｉｎ
算子线性回归模型预测值与实际值
（ａ
）逻辑回归
（ｂ
）线性回归
（ｃ）广义线性回归
图１０　Ｇｒｏｕｐｂｙ算子线性回归模型预测值与实际值
６　结　语
通过收集表征ＳｐａｒｋＳＱＬ作业特征的数据集和时间指标，训练决策树及其组合方法的回归模型，评估实验表明梯度提升树回归模型在预测Ｓ
ｐａｒｋＳＱＬ作业执行时间上有较好的表现，评估指标明显优于线性回归模型。

通过Ｊｏｉｎ算子与Ｇｒｏｕｐｂｙ算子的数据集测试，
梯度提升树回归模型的Ｒ
２
都超过０．８，指标ＲＭＳＥ与ＭＡＥ也达到预期效果，且满足在线预测的实时性要求，表明模型预测ＳｐａｒｋＳＱＬ作业的执行时间的方法具有准确性和实用性。

下一步将在此基础上，根据预测模型的输出结果，充分运用作业运行时数据，自适应地调整相关参数，选择最优的作业执行计划，提交给ＤＡＧＳｃｈｅｄｕｌｅｒ执行，提升集群性能。

参考文献
［１］ＴａｎｈａＪ，ＳｏｍｅｒｅｎＭＶ．Ｓｅｍｉｓｕｐｅｒｖｉｓｅｄｓｅｌｆｔｒａｉｎｉｎｇｆｏｒｄｅ
ｃｉｓｉｏｎｔｒｅｅｃｌａｓｓｉｆｉｅｒｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＣｙｂｅｒｎｅｔｉｃｓ
，２０１７，８（１）：３５５－３７０．［２］ＲíｏＳＤ，ＬóｐｅｚＶ．ＯｎｔｈｅｕｓｅｏｆＭａｐＲｅｄｕｃｅｆｏｒｉｍｂａｌａｎｃｅｄ
ｂｉｇｄａｔａｕｓｉｎｇＲａｎｄｏｍＦｏｒｅｓｔ［Ｊ］．ＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅｓ，２０１４，２８５（３）：１１２－１３７．
［３］ＴａｒａｎＶ，ＡｌｉｅｎｉｎＯ，ＳｔｉｒｅｎｋｏＳ，ｅｔａｌ．Ｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａ
ｔｉｏｎｏｆｄｉｓｔｒｉｂｕｔｅｄｃｏｍｐｕｔｉｎｇｅｎｖｉｒｏｎｍｅｎｔｓｗｉｔｈＨａｄｏｏｐａｎｄＳｐａｒｋｆｒａｍｅｗｏｒｋｓ［Ｃ］／／２０１７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＹｏｕｎｇＳｃｉｅｎｔｉｓｔｓＦｏｒｕｍｏｎＡｐｐｌｉｅｄＰｈｙｓｉｃｓａｎｄＥｎｇｉｎｅｅｒｉｎｇ（ＹＳＦ）．ＩＥＥＥ，２０１７：８０－８３．
［４］ＬｉｕＱ，ＣａｉＷＤ．Ｅｓｔｉｍａｔｉｏｎａｃｃｕｒａｃｙｏｎｅｘｅｃｕｔｉｏｎｔｉｍｅｏｆ
ｒｕｎｔｉｍｅｔａｓｋｓｉｎａｈｅｔｅｒｏｇｅｎｅｏｕｓｄｉｓｔｒｉｂｕｔｅｄｅｎｖｉｒｏｎｍｅｎｔ［Ｊ］．Ｓｅｎｓｏｒｓ，２０１６，１６（９）：１３８６－１４０１．
（下转第１２３页）
第４期陈珍珍，等：基于能量收集的环境反向散射通信联合优化算法设计１２３
ｗｏｒｋｓ［Ｊ］．ＩＥＩＣＥＴｒａｎｓａｃｔｉｏｎｓｏｎＦｕｎｄａｍｅｎｔａｌｓｏｆＥｌｅｃｔｒｏｎｉｃｓ，ＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅｓ，２０１７，１００（６）：
１３５３－１３５７．
［１１］ＫｅｌｌｏｇｇＢ，ＰａｒｋｓＡ，ＧｏｌｌａｋｏｔａＳ，ｅｔａｌ．ＷｉＦｉＢａｃｋｓｃａｔｔｅｒ：ＩｎｔｅｒｎｅｔｃｏｎｎｅｃｔｉｖｉｔｙｆｏｒＲＦｐｏｗｅｒｅｄｄｅｖｉｃｅｓ［Ｊ］．ＡＣＭＳＩＧＣＯＭＭＣｏｍｐｕｔｅｒＣｏｍｍｕｎｉｃａｔｉｏｎＲｅｖｉｅｗ，２０１４，４４（４）：６０７
－６１８．
［１２］ＤａｓｋａｌａｋｉｓＳＮ，ＫｉｍｉｏｎｉｓＪ，ＣｏｌｌａｄｏＡ，ｅｔａｌ．ＡｍｂｉｅｎｔｂａｃｋｓｃａｔｔｅｒｅｒｓｕｓｉｎｇＦＭｂｒｏａｄｃａｓｔｉｎｇｆｏｒｌｏｗｃｏｓｔａｎｄｌｏｗ
ｐｏｗｅｒｗｉｒｅｌｅｓｓａｐｐｌｉｃａｔｉｏｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＭｉｃｒｏｗａｖｅＴｈｅｏｒｙａｎｄＴｅｃｈｎｉｑｕｅｓ，２０１７，６５（１２）：５２５１－
５２６２．　
［１３］ＷａｎｇＧ，ＧａｏＦ，ＤｏｕＺ，ｅｔａｌ．ＵｐｌｉｎｋｄｅｔｅｃｔｉｏｎａｎｄＢＥＲａｎａｌｙｓｉｓｆｏｒａｍｂｉｅｎｔｂａｃｋｓｃａｔｔｅｒｃｏｍｍｕｎｉｃａｔｉｏｎｓｙｓｔｅｍｓ
［Ｃ］／／２０１５ＩＥＥＥＧｌｏｂａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓＣｏｎｆｅｒｅｎｃｅ（ＧＬＯＢＥＣＯＭ），２０１５．
［１４］ＬｕＫ，ＷａｎｇＧ，ＱｕＦ，ｅｔａｌ．ＳｉｇｎａｌｄｅｔｅｃｔｉｏｎａｎｄＢＥＲａｎａｌｙｓｉｓｆｏｒＲＦｐｏｗｅｒｅｄｄｅｖｉｃｅｓｕｔｉｌｉｚｉｎｇａｍｂｉｅｎｔｂａｃｋｓｃａｔｔｅｒ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ
＆ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＷＣＳＰ），２０１５．
［１５］ＹａｎｇＧ，ＬｉａｎｇＹＣ，ＺｈａｎｇＲ，ｅｔａｌ．Ｍｏｄｕｌａｔｉｏｎｉｎｔｈｅａｉｒ：ＢａｃｋｓｃａｔｔｅｒｃｏｍｍｕｎｉｃａｔｉｏｎｏｖｅｒａｍｂｉｅｎｔＯＦＤＭｃａｒｒｉｅｒ［Ｊ］．
ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１７，６６（３）：１２１９
－１２３３．
［１６］ＰéｒｅｚＰｅｎｉｃｈｅｔＣ，ＶａｒｓｈｎｅｙＡ，ＨｅｒｍａｎｓＦ，ｅｔａｌ．Ｄｏｍｕｌｔｉｐｌｅｂｉｔｓｐｅｒｓｙｍｂｏｌｉｎｃｒｅａｓｅｔｈｅｔｈｒｏｕｇｈｐｕｔｏｆａｍｂｉｅｎｔｂａｃｋｓｃａｔｔｅｒｃｏｍｍｕｎｉｃａｔｉｏｎｓ？［Ｃ］／／２０１６ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｍｂｅｄｄｅｄＷｉｒｅｌｅｓｓＳｙｓｔｅｍｓ＆Ｎｅｔｗｏｒｋｓ，２０１６：
３５５－３６０．
［１７］ＫｉｍＴＹ，ＫｉｍＤＩ．ＯｐｔｉｍｕｍＭＣＳｆｏｒｈｉｇｈｔｈｒｏｕｇｈｐｕｔｌｏｎｇｒａｎｇｅａｍｂｉｅｎｔｂａｃｋｓｃａｔｔｅｒｃｏｍｍｕｎｉｃａｔｉｏｎｎｅｔｗｏｒｋｓ［Ｃ］／／２０１７ＩＥＥＥ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ
ＡｄｖａｎｃｅｓｉｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＳＰＡＷＣ），２０１７．［１８］ＳｈａｈＳＴ，ＣｈｏｉＫＷ，ＬｅｅＴＪ，ｅｔａｌ．ＯｕｔａｇｅｐｒｏｂａｂｉｌｉｔｙａｎｄｔｈｒｏｕｇｈｐｕｔａｎａｌｙｓｉｓｏｆＳＷＩＰＴｅｎａｂｌｅｄｃｏｇｎｉｔｉｖｅｒｅｌａｙｎｅｔｗｏｒｋ
ｗｉｔｈａｍｂｉｅｎｔｂａｃｋｓｃａｔｔｅｒ［Ｊ］．ＩＥＥＥＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓＪｏｕｒｎａｌ，２０１８，５（４）：３１９８－３２０８．
［１９］ＹａｎｇＧ，ＹｕａｎＤ，ＬｉａｎｇＹＣ，ｅｔａｌ．ＯｐｔｉｍａｌｒｅｓｏｕｒｃｅａｌｌｏｃａｔｉｏｎｉｎｆｕｌｌｄｕｐｌｅｘａｍｂｉｅｎｔｂａｃｋｓｃａｔｔｅｒｃｏｍｍｕｎｉｃａｔｉｏｎｎｅｔｗｏｒｋｓｆｏｒｗｉｒｅｌｅｓｓｐｏｗｅｒｅｄＩｏＴ［Ｊ］．ＩＥＥＥＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ
Ｊｏｕｒｎａｌ，２０１９，６（２）：２６１２－２６２５．
［２０］ＬｉｕＸＬ，ＧａｏＹ，ＨｕＦ．ＯｐｔｉｍａｌｔｉｍｅｓｃｈｅｄｕｌｉｎｇｓｃｈｅｍｅｆｏｒｗｉｒｅｌｅｓｓｐｏｗｅｒｅｄａｍｂｉｅｎｔｂａｃｋｓｃａｔｔｅｒｃｏｍｍｕｎｉｃａｔｉｏｎｓｉｎＩｏＴ
ｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓＪｏｕｒｎａｌ，２０１９，６（２）：
２２６４－２２７２．
［２１］ＸｉａｏＳ，ＧｕｏＨ，ＬｉａｎｇＹＣ．Ｒｅｓｏｕｒｃｅａｌｌｏｃａｔｉｏｎｉｎｆｕｌｌｄｕ
ｐｌｅｘｅｎａｂｌｅｄｃｏｇｎｉｔｉｖｅｂａｃｋｓｃａｔｔｅｒｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥ
ＴｒａｎｓａｃｔｉｏｎｓｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１９，１８（６）：
３２２２－３２３５．
［２２］ＡｕｅｒＧ，ＢｌｕｍｅＯ，ＧｉａｎｎｉｎｉＶ，ｅｔａｌ．Ｄ２．３：Ｅｎｅｒｇｙｅｆｆｉｃｉｅｎｃｙａｎａｌｙｓｉｓｏｆｔｈｅｒｅｆｅｒｅｎｃｅｓｙｓｔｅｍｓ，ａｒｅａｓｏｆｉｍｐｒｏｖｅｍｅｎｔｓａｎｄｔａｒｇｅｔｂｒｅａｋｄｏｗｎ：ＩＮＦＳＯＩＣＴ２４７７３３［Ｒ］．
ＥＡＲＴＨ（ＥｎｅｒｇｙＡｗａｒｅＲａｄｉｏａｎｄＮｅｔｗｏｒｋＴｅｃｈｎｏｌｏｇｉｅｓ），
２０１０．　
［２３］ＶａｌｌｕｒｉＳＲ，ＪｅｆｆｒｅｙＤＪ，ＣｏｒｌｅｓｓＲＭ．ＳｏｍｅａｐｐｌｉｃａｔｉｏｎｓｏｆｔｈｅＬａｍｂｅｒｔＷｆｕｎｃｔｉｏｎｔｏｐｈｙｓｉｃｓ［Ｊ］．ＣａｎａｄｉａｎＪｏｕｒｎａｌｏｆＰｈｙｓｉｃｓ，２０００，７８（９）：
８２３－８３１．
（上接第３１页）
［５］ＭａｓｈａｙｅｋｈｙＬ，ＮｅｊａｄＭ．ＥｎｅｒｇｙＡｗａｒｅＳｃｈｅｄｕｌｉｎｇｏｆＭａｐＲｅｄｕｃｅＪｏｂｓｆｏｒＢｉｇＤａｔａＡｐｐｌｉｃａｔｉｏｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｒａｌｌｅｌａｎｄＤｉｓｔｒｉｂｕｔｅｄＳｙｓｔｅｍｓ，２０１５，２６（１０）：
１－１５．　
［６］ＡｈｍｅｄＬ，ＧｅｏｒｇｉｅｖＶ．ＥｆｆｉｃｉｅｎｔｉｔｅｒａｔｉｖｅｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇｗｉｔｈＡｐａｃｈｅＳｐａｒｋａｎｄｃｏｎｆｏｒｍａｌｐｒｅｄｉｃｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｅｍｉｎｆｏｒｍａｔｉｃｓ，２０１８，１０（１）：８－１６．
［７］ＴａｎｇＳ，ＬｅｅＢＳ．ＤｙｎａｍｉｃｊｏｂｏｒｄｅｒｉｎｇａｎｄｓｌｏｔｃｏｎｆｉｇｕｒａｔｉｏｎｓｆｏｒＭａｐＲｅｄｕｃｅｗｏｒｋｌｏａｄｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ
ＳｅｒｖｉｃｅｓＣｏｍｐｕｔｉｎｇ，２０１６，９（１）：４－１７．
［８］ＳａｍｐａｔｈＡＫ，ＧｏｍａｔｈｉＤＮ．Ｄｅｃｉｓｉｏｎｔｒｅｅａｎｄｄｅｅｐｌｅａｒｎｉｎｇｂａｓｅｄｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌｆｏｒｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．
ＪｏｕｒｎａｌｏｆＣｅｎｔｒａｌＳｏｕｔｈＵｎｉｖｅｒｓｉｔｙ，２０１７，２４（１２）：２８６２－２８７６．［９］ＡｌｇｈｕｓｓｅｉｎＩＩＭ，ＡｌｙＷＭ．Ａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎｕｓｉｎｇｈａｄｏｏｐａｎｄｍａｐｒｅｄｕｃｅｔｅｃｈｎｉｑｕｅｉｎｃｌｏｕｄｗｉｔｈｓｅｎｓｏｒｄａｔａ
［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１５，
１２５（１）：２２－２６．
［１０］ＬａｎｄｓｅｔＳ，ＫｈｏｓｈｇｏｆｔａａｒＴＭ．ＡｓｕｒｖｅｙｏｆｏｐｅｎｓｏｕｒｃｅｔｏｏｌｓｆｏｒｍａｃｈｉｎｅｌｅａｒｎｉｎｇｗｉｔｈｂｉｇｄａｔａｉｎｔｈｅＨａｄｏｏｐｅｃｏｓｙｓｔｅｍ
［Ｊ］．ＪｏｕｒｎａｌｏｆＢｉｇＤａｔａ，２０１５，２（１）：２４－６０．
［１１］ＭｕｓｔａｆａＳ，ＥｌｇｈａｎｄｏｕｒＩ．Ａｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｆｏｒｐｒｅｄｉｃｔｉｎｇｅｘｅｃｕｔｉｏｎｔｉｍｅｏｆｓｐａｒｋｊｏｂｓ［Ｊ］．ＡｌｅｘａｎｄｒｉａＥｎｇｉｎｅｅｒｉｎｇＪｏｕｒｎａｌ，２０１８，１１（５７）：３７６７－３７７８．
［１２］ＳａｌｌｏｕｍＳ，ＤａｕｔｏｖＲ．ＢｉｇｄａｔａａｎａｌｙｔｉｃｓｏｎＡｐａｃｈｅＳｐａｒｋ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＤａｔａＳｃｉｅｎｃｅａｎｄＡｎａｌｙｔｉｃｓ，
２０１６，１（４）：１４５－１６４．
［１３］吴恩慈．广播机制解决Ｓｈｕｆｆｌｅ过程数据倾斜的方法［Ｊ］．计算机系统应用，２０１９，２８（６）：１８９－１９７．
［１４］牛志华，屈景怡．基于Ｓｐａｒｋ的分层子空间权重树随机森林算法［Ｊ］．信号处理，２０１７，３３（１０）：１３０１－１３０７．
［１５］周亮，李格非．基于Ｓｐａｒｋ的时态查询扩展与时态索引优化研究［Ｊ］．计算机工程，２０１７，４３（７）：２２－２８，３７．。