基于深度强化学习的数据探索性会话自动生成
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于深度强化学习的数据探索性会话自动生成
作者:***
来源:《现代信息科技》2024年第04期
收稿日期:2023-07-08
DOI:10.19850/ki.2096-4706.2024.04.014
摘要:探索性数据分析(EDA)是一种数据分析方法,旨在通过对数据集进行可视化和摘要统计等方式揭示数据的结构、模式和关系。
数据分析人员可通过操作交互式地探索不熟悉的数据集,并为用户提供先导性见解。
深度强化学习(DRL)已被证明可以用来解决众多难以解决的人工智能挑战,可尝试将EDA与DRL进行结合,提出了一个名为AEDAS的系统。
该系统将EDA建模为一个控制决策问题,从而结合一个新颖的DRL架构来自动生成有说服力的探索性会话,并以EDA笔记本的形式呈现。
实验表明,该系统生成的EDA笔记本,可以使用户获得切实有效的先导性见解。
关键词:探索性数据分析;深度强化学习框架;控制性问题;探索性会话;EDA笔记本
中图分类号:TP181 文獻标识码:A 文章编号:2096-4706(2024)04-0066-09
Auto-generation of Data Exploratory Sessions Based on Deep Reinforcement Learning
WANG Yang
(Tobacco Company in Xinjiang Uyghur Autonomous Region, Urumqi 830026, China)
Abstract: Exploratory Data Analysis (EDA) is a data analysis method aimed at revealing the structure, patterns, and relationships in a dataset through visualization and summary statistics. Data analysts can interactively explore unfamiliar datasets through operations and provide users with preliminary insights. Deep Reinforcement Learning (DRL) has been proven to address many difficult Artificial Intelligence challenges. One can attempts to combine the EDA and DRL,proposing a system called AEDAS. The system models EDA as a control decision problem,combining a novel DRL architecture to automatically generate the persuasive exploratory sessions and present them in the form of EDA notebooks. Experiments show that the EDA notebooks generated by the system can provide users with tangible and effective preliminary insights.
Keywords: exploratory data analysis; Deep Reinforcement Learning architecture; control problem; exploratory sessions; EDA notebook
0 引言
探索性数据分析(EDA)[1-3]是数据科学中不可或缺的技术,它有助于数据分析人员更好地了解数据的性质和特点。
然而,EDA过程烦琐,为了提高效率,许多系统被设计出来促进这一过程。
这些系统包括简化的可视化界面,如Northstar[4]和Tableau[5],数据驱动工具[6],即展现数据立方体中感兴趣子部件的工具,以及数据可视化和推荐下一个探索步骤的系统[7]和相关数据集[8]。
这些能够大大提高EDA的效率和准确性,为数据分析人员提供更好的工作体验。
国内已经出现了一些成熟的系统,可以帮助数据分析人员开展EDA工作。
例如,阿里云大数据可视化分析平台MaxCompute可以提供丰富的可视化功能和数据挖掘技术,支持用户进行数据的探索性分析。
此外,国内的BI软件如FineBI、DataV等也提供了强大的数据可视化功能,支持数据分析人员进行EDA工作。
还有像DataCastle等数据科学竞赛平台也提供了丰富的数据集和EDA笔记本。
对于数据分析人员来说,查看EDA笔记本——即由其他数据分析人员经过策划组织的具有说明性的探索性会话[9,10],是更为常用的方法。
这些笔记本通常以笔记本界面呈现,允许用户记录和共享一系列编程操作及结果,帮助数据科学家快速开始EDA工作。
现有的EDA笔记本通常可在数据科学(DS)或代码共享平台(如Kaggle和GitHub)上使用,其中,已经在特定数据集(也托管在平台上)上执行 EDA 的用户将其汇总并整理成一个可以信赖的EDA笔记本,以与社区共享。
之后,当其他数据科学家开始研究相同数据集时,他们可先参考其随附的 EDA 笔记本并跟踪其中的探索步骤,了解其他用户如何处理该数据集并获得之前已有的见解,以便在以后自己进行EDA时有进一步的研究。
然而,现有的EDA笔记本并不总是可用,例如在数据集是新的、保密的或尚未在特定数据科学平台上审查过的情况下。
为了解决这一问题,本文提出了一种名为AEDAS的系统,用于自动生成EDA笔记本。
AEDAS接受关系数据集作为输入,并自动产生和执行一个有意义的、可靠的探索性会话,即一个EDA操作序列。
操作结果将在笔记本界面上呈现给用户,帮助用户了解数据集的关键点和重要特征。
因此,即使没有现有的EDA笔记本,AEDAS也能为用户提供初步的见解并协助进行更深入的探索。
为了使EDA笔记本具有价值,本文指出了两个关键因素。
首先,EDA笔记本应该全面涵盖数据集的各个方面,以便用户能够深入了解其各个属性。
其次,笔记本应该具有连贯性和易于理解性,即EDA操作需要按照合理的顺序进行,后续操作在逻辑上与之相关。
AEDAS的设计充分考虑了这些目标做出以下贡献:
1)基于马尔可夫决策过程(Markov Decision Process, MDP)模型建立了一个控制问题。
同时,设计了一个奖励信号,该信号旨在确保笔记本中的每个EDA操作可以揭示数据的新信息或潜在关系,从而激发用户的兴趣,同时整个操作序列应具备多样性、连贯性并与输入数据集的相关性。
因此,在生成EDA笔记本时,需要确定一系列合适的操作和决策,以在满足这些要求的同时,最大化奖励信号。
2)采用了深度强化学习(DRL)框架,专门针对庞大且离散的行动空间进行设计和处理,以实现对MDP涉及的大量状态和行动空间的优化
3)AEDAS生成的EDA笔记本具有较强的洞见性和易于理解性,为用户提供了关于数据集的实际初步认识。
1 相关工作
数据游览和投影追踪是指发现有分析价值的数据“视图”,并以连贯的序列呈现,以达到数据探索的目的。
在烟草行业中,EDA的应用可以帮助业务人员更好地分析烟草制品的性质和特点。
例如,烟草营销业务数据集包含各种类型的属性,包括品牌、规格、销量、业态等。
业务人员可以使用各种EDA工具来探索这些属性之间的关系,并发现分析价值的数据“视图”。
本文的EDA笔记本可以被看作是数据“游览”经验的延伸,但具體的实现在两个参数上有根本的不同:
1)本文假设数据集包含异构(不一定是数字)类型的属性,包括文本和分类数据。
2)本文更着重于常用的EDA操作,例如过滤、分组和聚合(具有可视化扩展,连接等)。
数据驱动生成分析价值的视图是指通过不同类型的操作从输入数据集中自动生成分析价值的视图。
在烟草行业中,这个概念可以被应用于探索烟草相关的数据集,以发现潜在的可利用信息,如烟草品牌、销售渠道等。
AEDAS在这个领域也有所突破。
AEDAS依赖于一个兴趣度的概念,并使用额外的手段来产生一个可以信赖的操作序列。
这些手段包括复合奖励信号和有效的、新颖的DRL学习方案,以进行对整个操作序列的优化。
在烟草行业中,这些手段可以帮助业务人员更好地理解烟草数据集[11-13],并探索其中的潜在关联和趋势,例如特定品牌的销售趋势、不同渠道的销售额等。
交互式EDA推荐系统是指在进行探索性数据分析的过程中,为用户推荐下一步的EDA建议。
这些建议可以通过数据驱动手段或者外部手段得到,例如EDA操作日志[14],以及来自用户的实时反馈[15]。
在烟草行业中,交互式EDA推荐系统可以帮助业务人员更快地了解烟草数据集,并找到潜在的可利用信息,例如特定品牌的销售趋势、不同渠道的销售额等。
综上所述,交互式EDA推荐系统和其他协助EDA的工作在烟草行业中具有重要意义。
它们为业务人员提供了更快速、更准确的EDA分析方法,并帮助他们更好地理解和探索烟草数据集。
同时,它们还为业务人员提供了更多的工具和资源,以便更好地进行EDA分析。
2 系统流程
简而言之,AEDAS的工作方式如下。
首先,用户向系统上传一个表格数据集,然后被提示选择其最感兴趣的一组关键属性,接下来,一个EDA控制问题的实例(即一个EDA环境和一个目标函数)将根据用户的数据集和重点属性被创建。
本文的EDA环境目前支持过滤、分组和聚合操作,也可以扩展到可视化和连接操作。
如图1所示,采用DRL学习方案,通过DRL代理的神经网络以进行权重的随机初始化。
接着,代理通过EDA环境与输入数据集进行自我交互,对数据集进行“训练”。
该环境(见图1)允许代理采用EDA操作接收观察结果得到一个总结其结果的向量,以及一个由目标函数(见第3.2节)得出的正/负奖励值。
DRL代理的目标是,通过与环境的重复互动,学习如何执行N个(预定义的)EDA操作序列,以获得最大的累积奖励。
3 EDA控制问题
接下来,本文解释如何使用MDP模型将EDA塑造成一个控制问题并描述奖励信号。
3.1 用于EDA的MDP模型
通常,在EDA中,用户检查一个数据集D=<Tup,Attr>,其中Tup是一组数据图元,Attr 是属性域(本文假设数据集包含不同类型的属性,如文本、数字或分类)。
在用户执行一系列的分析操作后(例如q1,q2,…,qn),每个操作都会产生一个结果显示,表示为di。
在检查了操作qi的结果显示后,由用户决定是否和操作qi1进行下一步操作。
本文用一个偶发的MDP来模拟EDA过程,它由一组可能的状态和一组可能的动作组成。
直观地说,在本文的案例中,行动集是所有可能的(和支持的)EDA操作的集合,而状态集对应于其结果显示。
在单一的情节中,代理通过执行预定数量的N个行动来探索一个特定的数据集D。
在每个步骤中,代理获得描述其在EDA会话中的当前状态的观察向量,被要求选择一个行动。
根据所选择的行动,代理被授予负面/正面的奖励,然后过渡到一个新的状态。
整个事件的效用被定义为累积奖励,由当前事件中的行动获得。
接下来,本文将解释AEDAS模型如何表示行动和状态观测并介绍奖励信号。
EDA行动空间。
本文的模型允许组成参数化的EDA操作,其中代理先选择操作类型,再选择适当的参数。
每个这样的操作都需要一些输入参数,并在时间t对当前显示的dt-1(即t-1时最后执行的操作的结果屏幕)进行操作。
然后它输出一个相应的新的结果显示dt。
由于AEDAS主要是一个概念验证,所以本文仅使用一组有限的分析操作,并在今后的工作中将加以扩展,其中包括以下EDA操作:
为了解决这一问题,本文提出了一种名为AEDAS的系统,用于自动生成EDA笔记本。
AEDAS接受关系数据集作为输入,并自动产生和执行一个有意义的、可靠的探索性会话,即一个EDA操作序列。
操作结果将在笔记本界面上呈现给用户,帮助用户了解数据集的关键点和重要特征。
因此,即使没有现有的EDA笔记本,AEDAS也能为用户提供初步的见解并协助进行更深入的探索。
为了使EDA笔记本具有价值,本文指出了两个关键因素。
首先,EDA笔记本应该全面涵盖数据集的各个方面,以便用户能够深入了解其各个属性。
其次,笔记本应该具有连贯性和易于理解性,即EDA操作需要按照合理的顺序进行,后续操作在逻辑上与之相关。
AEDAS的设计充分考虑了这些目标做出以下贡献:
1)基于马尔可夫决策过程(Markov Decision Process, MDP)模型建立了一个控制问题。
同时,设计了一个奖励信号,该信号旨在确保笔记本中的每个EDA操作可以揭示数据的新信息或潜在关系,从而激发用户的兴趣,同时整个操作序列应具备多样性、连贯性并与输入数据集的相关性。
因此,在生成EDA笔记本时,需要确定一系列合适的操作和决策,以在满足这些要求的同时,最大化奖励信号。
2)采用了深度强化学习(DRL)框架,专门针对庞大且离散的行动空间进行设计和处理,以实现对MDP涉及的大量状态和行动空间的优化
3)AEDAS生成的EDA笔记本具有较强的洞见性和易于理解性,为用户提供了关于数据集的实际初步认识。
1 相关工作
数据游览和投影追踪是指发现有分析价值的数据“视图”,并以连贯的序列呈现,以达到数据探索的目的。
在烟草行业中,EDA的应用可以帮助业务人员更好地分析烟草制品的性质和特点。
例如,烟草营销业务数据集包含各种类型的属性,包括品牌、规格、销量、业态等。
业务人员可以使用各种EDA工具来探索这些属性之间的关系,并发现分析价值的数据“视图”。
本文的EDA笔记本可以被看作是数据“游览”经验的延伸,但具体的实现在两个参数上有根本的不同:
1)本文假设数据集包含异构(不一定是数字)类型的属性,包括文本和分类数据。
2)本文更着重于常用的EDA操作,例如过滤、分组和聚合(具有可视化扩展,连接等)。
数据驱动生成分析价值的视图是指通过不同类型的操作从输入数据集中自动生成分析价值的视图。
在烟草行业中,这个概念可以被应用于探索烟草相关的数据集,以发现潜在的可利用信息,如烟草品牌、销售渠道等。
AEDAS在这个领域也有所突破。
AEDAS依赖于一个兴趣度的概念,并使用额外的手段来产生一个可以信赖的操作序列。
这些手段包括复合奖励信号和有效的、新颖的DRL学习方案,以进行对整个操作序列的优化。
在烟草行业中,这些手段可以帮助业务人员更好地理解烟草数据集[11-13],并探索其中的潜在关联和趋势,例如特定品牌的销售趋势、不同渠道的销售额等。
交互式EDA推荐系统是指在进行探索性数据分析的过程中,为用户推荐下一步的EDA建议。
这些建议可以通过数据驱动手段或者外部手段得到,例如EDA操作日志[14],以及来自用户的实时反馈[15]。
在烟草行业中,交互式EDA推荐系统可以帮助业务人员更快地了解烟草数据集,并找到潜在的可利用信息,例如特定品牌的销售趋势、不同渠道的销售额等。
综上所述,交互式EDA推荐系统和其他协助EDA的工作在烟草行业中具有重要意义。
它们为业务人员提供了更快速、更准确的EDA分析方法,并帮助他们更好地理解和探索烟草数据集。
同时,它们还为业务人员提供了更多的工具和资源,以便更好地进行EDA分析。
2 系统流程
简而言之,AEDAS的工作方式如下。
首先,用户向系统上传一个表格数据集,然后被提示选择其最感兴趣的一组关键属性,接下来,一个EDA控制问题的实例(即一个EDA环境和一个目标函数)将根据用户的数据集和重点属性被创建。
本文的EDA环境目前支持过滤、分组和聚合操作,也可以扩展到可视化和连接操作。
如图1所示,采用DRL学习方案,通过DRL代理的神经网络以进行权重的随机初始化。
接着,代理通过EDA环境与输入数据集进行自我交互,对数据集进行“训练”。
该环境(见图1)允许代理采用EDA操作接收观察结果得到一个总结其结果的向量,以及一个由目标函数(见第3.2节)得出的正/负奖励值。
DRL代理的目标是,通过与环境的重复互动,学习如何执行N个(预定义的)EDA操作序列,以获得最大的累积奖励。
3 EDA控制问题
接下来,本文解释如何使用MDP模型将EDA塑造成一个控制问题并描述奖励信号。
3.1 用于EDA的MDP模型
通常,在EDA中,用户检查一个数据集D=<Tup,Attr>,其中Tup是一组数据图元,Attr 是属性域(本文假设数据集包含不同类型的属性,如文本、数字或分类)。
在用户执行一系列的分析操作后(例如q1,q2,…,qn),每個操作都会产生一个结果显示,表示为di。
在检查了操作qi的结果显示后,由用户决定是否和操作qi1进行下一步操作。
本文用一个偶发的MDP来模拟EDA过程,它由一组可能的状态和一组可能的动作组成。
直观地说,在本文的案例中,行动集是所有可能的(和支持的)EDA操作的集合,而状态集对应于其结果显示。
在单一的情节中,代理通过执行预定数量的N个行动来探索一个特定的数据集D。
在每个步骤中,代理获得描述其在EDA会话中的当前状态的观察向量,被要求选择一个行动。
根据所选择的行动,代理被授予负面/正面的奖励,然后过渡到一个新的状态。
整个事件的效用被定义为累积奖励,由当前事件中的行动获得。
接下来,本文将解释AEDAS模型如何表示行动和状态观测并介绍奖励信号。
EDA行动空间。
本文的模型允许组成参数化的EDA操作,其中代理先选择操作类型,再选择适当的参数。
每个这样的操作都需要一些输入参数,并在时间t对当前显示的dt-1(即t-1时最后执行的操作的结果屏幕)进行操作。
然后它输出一个相应的新的结果显示dt。
由于AEDAS主要是一个概念验证,所以本文仅使用一组有限的分析操作,并在今后的工作中将加以扩展,其中包括以下EDA操作:
为了解决这一问题,本文提出了一种名为AEDAS的系统,用于自动生成EDA笔记本。
AEDAS接受关系数据集作为输入,并自动产生和执行一个有意义的、可靠的探索性会话,即一个EDA操作序列。
操作结果将在笔记本界面上呈现给用户,帮助用户了解数据集的关键点和重要特征。
因此,即使没有现有的EDA笔记本,AEDAS也能为用户提供初步的见解并协助进行更深入的探索。
为了使EDA笔记本具有价值,本文指出了两个关键因素。
首先,EDA笔记本应该全面涵盖数据集的各个方面,以便用户能够深入了解其各个属性。
其次,笔记本应该具有连贯性和易于理解性,即EDA操作需要按照合理的顺序进行,后续操作在逻辑上与之相关。
AEDAS的设计充分考虑了这些目标做出以下贡献:
1)基于马尔可夫决策过程(Markov Decision Process, MDP)模型建立了一个控制问题。
同时,设计了一个奖励信号,该信号旨在确保笔记本中的每个EDA操作可以揭示数据的新信息或潜在关系,从而激发用户的兴趣,同时整个操作序列应具备多样性、连贯性并与输入数据集的相关性。
因此,在生成EDA笔记本时,需要确定一系列合适的操作和决策,以在满足这些要求的同时,最大化奖励信号。
2)采用了深度强化学习(DRL)框架,专门针对庞大且离散的行动空间进行设计和处理,以实现对MDP涉及的大量状态和行动空间的优化
3)AEDAS生成的EDA笔记本具有较强的洞见性和易于理解性,为用户提供了关于数据集的实际初步认识。
1 相关工作
数据游览和投影追踪是指发现有分析价值的数据“视图”,并以连贯的序列呈现,以达到数据探索的目的。
在烟草行业中,EDA的应用可以帮助业务人员更好地分析烟草制品的性质和特点。
例如,烟草营销业务数据集包含各种类型的属性,包括品牌、规格、销量、业态等。
业务人员可以使用各种EDA工具来探索这些属性之间的关系,并发现分析价值的数据“视图”。
本文的EDA笔记本可以被看作是数据“游览”经验的延伸,但具体的实现在两个参数上有根本的不同:
1)本文假设数据集包含异构(不一定是数字)类型的属性,包括文本和分类数据。
2)本文更着重于常用的EDA操作,例如过滤、分组和聚合(具有可视化扩展,连接等)。
数据驱动生成分析价值的视图是指通过不同类型的操作从输入数据集中自动生成分析价值的视图。
在烟草行业中,这个概念可以被应用于探索烟草相关的数据集,以发现潜在的可利用信息,如烟草品牌、销售渠道等。
AEDAS在这个领域也有所突破。
AEDAS依赖于一个兴趣度的概念,并使用额外的手段来产生一个可以信赖的操作序列。
这些手段包括复合奖励信号和有效的、新颖的DRL学习方案,以进行对整个操作序列的优化。
在烟草行业中,这些手段可以帮助业务人员更好地理解烟草数据集[11-13],并探索其中的潜在关联和趋势,例如特定品牌的销售趋势、不同渠道的销售额等。
交互式EDA推荐系统是指在进行探索性数据分析的过程中,为用户推荐下一步的EDA建议。
这些建议可以通过数据驱动手段或者外部手段得到,例如EDA操作日志[14],以及来自用户的实时反馈[15]。
在烟草行业中,交互式EDA推荐系统可以帮助业务人员更快地了解烟草数据集,并找到潜在的可利用信息,例如特定品牌的销售趋势、不同渠道的销售额等。
综上所述,交互式EDA推荐系统和其他协助EDA的工作在烟草行业中具有重要意义。
它们为业务人员提供了更快速、更准确的EDA分析方法,并帮助他们更好地理解和探索烟草数据集。
同时,它们还为业务人员提供了更多的工具和资源,以便更好地进行EDA分析。
2 系統流程
简而言之,AEDAS的工作方式如下。
首先,用户向系统上传一个表格数据集,然后被提示选择其最感兴趣的一组关键属性,接下来,一个EDA控制问题的实例(即一个EDA环境和一个目标函数)将根据用户的数据集和重点属性被创建。
本文的EDA环境目前支持过滤、分组和聚合操作,也可以扩展到可视化和连接操作。
如图1所示,采用DRL学习方案,通过DRL代理的神经网络以进行权重的随机初始化。
接着,代理通过EDA环境与输入数据集进行自我交互,对数据集进行“训练”。
该环境(见图1)允许代理采用EDA操作接收观察结果得到一个总结其结果的向量,以及一个由目标函数(见第3.2节)得出的正/负奖励值。
DRL代理的目标是,通过与环境的重复互动,学习如何执行N个(预定义的)EDA操作序列,以获得最大的累积奖励。
3 EDA控制问题
接下来,本文解释如何使用MDP模型将EDA塑造成一个控制问题并描述奖励信号。
3.1 用于EDA的MDP模型
通常,在EDA中,用户检查一个数据集D=<Tup,Attr>,其中Tup是一组数据图元,Attr 是属性域(本文假设数据集包含不同类型的属性,如文本、数字或分类)。
在用户执行一系列的分析操作后(例如q1,q2,…,qn),每个操作都会产生一个结果显示,表示为di。
在检查了操作qi的结果显示后,由用户决定是否和操作qi1进行下一步操作。
本文用一个偶发的MDP来模拟EDA过程,它由一组可能的状态和一组可能的动作组成。
直观地说,在本文的案例中,行动集是所有可能的(和支持的)EDA操作的集合,而状态集对应于其结果显示。
在单一的情节中,代理通过执行预定数量的N个行动来探索一个特定的数据集D。
在每个步骤中,代理获得描述其在EDA会话中的当前状态的观察向量,被要求选择一个行动。
根据所选择的行动,代理被授予负面/正面的奖励,然后过渡到一个新的状态。
整个事件的效用被定义为累积奖励,由当前事件中的行动获得。
接下来,本文将解释AEDAS模型如何表示行动和状态观测并介绍奖励信号。
EDA行动空间。
本文的模型允许组成参数化的EDA操作,其中代理先选择操作类型,再选择适当的参数。
每个这样的操作都需要一些输入参数,并在时间t对当前显示的dt-1(即t-1时最后执行的操作的结果屏幕)进行操作。
然后它输出一个相应的新的结果显示dt。
由于AEDAS主要是一个概念验证,所以本文仅使用一组有限的分析操作,并在今后的工作中将加以扩展,其中包括以下EDA操作:
为了解决这一问题,本文提出了一种名为AEDAS的系统,用于自动生成EDA笔记本。
AEDAS接受关系数据集作为输入,并自动产生和执行一个有意义的、可靠的探索性会话,即一个EDA操作序列。
操作结果将在笔记本界面上呈现给用户,帮助用户了解数据集的关键点和重要特征。
因此,即使没有现有的EDA笔记本,AEDAS也能为用户提供初步的见解并协助进行更深入的探索。
为了使EDA笔记本具有价值,本文指出了两个关键因素。
首先,EDA笔记本应该全面涵蓋数据集的各个方面,以便用户能够深入了解其各个属性。
其次,笔记本应该具有连贯性和易于理解性,即EDA操作需要按照合理的顺序进行,后续操作在逻辑上与之相关。
AEDAS的设计充分考虑了这些目标做出以下贡献:
1)基于马尔可夫决策过程(Markov Decision Process, MDP)模型建立了一个控制问题。
同时,设计了一个奖励信号,该信号旨在确保笔记本中的每个EDA操作可以揭示数据的新信息或潜在关系,从而激发用户的兴趣,同时整个操作序列应具备多样性、连贯性并与输入数据集的相关性。
因此,在生成EDA笔记本时,需要确定一系列合适的操作和决策,以在满足这些要求的同时,最大化奖励信号。