Patterns计算机辅助的小分子多目标优化

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Patterns计算机辅助的小分子多目标优化
今天给大家介绍的是MIT的Connor W. Coley团队在Cell的《Patterns》期刊上发表的综述《Computer-aided multi-objective optimization in small molecule discovery》。

数据驱动的分子设计方法有望加速新型药物、电子材料和其他小分子的发现。

近年来，随着单目标任务的计算机辅助分子优化性能的显著提高，新兴的研究越来越强调多目标设计。

作者详细介绍了帕累托优化算法在分子性质多目标优化中的应用，另外作者指出将帕累托优化算法应用到新分子的设计中所带来的需要解决的问题。

Multi-objective molecular optimization（MMO）问题定义：
1.考虑多个目标，这些目标不聚合为单个标量目标。

目标之间存在一些权衡(即不同目标之间不是完全正相关的)。

2.优化的领域(“设计空间”)是一个化学空间。

这个空间中的分子可以被隐式定义(可以被生成模型解码器解码的潜在变量)或显式定义(分子库)。

3.优化任务的目标是识别最大化或最小化某些分子特性的分子。

那些旨在识别具有特定范围内性质的分子的任务是有约束的生成，不是多目标优化。

Pareto front
在MMO问题中，两种或两种以上理想的分子性质相互竞争。

对于帕累托最优解，一个目标的改善会对至少一个其他目标不利。

例如，在设计一种选择性药物时，既希望对靶点有强亲和力，又希望对脱靶有弱亲和力。

然而，当与on- target和off-target的结合亲和力高度相关时(即，它们与相似的分子强烈结合)，对目标的效力的增加往往需要选择性的降低。

帕累托前沿量化了(在有两个或三个目标的情况下，是可视化的)这些类型的权衡。

贝叶斯优化
贝叶斯优化(BO)是一种用于黑盒优化的策略，其中要优化的标量函数(有时被称为oracle)可能不可微或难以测量(代价高昂)。

BO是一
种迭代优化过程，首先定义一些先验模型，将设计空间映射到目标空间。

该模型被称为代理模型，在分子设置中，相当于QSPR模型。

代理模型用于预测设计空间中假设候选对象的客观值，获取函数使用(以及代理模型的不确定性)来优先考虑接下来要采样的候选对象。

然后，对新采样或获得的分子进行评估或评分，并将这些新数据用于改进代理模型。

这个过程不断重复，直到满足某个停止准则:所获得分子的客观值收敛，资源消耗，或达到某个客观值阈值。

定义分子优化任务
一项分子优化任务总是从一些预期性质开始。

首先，必须将单个属性转换为数学目标。

然后，无论是de novo或基于库，提出选择候选分子的方法。

如果存在一个以上的目标，它们必须要么聚合成一个单一的目标，要么用适当的多目标表述来处理。

最后，在从头设计的情况下，必须选择采集函数或选择标准。

使用生成模型的MMO
基于库的MMO的主要缺点是对化学空间的明确限制。

De novo 放松了这种限制，原则上可以探索更广阔的化学空间。

与此同时，De novo引入了与化学有效性和可合成性相关的额外挑战。

在许多生成模型中，分子被提出为SMILES/ selfie字符串、图或合成路径。

一些分子通过解码连续表示到离散分子结构中来生成新的分子，而另一些分子则修改那些已经被离散动作识别出来的分子。

大量的多目标从头设计方法明显缺乏标准化。

与基于库的发现不同，生成模型对MMO的适配并不是那么简单。

讨论
帕累托优化方法的性能通常使用单个属性值或约束进行评估。

然而，这些指标并不能揭示所发现分子的属性组合，而这正是MMO最感兴趣的部分。

超体积的改善可以表明帕累托前沿的偏移，但与帕累托前沿相关的分子的其他质量也同样重要，包括帕累托前沿的密度或分子的平均帕累托排名。

分子发现中，不完善的性质预测模型经常被用作预测。

在这些情况下，根据QSPR预测发现一个密集的Pareto前沿和许多接近最优的
分子是有益的，即使不是所有分子都增加了超体积。

当然，一些被预测表现良好的分子将无法通过实验验证，而拥有更密集的样本群体将增加找到真正命中的概率。

出于同样的原因，促进结构多样性而不仅仅是帕累托多样性是一种对冲风险的方法避免帕累托最优分子都不成立的情况。

对许多分子发现任务来说，帕累托优化是比标度化或约束优化更实用的方法，但帕累托优化扩展到几个维度的能力也必须得到解决。

随着高维空间中非支配点的增多，NDS越来越难以区分目标较多解的最优性。

超体积的数值估计的计算成本随着目标数量的增长呈指数级增长，使得EHI和PHI获取函数在高维中也越来越难以使用。

与微调许多代理模型和为每个目标对候选模型进行评分相关的计算成本增加也会导致可扩展性问题。

考虑到多个(三个以上)目标的帕累托优化问题面临的挑战，将某些目标扩展或将某些目标转换为约束以使问题可求解可能是最实用的方法，特别是在已知某些目标比其他目标更重要的情况下。

只有当一个问题不能被有效地缩减时，帕累托优化是否可以鲁棒地扩展到多个目标的问题才值得研究。

帕累托前沿的可视化是一个额外的考虑因素;在包含两个或三个目标的Pareto前沿中，目标的权衡更容易传达。

最终，MMO问题的最佳表述将取决于用例，与主题专家的合作可以确保问题表述是可行的，但不会施加不切实际的假设。

强加不切实际的假设
除了多目标优化带来的这些独特挑战之外，来自单目标优化的许多挑战仍然是相关的。

第一个是需要实际的oracle函数，这些函数可以在计算上进行评估，但能够有意义地描述实验性能;这与需要更有挑战性的基准来模拟实际应用程序密切相关。

优化QED、ClogP或分类器的布尔输出是很容易的任务，但并不是鲁棒性或通用性的好指标。

特别是，生成模型还必须证明在较少的oracle调用下是有效的，这通常是必须用实验或高保真模拟对分子进行评分的瓶颈。

主动学习和优化实验设计技术将继续启发提高分子优化样品效率的方法。

对于实验应用，生成分子的可合成性是必须考虑的另一个因素，可以作为连续目标或刚性约束。

实验前瞻性验证对于证明分子发现算法的可行性至
关重要，尽管纯计算研究可以更快地取得算法进展。

参考资料
Fromer, J. C. and Coley, C. W., “Computer-Aided Multi-Objective Optimization in Small Molecule Discovery”, arXiv e-prints, 2022.
/10.1016/j.patter.2023.100678。