用于创建预测模型的方法[发明专利]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010040634.5
(22)申请日 2020.01.15
(30)优先权数据
16/259706 2019.01.28 US
(71)申请人 国际商业机器公司
地址 美国纽约
(72)发明人 胜木孝行
(74)专利代理机构 北京市中咨律师事务所
11247
代理人 刘都 于静
(51)Int.Cl.
G16C 20/30(2019.01)
G16C 20/70(2019.01)
G16C 60/00(2019.01)
(54)发明名称
用于创建预测模型的方法
(57)摘要
提供了一种用于创建预测模型的方法,该预
测模型从作为描述化合物的特征向量的序列数
据中预测化合物的化学性质。
序列数据包括多个
数据序列。
该方法包括:生成用于预测目标变量y
并使用贝叶斯准则和变分近似来学习的概率预
测模型y*。
该方法包括将模型配置为(i)为从序
列数据中提取的特征向量中的每一个特征向量
分配多个预测函数中的一个预测函数,(ii)识别
第i个数据中的第t个向量与目标变量y之间的关
系,以及(iii)识别特征向量和目标变量y之间的
关系的相似性。
该方法包括使用模型来识别序列
长度,序列长度在多个数据序列之间是可变的。
该方法包括基于模型预测目标变量y,作为化合
物的化学性质。
权利要求书2页 说明书11页 附图9页CN 111489794 A 2020.08.04
C N 111489794
A
1.一种用于创建预测模型的计算机实现的方法,所述预测模型从作为描述化合物的一组特征向量的序列数据中预测所述化合物的化学性质,所述序列数据包括多个数据序列,所述方法包括:
由硬件处理器生成用于预测目标变量y并使用贝叶斯准则和变分近似来学习的概率预测模型y*;
由所述硬件处理器将所述概率预测模型y*配置为(i)为从所述序列数据中提取的所述特征向量中的每一个特征向量分配多个预测函数中的一个预测函数,(ii)识别第i个数据中的第t个向量与所述目标变量y之间的关系,以及(iii)识别所述特征向量和所述目标变量y之间的关系的相似性;
由所述硬件处理器使用所述概率预测模型y*来识别序列长度,所述序列长度在所述多个数据序列之间是可变的;以及
由所述硬件处理器基于所述概率预测模型y*来预测所述目标变量y,作为所述化合物的化学性质。
2.根据权利要求1所述的计算机实现的方法,其中,所述概率预测模型y*如下使用贝叶斯准则来学习:
其中,
X是训练数据中的输入序列集,
是所述训练数据中的目标变量集,
是所述训练数据中的输入序列集,以及
θ是要学习的参数集。
3.根据权利要求1所述的计算机实现的方法,其中,所述概率模型如下:
p(w)=贝叶斯稀疏学习中的自动相关性确定(ARD),以及
p(β,ξ,κ,λ)→将要学习的参数集限制为正值的独立伽玛分布,其中,
X是训练数据中的输入序列集,
y是所述训练数据中的目标变量,
是所述训练数据中的输入序列集,
t表示第t个特征向量,
η指示二进制变量,所述二进制变量表示将第d个函数分配给所述第i个数据中的所述
第t个特征向量,以及
w,β,μ,ξ,κ和λ是要学习的参数。
4.根据权利要求1所述的计算机实现的方法,其中,重复所述方法以相对于与用于预测所述目标变量y的预测函数不同的预测函数来预测另一个目标变量y′作为所述化合物的另一个性质。
5.根据权利要求1所述的计算机实现的方法,其中,所述概率模型是高斯模型。
6.根据权利要求1所述的计算机实现的方法,进一步包括:基于所述目标变量y的所述预测,形成新化合物,所述目标变量y作为所述新化合物的构成元素。
7.根据权利要求1所述的计算机实现的方法,进一步包括:用一个或多个神经网络替换所述概率模型的混合分量。
8.根据权利要求1所述的计算机实现的方法,进一步包括:通过对隐变量的估计来分配预测函数,所述隐变量显式地表示来自多个可用预测函数中的所述预测函数的分配。
9.根据权利要求8所述的计算机实现的方法,其中,所述预测步骤包括:计算所述多个可用预测函数中所分配的预测函数的输出的总和。
10.根据权利要求8所述的计算机实现的方法,其中,所述估计表示每个所述特征向量在每第i个数据中的作用。
11.根据权利要求1所述的计算机实现的方法,其中,所述隐变量以ηi,t,d的形式来提供,其中,ηi是二进制变量,表示将第d个函数分配给第i个数据中的第t个特征向量以使得∑d ηi,t,d=1。
12.根据权利要求1所述的计算机实现的方法,进一步包括:响应于所述目标变量的所述预测涉及不期望作为所述对象的一部分的元素,根据所述对象的污染来丢弃所述对象。
13.一种计算机程序产品,用于从描述对象的序列数据中预测所述对象的性质,所述计算机程序产品包括具有程序指令的非暂态计算机可读存储介质,所述程序指令能够由计算机执行以使所述计算机执行权利要求1-12中任一项的方法中的步骤。
14.一种计算机处理系统,用于从描述对象的序列数据中预测所述对象的性质,所述计算机处理系统包括:
用于存储程序代码的存储器;以及
硬件处理器,用于执行所述程序代码以执行权利要求1-12中任一项的方法中的步骤。
15.一种计算机处理系统,用于从描述对象的序列数据中预测所述对象的性质,所述计算机处理系统包括用于执行根据权利要求1至12中任一项所述的方法的步骤的装置。
用于创建预测模型的方法
技术领域
[0001]本发明一般涉及预测建模,并且更具体地涉及用于确定是否应将多个输入序列中的每个输入序列中的数据的特征向量添加到该序列中的其它数据的特征向量的预测模型。
背景技术
[0002]通过化合物材料的混合过程(简写为“反应工艺”或“工艺”)来预测化合物材料的化学性质(例如,但不限于玻璃化转变温度、粘度等)是各种化学以及其它工业的重要任务。
工艺(化学混合过程)是成分的量的序列。
构建模型以预测化合物材料的化学性质。
[0003]然而,存在的问题在于,必须通过使用输入与对应的输出的对来学习可以具有以下输入和输出关系的对应的预测模型,其中,输入包括序列数据(T个V维向量集),输出包括来自序列数据(即,标量,例如化学性质)的目标变量的预测模型,并进行了假设,诸如序列中的所有向量对于预测都很重要但其通常是冗长和含糊的。
进一步的假设可以包括:(1)第i个数据中的第t个向量与目标变量之间的关系和第I’个数据中的第t个向量与目标变量之间的关系可能不同;(2)第i个数据中的第t个向量与目标变量之间的关系和第I’个数据中的第t’个向量与目标变量之间的关系可能相同;(3)每个序列的长度不同;(4)第t个向量和第t+1个向量可能具有对目标函数的相似的关系;(5)获得来自预测模型的关于每个数据的第t个向量的作用的知识的要求;以及(6)在许多现实世界中的问题中,具有标签的训练数据的数量是有限的(例如,某一类别中现有材料的数量不是很大)。
例如,我们要基于成分的性质(例如基础成分或附加成分)对成分进行分类,以分配不同的预测函数,该预测函数对于每个第i个数据是不同的。
每个第i个数据的序列的长度是不同的。
对于领域专家而言处理它们可能是不重要的,但对于数据分析人员而言却并非如此,或者在一些情况下,我们只能获得特征向量或代码而没有诸如原始化学式的信息。
[0004]在序列数据分析中,需要针对每个数据样本适当地总结序列的冗余部分,但是还不存在考虑到这一点的已建立的用于从序列数据中提取特征向量的通用方法。
[0005]因此,需要一种预测模型,该预测模型可以确定是否应将多个输入数据序列中的每个输入数据序列中的数据的特征向量添加到多个输入数据序列中的其它输入数据序列中的特征向量。
发明内容
[0006]根据本发明的一个方面,提供了一种计算机实现的方法,用于创建预测模型,该预测模型从作为描述化合物的一组特征向量的序列数据中预测化合物的化学性质。
序列数据包括多个数据序列。
该方法包括由硬件处理器生成用于预测目标变量y并使用贝叶斯准则和变分近似来学习的概率预测模型y*。
该方法进一步包括由硬件处理器将概率预测模型y*配置为(i)为从序列数据中提取的特征向量中的每一个特征向量分配多个预测函数中的一个预测函数,(ii)识别第i个数据中的第t个向量与目标变量y之间的关系,以及(iii)识别特征向量和目标变量y之间的关系的相似性。
该方法还包括由硬件处理器使用概率预
测模型y*来识别序列长度,序列长度在多个数据序列之间是可变的。
该方法进一步包括由硬件处理器基于概率预测模型y*来预测目标变量y,作为化合物的化学性质。
[0007]根据本发明的另一方面,提供一种计算机程序产品,用于从描述对象的序列数据中预测对象的性质。
该计算机程序产品包括具有其所包含的程序指令的非暂态计算机可读存储介质。
程序指令能够由计算机执行以使计算机执行一种方法。
该方法包括由硬件处理器生成用于预测目标变量y并使用贝叶斯准则和变分近似来学习的概率预测模型y*。
该方法进一步包括由硬件处理器将概率预测模型y*配置为(i)为从序列数据中提取的特征向量中的每一个特征向量分配多个预测函数中的一个预测函数,(ii)识别第i个数据中的第t 个向量与目标变量y之间的关系,以及(iii)识别特征向量和目标变量y之间的关系的相似性。
该方法还包括由硬件处理器使用概率预测模型y*来识别序列长度,序列长度在多个数据序列之间是可变的。
该方法另外包括由硬件处理器基于概率预测模型y*来预测目标变量y,作为化合物的化学性质。
[0008]根据本发明的另一方面,提供一种计算机处理系统,用于从描述对象的序列数据中预测对象的性质。
该计算机处理系统包括用于存储程序代码的存储器。
该计算机处理系统进一步包括硬件处理器,其用于执行程序代码以生成用于预测目标变量y并且使用贝叶斯准则和变分近似来学习的概率预测模型y*。
硬件处理器进一步执行程序代码,以将概率预测模型y*配置为(i)为从序列数据中提取的特征向量中的每一个特征向量分配多个预测函数中的一个预测函数,以及(ii)识别第i个数据中的第t个向量与目标变量y之间的关系,以及(iii)识别特征向量和目标变量y之间的关系的相似性。
处理器还执行程序代码,以使用概率预测模型y*来识别序列长度,序列长度在多个数据序列之间是可变的。
处理器还执行程序代码,以基于概率预测模型y*来预测目标变量y,作为化合物的化学性质。
[0009]这些和其它特征和优点将从其说明性实施例的以下详细描述中变得显而易见,该详细描述将结合附图来阅读。
附图说明
[0010]以下描述将参考以下附图提供优选实施例的细节,在附图中:
[0011]图1是示出根据本发明的实施例的可以应用本发明的示例性处理系统的框图;[0012]图2是示出根据本发明实施例的用于生成预测模型的示例性方法的流程图;[0013]图3-5是示出根据本发明实施例的用于生成预测模型的另一示例性方法的流程图;
[0014]图6是示出根据本发明的实施例的可以应用本发明的示例性环境的框图;[0015]图7是示出根据本发明的实施例的可以应用本发明的另一示例性环境的框图;[0016]图8是示出根据本发明的实施例的具有一个或多个云计算节点的说明性云计算环境的框图,云消费者使用的本地计算设备与该一个或多个云计算节点进行通信;以及[0017]图9是示出根据本发明的实施例的由云计算环境提供的一组功能性抽象层的框图。
具体实施方式
[0018]本发明涉及用于确定是否应将多个输入序列中的每个输入序列中的数据的特征
向量添加到序列中其它数据的特征向量的预测模型。
[0019]在实施例中,本发明涉及将少量的共享预测函数中的一个共享预测函数分配到每第i个数据的第t个向量,并通过少量的共享预测函数的输出的总和来预测目标变量。
[0020]因此,与多实例回归(Multiple Instance Regression)相比,本发明可以通过向第i个数据中的每个向量分配不同的预测函数来使用第i个数据中的所有向量。
[0021]此外,与非线性预测模型相比,本发明可以接受不同的序列长度并降低所需参数的数量以及降低所需训练数据的数量。
[0022]此外,与时间序列模型相比,由于提出的模型可以共享预测函数,因此本发明可以降低所需参数的数量以及降低所需训练数据的数量。
[0023]根据分配的函数,本发明可以解释一组向量的作用。
[0024]图1是示出根据本发明的实施例的示例性处理系统100的框图,可以将本发明应用于示例性处理系统100。
处理系统100包括一组处理单元(例如,CPU)101、一组GPU 102、一组存储器设备103、一组通信设备104以及一组外围设备105。
CPU 101可以是单核或多核CPU。
GPU 102可以是单核或多核GPU。
一个或多个存储器设备103可以包括高速缓存、RAM、ROM和其它存储器(闪存、光、磁等)。
通信设备104可以包括无线和/或有线通信设备(例如,网络(例如,WIFI等)适配器等)。
外围设备105可以包括显示设备、用户输入设备、打印机、成像设备等。
处理系统100的元件通过一个或多个总线或网络(由附图标记110共同表示)连接。
[0025]当然,如本领域技术人员容易想到的,处理系统100还可以包括其它元件(未示出),以及省略某些元件。
例如,根据本领域普通技术人员容易理解的,取决于处理系统100的特定实施方式,可以将各种其它输入设备和/或输出设备包括在处理系统100中。
例如,可以使用各种类型的无线和/或有线输入和/或输出设备。
此外,如本领域普通技术人员容易理解的,还可以采用各种配置的附加处理器、控制器、存储器等。
此外,在另一实施例中,可以使用云配置(例如,参见图7-8)。
基于本文提供的本发明的教导,本领域的普通技术人员很容易想到处理系统100的这些和其它变型。
[0026]此外,可理解,以下关于与本发明有关的各种元件和步骤所描述的各种附图可以全部或部分地由系统100的一个或多个元件来实现。
[0027]现在将给出关于本发明的六个方面的描述,如关于与本发明的各种实施例有关的六种情况所描述的。
鉴于本文所提供的本发明的教导,本领域的普通技术人员很容易理解,这些情况可以以任何组合方式(包括一种、一些以及全部情况)来实现,同时保持本发明的精神。
此后,相对于图2描述一种方法,以便提供根据本发明的方法的概述。
相对于图3-4描述了另一种方法,以便提供相对于关于图2描述的方法的进一步详细的方法。
[0028]如上所述,本发明旨在生成一种预测模型,该预测模型可以确定是否应将多个输入数据序列中的每个输入数据序列中的数据的特征向量添加到其它输入数据序列中的其它数据的特征向量。
以这种方式,本发明可以用于根据化合物材料的混合过程来预测化合物材料的化学性质,以及根据与物品有关的数据序列来预测物品的其它性质。
[0029]为此,在实施例(情况1)中,学习预测模型,该预测模型为每个第i个数据中的每个特征向量分配少量(例如,小于T或N)预测函数中的一个预测函数,并使用(分配的)预测函数的输出的总和作为其预测。
例如,在实施例中,可以使用具有以下输入和输出关系的数据集:输入=序列数据(T个V维特征向量的集合;输出=目标变量(标量,例如,化学(或其它)
特性)。
[0030]在实施例(情况2)中,通过隐变量η的估计来分配预测函数,该隐变量η显式表示函数的分配。
ηi中的ηi,t,d是二进制变量,表示将第d个函数分配给第i个数据中的第t个向量以使得∑dηi,t,d=1。
该估计结果表示特征向量在每个第i个数据中的作用。
[0031]在实施例(情况3)中,对于目标变量y和X中的第t个向量x t,我们假定以下概率模型,并使用训练数据学习参数以进行情况1。
[0032]
[0033]
[0034]其中,
[0035]X是训练数据中的输入序列集,
[0036]y是训练数据中的目标变量,
[0037]w,β,μ,ξ是要学习的参数。
[0038]可以使用y的均值的非线性函数。
x t的概率模型的混合分量可以采用神经网络来代替。
[0039]在实施例(情况4)中,假设以下针对隐变量η的概率分布:
[0040]
[0041]其中,κ,λ是要学习的参数。
[0042]可以使用采用不同形式的分布的其它关系(例如,第t个向量与第i个数据中的所有其它向量相关)。
[0043]在实施例(情况5)中,可以使用以下用于预测目标变量y的概率预测模型y*,该模型使用贝叶斯准则来学习:
[0044]
[0045]其中,
[0046]是训练数据中的目标变量集,
[0047]是训练数据中的输入序列集,
[0048]θ是要学习的参数集,
[0049]p(w)=自动相关性确定(ARD)(贝叶斯稀疏学习),以及
[0050]p(β,ξ,κ,λ)→独立伽玛分布(将要学习的参数集限制为正值)。
[0051]在实施例(情况6)中,情况5中的等式采用变分近似来求解。
[0052]图2是示出根据本发明的实施例的用于生成预测模型的示例性方法200的流程图。
[0053]在框210处,使用具有概率预测模型y*的贝叶斯准则和变分近似来执行模型学习,并且将概率预测模型配置为(i)为从序列数据中提取的多个特征向量中的每一个特征向量分配多个(少量,例如低于阈值)预测函数中的一个预测函数,以及(ii)识别第i个数据
中的第t个特征向量与目标变量y之间的关系,以及(iii)识别特征向量与目标变量y之间的关系的相似性。
[0054]在框220处,使用概率预测模型y*来识别序列长度,该序列长度在多个数据序列之间是可变的。
[0055]在框230处,基于概率预测模型y*来预测目标变量y,作为化合物的化学性质。
[0056]在框240处,响应于该预测而执行动作。
下面针对图5和图6描述示例性动作。
[0057]图3-5是示出根据本发明的实施例的用于生成预测模型的另一示例性方法300的流程图。
生成预测模型以能够预测(确定)是否应将多个输入数据序列中的每个输入数据序列中的数据的特征向量添加到其它输入数据序列中的其它数据的特征向量。
[0058]在框310处(情况1),学习预测模型,该预测模型为每个第i个数据中的每个特征向量分配少量预测函数中的一个预测函数,以及使用(被分配的)预测函数的输出的总和作为其预测。
[0059]在实施例中,框310可以包括框310A-310X中的一个或多个框。
[0060]在框310A处(情况2),通过隐变量η的估计来分配预测函数,该隐变量η显式表示函数的分配。
例如,ηi中的ηi,t,d是二进制变量,表示将第d个函数分配给第i个数据中的第t个向量以使得∑dηi,t,d=1。
该估计结果表示特征向量在每第i个数据中的作用。
[0061]在框310B处(情况3),对于目标变量y和X中的第t个向量x t,假设高斯概率模型,并使用训练数据来学习参数以进行情况1。
在实施例中,可以假设以下高斯概率模型并且可以学习以下参数:
[0062]
[0063]
[0064]其中,
[0065]X是训练数据中的输入序列集,
[0066]y是训练数据中的目标变量,
[0067]w,β,μ和ξ是要学习的参数,使得w表示特征的权重向量,β表示高斯分布的精度参数,并且μ表示高斯混合中用于x的先验分布的先验平均参数。
[0068]在实施例中,框310B包括框310B1和310B2中的一个或多个框。
[0069]在框310B1处(情况3),使用针对y的平均值的非线性函数。
[0070]在框310B2处(情况3),采用一个或多个神经网络来替换x t的概率模型的混合分量。
[0071]在框310C处(情况4),假设隐变量η的概率分布。
在实施例中,可以假设以下概率分布:
[0072]
[0073]其中,κ和λ是要学习的参数,使得k表示在第t个向量和第t-1个向量中同一预测函
数的同时出现的强度,而λ表示选择第t个向量的第d个分量
的强度。
[0074]在实施例中,框310C可以包括框310C1。
[0075]在框310C1中,使用采用不同形式的分布的其它关系(例如,第t个向量与第i个数据中的所有其它向量相关)。
[0076]在框310D处(情况5),使用贝叶斯准则进行学习。
在实施例中,可以使用以下用于学习的贝叶斯准则:
[0077]
[0078]其中,
[0079]是训练数据中的目标变量集,
[0080]是训练数据中的输入序列集,
[0081]θ是要学习的参数集,
[0082]p(w)=ARD(贝叶斯稀疏学习),以及
[0083]p(β,ξ,κ,λ)→独立伽玛分布(将参数限制为正值)。
[0084]在实施例中,框310D可以包括框310D1。
[0085]在框310D1处(情况6),采用变分近似来求解情况5(框310D)中的等式。
[0086]在框310E处,响应于该预测执行动作。
[0087]现在将根据本发明的各种实施例给出关于两个示例性环境600和700的描述,可以将本发明应用于该示例性环境600和700。
下面针对图6和图7描述环境600和700。
更详细地,环境600包括可操作地耦合至受控系统的预测系统,而环境700包括作为受控系统的一部分的预测系统。
此外,环境600和700中的任何一者可以是基于云的环境的一部分(例如,参见图8和9)。
在保持本发明的精神的前提下,鉴于本文提供的本发明的教导,本领域的普通技术人员可以容易地确定可以应用本发明的这些和其它环境。
[0088]图6是示出根据本发明的实施例的示例性环境600的框图,可以将本发明应用于示例性环境600。
[0089]环境600包括预测系统610和受控系统620。
预测系统610和受控系统620被配置为启用它们之间的通信。
例如,可以使用收发机和/或其它类型的通信设备,包括无线、有线及其组合。
在实施例中,预测系统610和受控系统620之间的通信可以在一个或多个网络上执行,该网络共同地由附图标记630表示。
通信可以包括但不限于来自受控系统620的序列数据,以及来自预测系统610的预测和动作启动控制信号。
受控系统620可以是任何类型的基于处理器的系统,例如诸如但不限于银行系统、访问系统、监视系统、制造系统(例如,装配线)、高级驾驶员辅助系统(ADAS)等。
[0090]受控系统620将数据(例如序列数据)提供给预测系统610,预测系统610使用该数据进行预测。
[0091]可以基于由预测系统610生成的预测来控制受控系统620。
例如,受控系统可以是使用混合过程(反应工艺)制造给定物品(食物、香料、用于治疗疾病/病症的药物等)的制造系统)。
基于对化合物被污染(包括其不应该包括的成分/元素)或化合物不包括构成元素的。