【CN110276369A】基于机器学习的特征选择方法、装置、设备及存储介质【专利】

合集下载

机器学习中的特征选择方法

机器学习中的特征选择方法

机器学习中的特征选择方法特征选择是机器学习中的一个重要问题,其目的是从原始数据中选择出最有用的特征,以达到降低数据维度、提高模型精度和降低模型复杂度的目的。

在实际应用中,特征选择是非常重要的,它可以帮助我们避免过拟合、提高模型的可解释性和减少计算量。

因此,在本文中,我们将会介绍几种主要的特征选择方法,并探讨它们的优劣和适用场景。

一、过滤式特征选择方法过滤式特征选择方法是在训练模型之前,对原始数据进行特征选择。

它的主要思想是通过一些评价准则,根据特征与目标数据之间的相关性,选出最具有代表性的特征。

常用的评价准则有卡方检验、互信息和相关系数等。

1. 卡方检验卡方检验是最早和最广泛使用的特征选择方法之一。

它的基本思想是,以特征和目标变量之间的独立性为假设,通过计算特征和目标变量之间的卡方值来衡量它们之间的关联程度。

当卡方值越大,意味着特征和目标变量之间的关联程度越高,特征则越重要。

2. 互信息互信息是一个用于衡量两个概率分布之间相似性的指标。

它的基本思想是,通过计算特征和目标变量之间的互信息来衡量它们之间的联系,当它们的互信息越大,则意味着它们之间的联系更紧密,特征则更重要。

3. 相关系数相关系数是用来度量两个随机变量之间相关关系的一个指标。

常用的相关系数有 Pearson 相关系数、Spearman 相关系数和Kendall 相关系数等。

其中,Pearson 相关系数适合用于度量线性关系,而 Spearman 相关系数和 Kendall 相关系数适合用于度量非线性关系。

过滤式特征选择方法的优势在于,它可以快速、简单地选择出高质量的特征,对于维度较高的数据集,特别是离散型特征,选择过滤式特征选择方法是一个不错的选择。

然而,过滤式特征选择方法存在的一个问题是,它无法考虑特征与模型的交互作用,因此可能导致一些相关性较低但重要的特征被误删。

二、包裹式特征选择方法包裹式特征选择方法是在训练模型过程中,将特征看作是一个搜索空间,在不断尝试不同的特征子集的过程中,选出最佳特征子集。

确定图像的特征数据的方法、装置、电子设备及存储介质[发明专利]

确定图像的特征数据的方法、装置、电子设备及存储介质[发明专利]

专利名称:确定图像的特征数据的方法、装置、电子设备及存储介质
专利类型:发明专利
发明人:杨帆
申请号:CN201910146729.2
申请日:20190227
公开号:CN109886226A
公开日:
20190614
专利内容由知识产权出版社提供
摘要:本公开是关于一种确定图像的特征数据的方法、装置、电子设备及存储介质,属于机器学习技术领域。

所述方法包括获取目标图像;将所述目标图像,输入预先训练的特征图像提取模型,得到所述目标图像对应的特征图像;将所述特征图像,分别输入预先训练的多个分别执行多任务的多项式回归器,得到所述目标图像的多个特征数据,其中,所述多任务为非线性回归任务,所述多项式回归器通过解除所述多任务的耦合来执行所述多任务,所述多项式回归器的阶数均大于1。

采用本公开在进行多任务回归时,得到的单个任务的特征数据更加准确。

申请人:北京达佳互联信息技术有限公司
地址:100085 北京市海淀区上地西路6号1幢1层101D1-7
国籍:CN
代理机构:北京三高永信知识产权代理有限责任公司
代理人:祝亚男
更多信息请下载全文后查看。

机器学习中的特征选择方法

机器学习中的特征选择方法

机器学习中的特征选择方法在机器学习中,特征选择是一个非常重要的问题。

它通常用于从数据集中选择尽可能少但仍能够准确预测结果的最重要的特征。

在这篇文章中,我们将介绍机器学习中的特征选择方法。

1. 什么是特征选择?特征选择是机器学习中的一个关键问题,它常常被用来提取数据集中最有用的特征。

在特征选择中,我们尝试使用小量但仍能够准确预测结果的最重要特征。

通过特征选择,我们可以消除不必要的特征,减少数据维度,提高学习性能和预测的准确性。

2. 特征选择的意义在机器学习中,我们经常需要处理高维数据集。

通过特征选择,我们可以减少数据维度,消除冗余特征,并保留最重要的特征。

这样可以大大简化问题,并提高算法的效率。

同时,特征选择可以避免过拟合问题,避免模型在训练数据上表现很好,但在测试数据上表现糟糕的情况。

通过减少特征的数量,我们可以使模型更加健壮,并提高预测的准确性。

3. 特征选择的方法在机器学习中,有多种特征选择方法。

以下是其中的几种:(1)方差方差方法可以用来选择数据集中具有高方差的特征。

具有高方差的特征通常在不同类别之间有很大的差异。

与低方差的特征相比,它们更能够准确预测结果,因此更有价值。

(2)卡方检验卡方检验是一种常见的特征选择方法,用于确定特征与结果之间的关系。

在卡方检验中,我们检查每个特征与结果之间的独立性。

如果特征具有很大的卡方值,则可能表明特征与结果之间存在强烈的关系。

(3)递归特征消除递归特征消除(RFE)是一种通过重复递归地建立模型,并删除最不重要的特征的方法。

RFE通过反复的建立模型和现有特征的剔除来确定哪些特征是最重要的。

(4)正则化方法正则化方法是一种通过添加额外约束减少模型复杂性的方法。

它可以通过对特征的系数引入额外的惩罚项来实现。

这些惩罚项能够鼓励模型选择更少的特征,并防止过拟合。

4. 特征选择的利弊特征选择对机器学习模型的功能和性能有强烈的影响。

以下是一些综合考虑的利弊:(1)减少冗余性特征选择可以降低维度,减少冗余特征,提高模型的特征选择能力和统计能力,使模型发现更多隐藏的特征。

机器学习的特征选择

机器学习的特征选择

机器学习的特征选择特征选择是机器学习中一个重要的步骤,它的目的是从原始数据中选择最具有代表性和对目标变量有最大影响力的特征,以提高模型的性能和泛化能力。

在本文中,我将介绍特征选择的概念、常用的特征选择方法以及其在机器学习中的应用。

一、特征选择概述特征选择是指从原始特征中选择子集,使得这个子集包含了最具有代表性和判别性的特征。

通过减少特征的数量,特征选择可以提高模型的训练效率,降低过拟合的风险,并且可以解释数据中的关键特征。

在特征选择的过程中,我们需要考虑特征与目标变量之间的关系、特征之间的相关性以及特征本身的重要性。

二、常用的特征选择方法1. 过滤式方法过滤式方法是在特征选择和模型训练之前进行的一种特征排序和选择方法。

它通过计算特征与目标变量之间的相关性或其他统计指标,来评估特征的重要性。

常用的过滤式方法包括皮尔逊相关系数、卡方检验、互信息等。

这些方法可以根据不同的特征类型(连续特征、离散特征等)选择相应的统计指标。

2. 包裹式方法包裹式方法是一种通过封装特征选择和模型训练的方法。

它利用特征子集的性能(如准确率、错误率等)来评估特征的重要性。

包裹式方法的优势在于能够考虑特征之间的相互作用,但其计算复杂度较高,往往需要耗费较长的时间。

常见的包裹式方法包括递归特征消除(Recursive Feature Elimination,RFE)和遗传算法等。

3. 嵌入式方法嵌入式方法是将特征选择与模型训练过程相结合的一种方法。

它通过在模型训练过程中学习特征的权重或系数,来确定特征的重要性。

嵌入式方法可以更好地考虑特征之间的相互关系,并且能够直接优化模型的性能。

常见的嵌入式方法包括L1正则化(L1 Regularization)和决策树等。

三、特征选择在机器学习中的应用1. 数据预处理特征选择是数据预处理的关键步骤之一。

在机器学习中,数据往往会包含大量的冗余和噪声特征,通过特征选择可以显著减少数据的维度,提高模型的训练效率和预测准确性。

机器学习技术中特征选择的方法

机器学习技术中特征选择的方法

机器学习技术中特征选择的方法在机器学习任务中,特征选择是一个重要的预处理步骤。

它的目的是从原始数据中选择最能代表样本特征的子集,以提高模型的性能和效果。

在实际应用中,特征选择对于降低模型的计算复杂度、提高模型的可解释性以及优化模型的泛化能力都起到了关键作用。

本文将介绍机器学习技术中常用的特征选择方法,并对其特点和适用场景进行分析。

首先,常见的特征选择方法之一是过滤式方法。

这种方法独立于任何特定的学习算法,通过对特征和目标变量之间的统计关系进行评估,来选择对目标变量有最大相关性的特征。

常用的过滤式方法包括信息增益、相关系数和卡方检验等。

其中,信息增益是一种度量特征对目标变量的影响程度的方法,它基于信息熵的概念,通过计算每个特征对目标变量的信息增益,来评估特征的重要性。

相关系数则是一种衡量特征和目标变量之间线性关系强度的方法,其数值范围在-1到1之间,值越大表示特征与目标变量之间的线性关系越强。

卡方检验则是一种用来检验两个变量之间是否存在关联性的统计方法,通过卡方检验的结果来评估特征对目标变量的影响。

其次,嵌入式方法是另一种常见的特征选择方法。

嵌入式方法将特征选择融入到模型的训练过程中,通过在模型训练过程中学习每个特征的权重或系数,来评估特征的重要性。

嵌入式方法通过特征权重或系数的大小来确定特征的重要性,通常会将大部分权重或系数接近零的特征舍弃。

常见的嵌入式方法包括L1正则化、决策树和神经网络等。

L1正则化则是一种惩罚模型中特征权重的方法,通过最小化模型的目标函数和L1范数,使得部分特征的权重变为零,从而实现特征选择的目的。

决策树可以通过计算特征的信息增益或基尼指数来评估特征的重要性,然后选择最重要的特征作为根节点。

神经网络则可以通过网络中每个神经元的激活程度来评估特征的重要性,然后选择激活程度较高的特征。

最后,包装式方法是一种基于搜索算法的特征选择方法。

这种方法通常将特征选择看作一个子集优化问题,通过搜索算法在特征子集空间中搜索最优的特征子集。

基于机器学习的特征选择方法研究

基于机器学习的特征选择方法研究

基于机器学习的特征选择方法研究机器学习在我们生活和科研中扮演着越来越重要的角色,而特征选择方法是其中的一大研究方向。

随着计算机技术的不断发展,数据的维数不断增加,而相应的处理时间和空间负担也随之增加,如何保证数据的质量和准确性成为了机器学习领域的一个挑战。

为此,特征选择方法应运而生,它通过降低特征空间的维数,提高模型的精度,从而提高机器学习算法的性能。

本文将重点介绍机器学习中的特征选择方法。

一、特征选择的概念和分类特征选择是指通过某种方法选择一部分与预测变量相关性强的特征,而去除那些与预测变量无关或者关联性较弱的特征,从而减少模型中的冗余信息和噪声,提高模型的精度和解释性。

同时,特征选择也可以提高模型的可解释性和可视化性,方便对结果进行理解和解释。

特征选择方法可以分为三类:过滤式方法、包裹式方法和嵌入式方法。

过滤式方法是在特征选择和模型训练之前进行特征筛选,其主要思想是根据某些统计学指标来评估特征的重要性,选择与目标相关性较高的特征。

它的优点是时间开销小,而且与具体的模型无关,但它不能考虑特征之间的交互关系,可能忽略了一些关键信息。

包裹式方法是通过模型对特征的子集进行评估,以确定最佳特征集。

缺点是计算量很大,特征数量较大时难以实现。

嵌入式方法则是将特征选择与模型训练过程相结合,模型在训练时自动进行特征选择。

它的优点是可以考虑特征之间的交互关系,但需要对具体的模型进行修改。

二、特征选择方法的实现特征选择可以借助多种机器学习算法来实现。

最常用的是基于统计学指标的特征选择方法,例如卡方检验、信息增益、互信息等。

卡方检验是用于判断两个分类变量之间是否相关或独立的统计检验方法。

信息增益是度量一个特征对于分类的贡献度,它的值越大,这个特征对分类的贡献越大。

互信息则是度量两个变量之间的相关性,它的值越大,两个变量之间的相关性越强。

另外,还有基于模型的特征选择方法,包括正则化、主成分分析、岭回归等。

正则化在损失函数中加入惩罚项,使得模型权重趋向于0,从而实现特征选择。

机器学习中的特征选择方法(Ⅲ)

机器学习中的特征选择方法(Ⅲ)

机器学习中的特征选择方法在机器学习领域,特征选择是一个非常重要的步骤。

特征选择的目的是从原始数据中挑选出最具有代表性的特征,以提高模型的预测性能。

本文将从特征选择的概念、方法和应用三个方面来讨论机器学习中的特征选择方法。

特征选择的概念特征选择是指从原始数据中选择出最具有代表性的特征,以便提高模型的预测性能。

在实际应用中,数据往往包含大量特征,而其中只有一部分特征对模型的预测起着重要作用,因此需要进行特征选择来提取出最具有代表性的特征,可以降低模型的复杂度,减少数据噪声的影响,提高模型的泛化能力。

特征选择的核心问题是如何评估特征的重要性,从而确定哪些特征应该被选择出来。

特征选择的方法特征选择的方法主要可以分为过滤式、包裹式和嵌入式三种。

过滤式特征选择方法是在特征选择和模型训练之前进行的。

它们通常根据某种度量标准对特征进行排序,然后选择排名靠前的特征。

常用的过滤式特征选择方法包括方差选择法、相关性选择法、互信息选择法等。

这些方法简单高效,适用于大规模数据,但是忽略了特征选择和模型训练之间的关系。

包裹式特征选择方法是在模型训练过程中进行的。

它们直接使用模型的性能作为特征选择的标准,通过在特征子集上训练模型并评估性能来确定最佳特征子集。

常用的包裹式特征选择方法包括递归特征消除法、基于遗传算法的特征选择法等。

这些方法可以更准确地评估特征的重要性,但是计算量较大,不适用于大规模数据。

嵌入式特征选择方法是将特征选择嵌入到模型训练过程中的方法。

这些方法通常是在模型训练的过程中自动选择最佳的特征子集,以提高模型的预测性能。

常用的嵌入式特征选择方法包括L1正则化、决策树特征选择、基于模型的特征选择等。

这些方法既考虑了特征选择和模型训练之间的关系,又能够提高模型的泛化能力。

特征选择的应用特征选择在各种机器学习任务中都有重要的应用。

例如,在文本分类任务中,可以使用互信息选择法来选择最具有代表性的词语作为特征;在图像识别任务中,可以使用基于模型的特征选择方法来选择最具有代表性的图像特征;在生物信息学领域中,可以使用递归特征消除法来选择最具有代表性的基因作为特征。

机器学习技术使用中的特征选择方法

机器学习技术使用中的特征选择方法

机器学习技术使用中的特征选择方法机器学习技术是如何使用特征选择方法来提高模型性能的?在机器学习领域中,特征选择是一个非常重要的任务。

通过选择最相关和最具有代表性的特征,我们可以提高模型的准确性、降低计算成本,并且减少过拟合的发生。

本文将介绍机器学习中常用的特征选择方法,并说明它们的优势和适用场景。

特征选择是从已有的特征集合中选择出一个子集,这个子集包含了对任务和模型最有意义的特征。

特征选择的目标是去除冗余和无关紧要的特征,以保留那些最相关的特征,从而提高模型的性能和泛化能力。

一种常用的特征选择方法是过滤式方法,它通过评估特征与目标变量之间的相关性来选择特征。

常用的过滤式方法包括相关系数、卡方检验、信息增益和互信息等。

相关系数用于衡量两个变量之间的线性关系,而卡方检验则用于衡量分类变量之间的相关性。

信息增益和互信息则是衡量特征对于目标变量的不确定性的减少程度。

过滤式方法的优点是计算效率高,但它们只考虑了特征与目标变量之间的关系,无法捕捉特征之间的相互作用。

另一种常用的特征选择方法是包裹式方法,它通过训练一个模型来评估特征的重要性。

常用的包裹式方法包括递归特征消除(RFE)和基于遗传算法的特征选择。

递归特征消除是一种迭代算法,它从完整的特征集合开始,每次迭代都去除最不重要的特征,直到达到指定的特征数目。

基于遗传算法的特征选择则是使用遗传算法搜索最优的特征子集。

包裹式方法的优点是可以捕捉特征之间的相互作用,但它们的计算成本较高,因为需要训练多个模型。

还有一种常用的特征选择方法是嵌入式方法,它将特征选择集成进模型训练的过程中。

嵌入式方法通过在损失函数中加入正则化项,来约束特征的权重。

常见的嵌入式方法包括L1正则化和岭回归。

L1正则化可以使得模型的部分特征权重变为0,从而实现特征选择的目的。

岭回归则通过加入一个权重衰减项来限制特征的权重,进而减小过拟合的风险。

嵌入式方法的优点是可以同时进行特征选择和模型训练,但它们的计算成本相对较高。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910342060.4
(22)申请日 2019.04.24
(71)申请人 武汉众邦银行股份有限公司
地址 430000 湖北省武汉市黄陂区盘龙城
经济开发区汉口北大道88号汉口北国
际商品交易中心D2区1-2层、22-23层
(72)发明人 陈刚 兰翔 钟磊 
(74)专利代理机构 深圳市世纪恒程知识产权代
理事务所 44287
代理人 胡海国
(51)Int.Cl.
G06K 9/62(2006.01)
G06N 20/00(2019.01)
(54)发明名称
基于机器学习的特征选择方法、装置、设备
及存储介质
(57)摘要
本发明公开了一种基于机器学习的特征选
择方法、装置、设备及存储介质,所述方法包括:
获取用户的交易数据以及预设个参考特征选择
模型;提取所述交易数据中的参考特征信息;通
过所述参考特征选择模型对所述参考特征信息
进行特征选择;根据选择出的参考特征信息对所
述参考特征选择模型进行评分,得到模型评分结
果;根据所述模型评分结果选择出目标特征选择
模型,将所述目标特征选择模型选择出的参考特
征信息作为目标特征信息,从而通过多种模型结
合,选择出最优的特征选择模型进特征选择,相
较于单一变量选择方法有很大的效率提升,显著
提升了模型对变量选择的分类精度和泛化能力。

权利要求书2页 说明书9页 附图5页CN 110276369 A 2019.09.24
C N 110276369
A
权 利 要 求 书1/2页CN 110276369 A
1.一种基于机器学习的特征选择方法,其特征在于,所述基于机器学习的特征选择方法包括:
获取用户的交易数据以及预设个参考特征选择模型;
提取所述交易数据中的参考特征信息;
通过所述参考特征选择模型对所述参考特征信息进行特征选择;
根据选择出的参考特征信息对所述参考特征选择模型进行评分,得到模型评分结果;
根据所述模型评分结果选择出目标特征选择模型,将所述目标特征选择模型选择出的参考特征信息作为目标特征信息。

2.如权利要求1所述的基于机器学习的特征选择方法,其特征在于,所述参考特征选择模型包括单变量回归模型;
所述通过所述参考特征选择模型对所述参考特征信息进行特征选择,包括:
获取单变量回归模型,根据所述单变量回归模型查找所述参考特征信息的取值范围,根据所述取值范围将所述参考特征信息划分为K个小区间;
从所述小区间中选择参考区间,并获取所述参考区间中的参考特征信息的参考特征个数;
获取所述小区间的区间个数,根据所述区间个数及对应的参考特征个数得到特征容量信息;
根据所述特征容量信息得到特征概率信息,根据所述特征概率信息对所述参考特征信息进行特征选择。

3.如权利要求1所述的基于机器学习的特征选择方法,其特征在于,所述参考特征选择模型还包括相关性模型;
所述通过所述参考特征选择模型对所述参考特征信息进行特征选择,包括:
获取第一预设变量,根据所述相关性模型评估所述参考特征信息与第一预设变量的相关性;
根据评估结果对所述参考特征信息进行特征选择。

4.如权利要求1所述的基于机器学习的特征选择方法,其特征在于,所述参考特征选择模型还包括预设分组模型,所述预设分组模型包括主要成分分析模型、聚类模型、线性回归模型以及逻辑回归模型;
所述通过所述参考特征选择模型对所述参考特征信息进行特征选择,包括:
根据所述预设分组模型将所述参考特征信息进行分组;
在所述预设分组模型为主要成分分析模型时,创建预设组件并获取第二预设变量,通过所述预设组件评估分组后的参考特征信息与第二预设变量的相关性,在评估结果满足第一预设条件时对所述参考特征信息进行特征选择;
在所述预设分组模型为聚类模型时,创建预设集群,通过所述预设集群评估分组后的所述参考特征信息的相关性,在评估结果满足第二预设条件时对所述参考特征信息进行特征选择;
在所述预设分组模型为线性回归模型或逻辑回归模型时,分别通过线性回归模型或逻辑回归模型对分组后的参考特征信息进行特征选择。

5.如权利要求1所述的基于机器学习的特征选择方法,其特征在于,所述参考特征选择
2。

相关文档
最新文档