【CN110188196A】一种基于随机森林的文本增量降维方法【专利】

合集下载

一种中文分词系统[发明专利]

专利名称：一种中文分词系统
专利类型：发明专利
发明人：岳希,向春淼,唐聃,高燕,曾琼申请号：CN202010689156.0
申请日：20200717
公开号：CN111832299A
公开日：
20201027
专利内容由知识产权出版社提供
摘要：本发明公开了一种中文分词系统，涉及自然语言处理技术领域，所述系统包括：文本获取模块，用于获得文本文件数据；文本预处理模块：用于对文本文件数据进行预处理，获得待分词文本数据；分词模块：用于基于词典对待分词文本数据进行分词处理，获得文本数据分词结果；新词发现模块：用于对文本数据分词结果进行互信息计算，基于互信息计算结果识别新词，并将识别的新词存入分词模块的分词词典中。

本发明优化了分词的召回率和准确率，其有了较大的提高；解决了专业领域中专业词库的新词来源；优化了搜索到要匹配的词语的速度，也大大提高了整体分词速度。

申请人：成都信息工程大学
地址：610225 四川省成都市西南航空港经济开发区学府路1段24号
国籍：CN
代理机构：成都云纵知识产权代理事务所(普通合伙)
代理人：熊曦
更多信息请下载全文后查看。

一种算法方法专利

一种算法方法专利背景随着信息技术的发展，算法在各个领域中起到了重要的作用。

在数据挖掘、机器学习、图像处理等众多领域，算法的优化和创新对于解决实际问题具有重要作用。

因此，研发一种新颖、高效的算法方法具有重要的研究价值和实际意义。

本专利涉及的是一种基于深度学习的图像分类算法方法。

发明内容本专利描述了一种基于深度学习的图像分类算法方法，旨在提供一种更加高效和准确的图像分类解决方案。

该方法主要包括以下几个步骤：1. 数据预处理：对输入的图像数据进行预处理，包括图像大小调整、灰度化处理等，以便后续的特征提取和分类处理。

2. 特征提取：采用深度学习模型对预处理后的图像进行特征提取。

可以使用卷积神经网络（Convolutional Neural Network，CNN）等深度学习模型，通过学习图像的局部特征和全局信息，获得更加抽象和高级的特征表示。

3. 特征选择：根据特征的重要性或者相关性对提取得到的特征进行选择，去除冗余或者无关的特征。

可以使用相关系数、信息熵等方法进行特征选择。

4. 分类处理：基于特征选择后的特征，采用分类器对图像进行分类。

可以使用支持向量机（Support Vector Machine，SVM）、逻辑回归（Logistic Regression）等传统的分类方法，也可以使用深度学习模型进行分类。

5. 模型调优：对分类器进行参数调优以得到更好的分类性能。

可以采用交叉验证、网格搜索等方法进行模型调优。

优势和创新点相比于传统的图像分类算法，本算法方法具有以下的优势和创新点：1. 利用深度学习模型进行特征提取，能够获取更加抽象和高级的特征表示，从而提高图像分类的准确性。

2. 通过特征选择，可以去除冗余和无关的特征，减少了特征维度，提升了图像分类的效率和鲁棒性。

3. 使用分类器对图像进行分类，能够根据特征选择后的特征，对图像进行更加准确的分类。

4. 优化和调整模型参数，能够提高分类器的性能，进一步提高图像分类的准确性和效率。

一种基于卷积神经网络与随机森林的短文本分类方法[发明专利]

专利名称：一种基于卷积神经网络与随机森林的短文本分类方法
专利类型：发明专利
发明人：刘泽锦,王洁
申请号：CN201710181062.0
申请日：20170324
公开号：CN107066553A
公开日：
20170818
专利内容由知识产权出版社提供
摘要：本发明公开了一种基于卷积神经网络与随机森林的短文本分类方法，属于文本分类与深度学习领域。

针对采用Softmax作为卷积神经网络分类器导致泛化能力不足的问题，提出了一种结合卷积神经网络与随机森林的短文本分类算法(CNN‑RF)。

本方法首先提出一种双重词向量卷积神经网络用来充分提取短文本高阶特征，然后采用随机森林作为高阶特征分类器，从而提高短文本分类效果。

在三个公开实验数据集上的结果表明，与其他算法相比CNN‑RF在多个评价指标上均有明显优势。

申请人：北京工业大学
地址：100124 北京市朝阳区平乐园100号
国籍：CN
代理机构：北京思海天达知识产权代理有限公司
代理人：沈波
更多信息请下载全文后查看。

一种基于机器学习的多特征文本数据相似度计算方法[发明专利]

专利名称：一种基于机器学习的多特征文本数据相似度计算方法
专利类型：发明专利
发明人：陈磊
申请号：CN201810838529.9
申请日：20180727
公开号：CN109145111A
公开日：
20190104
专利内容由知识产权出版社提供
摘要：本发明公开了一种基于机器学习的多特征文本数据相似度计算方法，使用文本矢量化算法将每条数据的每个特征转化为一个矢量数组；将每条数据的多个特征生成的矢量数据进行拼接，正则化处理，并将所有数据的对应矢量数组组成一个矩阵；可选地使用PCA算法对上述矩阵进行降维；由业务专家在上述数据中标注出一系列相似数据对，每个数据对由两条相似数据组成；基于上述相似数据对，计算出矢量距离映射矩阵，并基于该矩阵得到矢量距离计算公式；使用低精度聚合算法。

该方法采用机器学习算法实现了多特征文本数据的距离计算，并使用低精度聚类方法降低了计算量，提升了算法性能。

申请人：深圳市翼海云峰科技有限公司
地址：518000 广东省深圳市福田区福田街道口岸社区福田南路38号广银大厦17层1716-05国籍：CN
更多信息请下载全文后查看。

基于机器学习的自动文本分类方法[发明专利]

专利名称：基于机器学习的自动文本分类方法专利类型：发明专利
发明人：潘晓光,张娜,易传润,王宇琦,韩丹
申请号：CN202011631071.3
申请日：20201231
公开号：CN112685567A
公开日：
20210420
专利内容由知识产权出版社提供
摘要：本发明涉及自然语言处理技术领域，具体涉及一种基于机器学习的自动文本分类方法。

包括以下环节：S1：文本数据预处理：首先删除文本标记，然后分别对英文和中文语句进行切分；S2：文本表示：将中文语言的文本进行翻译，转换成能够被计算机识别并处理的二进制语言；S3：特征降维：首先利用TF‑IDF权值计算方法过滤掉一部分权值较低的词项，然后采用XGBoost算法对于剩余部分词项进行筛选；S4：分类模型：通过线性核+高斯核线对上述特征集合进行分类，建立模型；
S5：分类性能评估。

本发明主要解决了垃圾语言对网络造成不良影响的问题。

本发明主要用于对网络语言的筛选。

申请人：山西三友和智慧信息技术股份有限公司
地址：030000 山西省太原市高新区科技街15号A118室
国籍：CN
代理机构：太原荣信德知识产权代理事务所(特殊普通合伙)
更多信息请下载全文后查看。

基于面向对象随机森林的极化特征选择及分类方法[发明专利]

专利名称：基于面向对象随机森林的极化特征选择及分类方法专利类型：发明专利
发明人：陈媛媛,郑加柱,魏浩翰
申请号：CN201810561139.1
申请日：20180529
公开号：CN108846338B
公开日：
20220415
专利内容由知识产权出版社提供
摘要：本发明公开了一种基于面向对象随机森林的极化特征选择及分类方法，解决了众多极化特征参与分类时的特征选择与图像分类问题。

该方法采用面向对象方法对特征集合进行多尺度分割，对分割后的样本对象进行随机森林建模，并计算每个特征的重要性，采用序列前向选择算法进行特征集优化。

本发明采用面向对象的随机森林方法提高了模型训练效率和分类精度。

采用序列前向选择算法结合精度最高这一迭代终止条件进行最优特征子集的构建，避免陷入局部最优解。

该算法可以在提高分类精度的同时，为合理优化特征集提供定量参考。

申请人：南京林业大学
地址：210037 江苏省南京市玄武区龙蟠路159号
国籍：CN
更多信息请下载全文后查看。

一种结合多头自注意力机制的CNN文本分类方法[发明专利]

专利名称：一种结合多头自注意力机制的CNN文本分类方法专利类型：发明专利
发明人：刘星辰,陈晓峰,麻沁甜
申请号：CN202010040278.7
申请日：20200115
公开号：CN111259666A
公开日：
20200609
专利内容由知识产权出版社提供
摘要：本发明公开一种结合多头自注意力机制的CNN文本分类方法,包括：获取待分类文本的分词序列，并进行特殊符号和停止词过滤等预处理；查询预设或随机初始化的词嵌入模型获取分词序列的嵌入矩阵，矩阵的每一行为各分词的嵌入向量；针对所得嵌入矩阵的各行向量，叠加该向量对应分词的位置编码向量；对叠加位置编码后的嵌入矩阵通过自注意力机制生成自注意力矩阵；重复若干次自注意力矩阵的生成，将生成的多个矩阵在列的维度上进行拼接；将词序列拼接后的自注意力矩阵与加权矩阵相乘，实现降维和融合；将降维和融合后的自注意力矩阵输入CNN，进行训练或者预测。

申请人：上海勃池信息技术有限公司
地址：200000 上海市嘉定区汇源路55号8幢5层517室
国籍：CN
代理机构：上海领洋专利代理事务所(普通合伙)
代理人：俞晨波
更多信息请下载全文后查看。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910356489.9
(22)申请日 2019.04.29
(71)申请人同济大学
地址 200092 上海市杨浦区四平路1239号
(72)发明人向阳　陈晓军　贾圣宾　郭鑫　
(74)专利代理机构上海科盛知识产权代理有限
公司 31225
代理人杨宏泰
(51)Int.Cl.
G06F 16/35(2019.01)
G06K 9/62(2006.01)
(54)发明名称
一种基于随机森林的文本增量降维方法
(57)摘要
本发明涉及一种基于随机森林的文本增量
降维方法，包括以下步骤：1)将原始文本数据划
分成多个子集，构建原始文本特征图簇；2)将每
个子集的文本特征图簇表示为数据表形式；3)对
数据表中的记录进行有放回的抽样建立随机森
林的数据训练集，通过构建分类树得到随机森
林；4)将新文本子集的文本特征图簇转化为数据
表形式，并将数据表中的全部记录输入已训练好
的随机森林中，汇总各分类树的投票结果得到每
个记录的新类别，并根据分类结果完成两个文本
特征图簇的合并，从而实现已有文本特征的增量
降维。

与现有技术相比，本发明具有精度高、可扩
展性强、无需做特征变量选择、不会过拟合等优
点。

权利要求书2页说明书9页附图4页CN 110188196 A 2019.08.30
C N 110188196
A
1.一种基于随机森林的文本增量降维方法，其特征在于，包括以下步骤：
1)对输入的原始文本进行预处理，并将原始文本数据划分成多个子集，构建原始文本特征图簇；
2)将每个子集的文本特征图簇表示为数据表形式；
3)对数据表中的记录进行有放回的抽样建立随机森林的数据训练集，通过构建分类树得到随机森林，并对没有被选入数据训练集中的记录通过oob误差估计对随机森林中各分类树进行平衡误差；
4)将新文本子集的文本特征图簇转化为数据表形式，并将数据表中的全部记录输入已训练好的随机森林中，汇总并将各分类树多数的投票结果作为每个记录的新类别，并根据分类结果完成新文本和原始文本特征图簇的合并，从而实现已有文本特征的增量降维。

2.根据权利要求1所述的一种基于随机森林的文本增量降维方法，其特征在于，所述的步骤1)具体为：
对原始文本数据按照设定数量N进行分割，将N个文本划分为一个子集，每到达一个包含N个文本的子集或到达设定的时间节点，则对当前子集的文本特征图簇与先前子集的文本特征图簇做合并或更新操作，生成针对整个原始文本集的文本特征图簇。

3.根据权利要求1所述的一种基于随机森林的文本增量降维方法，其特征在于，所述的步骤2)具体为：
将原始文本子集的文本特征图簇转化为M行|V|+1列的数据表，其中，|V|为文本特征图簇中特征词唯一化后的个数，在该数据表中，每一行对应一个文本特征图中的一个顶点，每一行的前|V|列的值为该顶点与所有特征词之间的关系权值，最后一列的值为该顶点所属的文本特征图的编号，即随机森林的预测列。

4.根据权利要求1所述的一种基于随机森林的文本增量降维方法，其特征在于，所述的步骤3)具体为：
采用Bagging算法作为抽样算法为随机森林中的每一棵分类树建立训练数据集，并根据每一轮抽样数据，通过输入变量对预测变量的基尼不纯度，进行每一个分类树的学习，最终将所有的分类树组合成整个随机森林。

5.根据权利要求4所述的一种基于随机森林的文本增量降维方法，其特征在于，所述的步骤3)中，并对没有被选入数据训练集中的记录通过oob误差估计对各分类树进行平衡误差具体为：
对不同的类别按照记录样本个数的反比例设置对应的权值，
则有：
其中，cw y 为类别y的权值，[S 1,S 2,...S i ...S Y ]为S 1,S 2,...S i ...S Y 的最小公倍数，S i 为第i个类别下的记录样本个数，Y为类别总数。

6.根据权利要求1所述的一种基于随机森林的文本增量降维方法，其特征在于，该方法还包括以下步骤：
权　利　要　求　书1/2页2CN 110188196 A。