【CN110196907A】一种多层次文本聚类方法和装置【专利】
一种文本聚类的方法、装置、服务器及存储介质[发明专利]
![一种文本聚类的方法、装置、服务器及存储介质[发明专利]](https://img.taocdn.com/s3/m/a11577ea0740be1e650e9af8.png)
专利名称:一种文本聚类的方法、装置、服务器及存储介质专利类型:发明专利
发明人:雒冬梅,孙瑞鸿,袁振杰,郝瑞,李慧强,宋亚莲
申请号:CN202010462202.3
申请日:20200527
公开号:CN111651596A
公开日:
20200911
专利内容由知识产权出版社提供
摘要:本发明公开了一种文本聚类的方法、装置、服务器及存储介质。
其中,该方法包括:基于待聚类文本库内每一待聚类文本中的关键词数量和每一关键词在待聚类文本库中包含该关键词的文本数量,计算每一关键词在该待聚类文本中的参考权重;通过待聚类文本库中的每一关键词在该待聚类文本中的词频和在待聚类文本库中的逆文本频次,以及该待聚类文本中的最大词频,调节每一关键词的参考权重,得到每一关键词在该待聚类文本中的实际权重;采用每一关键词在各个待聚类文本中的实际权重,对待聚类文本库内的待聚类文本进行聚类,得到对应的文本聚类结果。
本发明的技术方案解决了现有技术中无法准确的计算各个文本的关键词权重的问题,提高了文本聚类的准确性。
申请人:软通动力信息技术有限公司
地址:300308 天津市滨海新区天津自贸试验区(空港经济区)东七道2号中兴产业基地7号楼402国籍:CN
代理机构:北京品源专利代理有限公司
代理人:孟金喆
更多信息请下载全文后查看。
一种文本分类方法以及装置[发明专利]
![一种文本分类方法以及装置[发明专利]](https://img.taocdn.com/s3/m/0f2fa23e3186bceb18e8bbd7.png)
专利名称:一种文本分类方法以及装置专利类型:发明专利
发明人:王李鹏
申请号:CN201910234804.0
申请日:20190326
公开号:CN109992667A
公开日:
20190709
专利内容由知识产权出版社提供
摘要:本申请提供了一种文本分类方法以及装置,其中,该方法包括:获取待分类文本,确定样本词汇集中每个样本词汇出现在待分类文本中的次数;根据多个文本分类子模型分别使用的样本词汇,将样本词汇分成多个分组;其中,每个分组对应一个文本分类子模型,不同分组中的样本词汇不完全相同;将每个分组中的样本词汇在待分类文本中出现的次数,输入至与各个分组分别对应的文本分类子模型中,得到各个分组对应的子分类结果;基于各个分组对应的子分类结果,确定待分类文本的分类结果。
本申请实施例在对文本进行分类时,具有更高的分类精度,满足较高精度的分类需求,进而基于该分类结果进行后续处理时,效率更高。
申请人:新华三大数据技术有限公司
地址:450000 河南省郑州市高新技术产业开发区杜英街166号总部大观B18号楼
国籍:CN
代理机构:北京超成律师事务所
代理人:刘静
更多信息请下载全文后查看。
一种文本聚类方法、文本聚类装置及终端设备[发明专利]
![一种文本聚类方法、文本聚类装置及终端设备[发明专利]](https://img.taocdn.com/s3/m/a75706511a37f111f0855b26.png)
专利名称:一种文本聚类方法、文本聚类装置及终端设备专利类型:发明专利
发明人:刘志勇,吴又奎,任晓德
申请号:CN201811495672.9
申请日:20181207
公开号:CN109766437A
公开日:
20190517
专利内容由知识产权出版社提供
摘要:本申请适用于深度学习技术领域,提供了一种文本聚类方法、文本聚类装置及终端设备,包括:获取至少两个待聚类文本,并分别对每个待聚类文本进行分词预处理得到多个文本特征词;利用Word2vec分别将每个文本特征词转换成词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;利用预设的聚类模型对所述待聚类文本的文本向量进行聚类,得到聚类结果。
通过上述方法,有效提高了文本聚类的准确率。
申请人:中科恒运股份有限公司
地址:050090 河北省石家庄市新石北路368号物联网大厦北楼1001-1020室
国籍:CN
代理机构:石家庄国为知识产权事务所
代理人:秦敏华
更多信息请下载全文后查看。
文本聚类方法及装置[发明专利]
![文本聚类方法及装置[发明专利]](https://img.taocdn.com/s3/m/af2f981904a1b0717ed5ddae.png)
专利名称:文本聚类方法及装置
专利类型:发明专利
发明人:胡雅坤,王光全,廖军,刘永生申请号:CN202010906039.5
申请日:20200901
公开号:CN112182206A
公开日:
20210105
专利内容由知识产权出版社提供
摘要:本申请提供一种文本聚类方法及装置,涉及通信技术领域,用于解决搜索结果的查全率较低的问题。
该方法包括:文本聚类装置根据N个重心文本,对多个文本进行聚类,确定N个分类簇;之后,文本聚类装置确定每个重心文本的目标集合,以得到N个目标集合;文本聚类装置确定N个目标集合中每个目标集合对应的相似文本集;文本聚类装置根据每个重心文本对应的分类簇和相似文本集,确定每个重心文本对应的文本聚类集合,文本聚类集合用于表征网络搜索结果。
本申请应用于文本聚类的过程中。
申请人:中国联合网络通信集团有限公司
地址:100033 北京市西城区金融大街21号
国籍:CN
代理机构:北京中博世达专利商标代理有限公司
代理人:申健
更多信息请下载全文后查看。
一种文本多层次标签分类方法[发明专利]
![一种文本多层次标签分类方法[发明专利]](https://img.taocdn.com/s3/m/cee1a8e081eb6294dd88d0d233d4b14e84243e76.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010312275.4(22)申请日 2020.04.20(71)申请人 北京中科凡语科技有限公司地址 100190 北京市海淀区知春路63号51号楼10层1006(72)发明人 潘永灿 李小青 邓彪 周玉 刘鹏 (74)专利代理机构 北京市盛峰律师事务所11337代理人 于国强(51)Int.Cl.G06F 16/35(2019.01)G06F 40/284(2020.01)G06K 9/62(2006.01)(54)发明名称一种文本多层次标签分类方法(57)摘要本发明涉及自然语言处理技术领域,公开了一种文本多层次标签分类方法,包括步骤:获取原文档;进行数据增广操作,获得数据增广操作后的样本数据集;对样本数据集的不同实体类型的数量进行统计,并进行均衡操作;建立文本多层次标签分类模型,进行多层级特征融合,获得文本多层次标签分类模型的输出;将文本多层次标签分类模型的输出作为文本多层次标签分类结果。
本发明首先通过数据增广操作扩充样本数据,并平衡了各类型样本之间的数量,减小了样本不均衡造成的对模型准确率的负面影响;本发明利用了各层分类标签之间的相关信息,进行了多层级特征融合,相对于现有技术,本发明准确率更高,鲁棒性以及泛化性更好。
权利要求书2页 说明书5页 附图5页CN 111506732 A 2020.08.07C N 111506732A1.一种文本多层次标签分类方法,其特征在于,包括步骤:S1)获取原文档,所述原文档至少包含一个字符;S2)进行数据增广操作,获得数据增广操作后的样本数据集;S3)对所述样本数据集的不同实体类型的数量进行统计,并进行均衡操作;S4)建立文本多层次标签分类模型,进行多层级特征融合,获得文本多层次标签分类模型的输出;S5)将所述文本多层次标签分类模型的输出作为文本多层次标签分类结果。
一种多文本分析方法及装置[发明专利]
![一种多文本分析方法及装置[发明专利]](https://img.taocdn.com/s3/m/fb4667de10661ed9ac51f354.png)
专利名称:一种多文本分析方法及装置专利类型:发明专利
发明人:王勇博,唐剑波,李长亮
申请号:CN201911257226.9
申请日:20191206
公开号:CN110929015A
公开日:
20200327
专利内容由知识产权出版社提供
摘要:本申请提供一种多文本分析方法及装置,其中所述多文本分析方法包括:将至少两个待分析文本和待回答问题输入预先训练好的文本分析模型中进行处理,生成所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量;提取每个所述候选答案的特征向量;根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量;根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案。
结合多种类型的特征之后选出最佳答案,减小了答案误判的可能性,提高了选择答案的准确率。
申请人:北京金山数字娱乐科技有限公司,成都金山互动娱乐科技有限公司,北京金山软件有限公司地址:100085 北京市海淀区小营西路33号金山软件大厦2层西区
国籍:CN
代理机构:北京智信禾专利代理有限公司
代理人:王治东
更多信息请下载全文后查看。
文本聚类方法及装置

专利名称:文本聚类方法及装置专利类型:发明专利
发明人:赵自翔,彭鸿鑫
申请号:CN201710537557.2申请日:20170704
公开号:CN109241274B
公开日:
20220125
专利内容由知识产权出版社提供
摘要:本发明实施例提供一种文本聚类方法及装置,该方法包括:确定当前获取的文本;提取所述文本的关键词;当所述文本为非第一次获取的文本,根据所述文本的关键词,与当前已分类的各类别的文本代表的关键词,分别计算所述文本与已分类的各类别的文本代表的关键词相似程度,确定所述文本与已分类的各类别的文本代表的相似度;当已分类的各类别的文本代表中,存在与所述文本的相似度大于相似度阈值的文本代表,将所述文本归类到该文本代表的类别中;当已分类的各类别的文本代表中,不存在与所述文本的相似度大于相似度阈值的文本代表,将所述文本归为一个类别。
本发明实施例能够提升文本聚类的抗文本变形能力。
申请人:腾讯科技(深圳)有限公司
地址:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层
国籍:CN
代理机构:深圳市深佳知识产权代理事务所(普通合伙)
代理人:王仲凯
更多信息请下载全文后查看。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910297074.9
(22)申请日 2019.04.15
(71)申请人 中国石油大学(华东)
地址 266580 山东省青岛市黄岛区长江西
路66号
(72)发明人 席永轲 白婷婷 王宇辰 白振宇
曹帅 张孝苗 孙玉强 刘昕
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 17/27(2006.01)
(54)发明名称一种多层次文本聚类方法和装置(57)摘要本发明实施例提供了一种多层次文本聚类方法和装置,该方法可以在多个层次对文本数据进行不同粒度的聚类。
对所获取的文本数据进行数据预处理操作后根据范化数据的不同特征以及在数据表中所属的不同类别,将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,然后采用Word2vec进行文本词向量的训练,基于文本词向量训练结果得到一条文本数据的二维坐标作为一个数据节点的坐标,通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离,最终通过计算每个数据节点的局部密度与相对距离确,保存聚类结果并生成数据可视化图聚类中心,并根据各个聚类中心,将不同数
据聚为一类。
权利要求书1页 说明书3页 附图2页CN 110196907 A 2019.09.03
C N 110196907
A
权 利 要 求 书1/1页CN 110196907 A
1.一种多层次文本聚类方法和装置,包括以下步骤:
A.基于所获取的原始数据进行数据预处理操作,主要包括数据分词、去停用词、数据规范化等操作。
B.根据规范化数据的不同特征以及在数据表中所属的不同类别,使用不同的类别判别方式对数据进行划分,可将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,并根据不同的类别层次执行不同聚类操作。
C.基于不同层次的文本数据,采用Word2vec进行文本词向量的训练,将文本内容处理为二维并在空间标识。
D.基于词向量训练结果,将每条文本数据的关键词抽取结果与词向量结合,将关键词对应的词向量坐标求和,得到一条文本数据的二维坐标作为一个数据节点的坐标。
E.通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离。
然后通过计算每个数据节点的局部密度与相对距离确定各个聚类中心,并根据各个聚类中心,将不同数据聚为一类,保存聚类结果并生成数据可视化图。
2.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤A 中,数据分词是把连续的汉字序列划分成一系列单独的词语,之后将词语作为文本数据的基本单位;去停用词就是把分词结果中的一些虚词和禁用词去除;数据规范化是指将数据已有的类别进行标记,便于后期高效多层次聚类。
3.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤B 中,根据不同的数据形式,使用不同的方式对数据进行划分,共有以下几种形式:
i.将所有数据归为一个层次,即将所有数据进行最广义聚类。
ii.根据规范化后数据所属的不同类别,可以根据不同类别层次将数据划分为不同类别,并根据不同类别进行聚类。
iii.若想获取自定义类别数据,首先自定义类别标签关键词,然后对所获取规范化数据进行遍历,并通过类别关键词对每一条数据进行类别相似度赋值权重,最终通过权重大小获取到自定义类别数据。
4.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤C 中,Word2vec利用深度学习的思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,最终通过降维算法将K维向量降为2维,从而可以用向量空间上的距离来表示语义上的相似度。
5.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤E 中,通过计算所有数据节点的平均距离并乘以对应权重,从而根据不同数据集的大小动态更新算法截断距离。
局部密度描述了一个数据节点周围数据的聚集程度。
相对距离描述了一个数据节点与其它具有较大局部密度的数据节点的距离。
若一个节点的局部密度值与相对距离值都较大,说明它本身周围有较多数据节点,且距离另一个周围有较多数据节点的数据节点距离较远,则认为其是一个聚类中心。
2。