【CN110196907A】一种多层次文本聚类方法和装置【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910297074.9
(22)申请日 2019.04.15
(71)申请人 中国石油大学(华东)
地址 266580 山东省青岛市黄岛区长江西
路66号
(72)发明人 席永轲 白婷婷 王宇辰 白振宇
曹帅 张孝苗 孙玉强 刘昕
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 17/27(2006.01)
(54)发明名称一种多层次文本聚类方法和装置(57)摘要本发明实施例提供了一种多层次文本聚类方法和装置,该方法可以在多个层次对文本数据进行不同粒度的聚类。对所获取的文本数据进行数据预处理操作后根据范化数据的不同特征以及在数据表中所属的不同类别,将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,然后采用Word2vec进行文本词向量的训练,基于文本词向量训练结果得到一条文本数据的二维坐标作为一个数据节点的坐标,通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离,最终通过计算每个数据节点的局部密度与相对距离确,保存聚类结果并生成数据可视化图聚类中心,并根据各个聚类中心,将不同数
据聚为一类。权利要求书1页 说明书3页 附图2页CN 110196907 A 2019.09.03
C N 110196907
A
权 利 要 求 书1/1页CN 110196907 A
1.一种多层次文本聚类方法和装置,包括以下步骤:
A.基于所获取的原始数据进行数据预处理操作,主要包括数据分词、去停用词、数据规范化等操作。
B.根据规范化数据的不同特征以及在数据表中所属的不同类别,使用不同的类别判别方式对数据进行划分,可将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,并根据不同的类别层次执行不同聚类操作。
C.基于不同层次的文本数据,采用Word2vec进行文本词向量的训练,将文本内容处理为二维并在空间标识。
D.基于词向量训练结果,将每条文本数据的关键词抽取结果与词向量结合,将关键词对应的词向量坐标求和,得到一条文本数据的二维坐标作为一个数据节点的坐标。
E.通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离。然后通过计算每个数据节点的局部密度与相对距离确定各个聚类中心,并根据各个聚类中心,将不同数据聚为一类,保存聚类结果并生成数据可视化图。
2.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤A 中,数据分词是把连续的汉字序列划分成一系列单独的词语,之后将词语作为文本数据的基本单位;去停用词就是把分词结果中的一些虚词和禁用词去除;数据规范化是指将数据已有的类别进行标记,便于后期高效多层次聚类。
3.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤B 中,根据不同的数据形式,使用不同的方式对数据进行划分,共有以下几种形式:
i.将所有数据归为一个层次,即将所有数据进行最广义聚类。
ii.根据规范化后数据所属的不同类别,可以根据不同类别层次将数据划分为不同类别,并根据不同类别进行聚类。
iii.若想获取自定义类别数据,首先自定义类别标签关键词,然后对所获取规范化数据进行遍历,并通过类别关键词对每一条数据进行类别相似度赋值权重,最终通过权重大小获取到自定义类别数据。
4.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤C 中,Word2vec利用深度学习的思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,最终通过降维算法将K维向量降为2维,从而可以用向量空间上的距离来表示语义上的相似度。
5.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤E 中,通过计算所有数据节点的平均距离并乘以对应权重,从而根据不同数据集的大小动态更新算法截断距离。局部密度描述了一个数据节点周围数据的聚集程度。相对距离描述了一个数据节点与其它具有较大局部密度的数据节点的距离。若一个节点的局部密度值与相对距离值都较大,说明它本身周围有较多数据节点,且距离另一个周围有较多数据节点的数据节点距离较远,则认为其是一个聚类中心。
2