【CN110059311A】一种面向司法文本数据的关键词提取方法及系统【专利】

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910237329.2
(22)申请日 2019.03.27
(71)申请人银江股份有限公司
地址 310012 浙江省杭州市益乐路223号1
幢1层
(72)发明人张云云　王开红　丁锴　陈涛　
蒋立靓　胡慷　沈晓宇　陈寅峰　
(74)专利代理机构杭州之江专利事务所(普通
合伙) 33216
代理人张慧英
(51)Int.Cl.
G06F 17/27(2006.01)
G06F 16/36(2019.01)
G06F 16/951(2019.01)
G06Q 50/18(2012.01)
(54)发明名称
一种面向司法文本数据的关键词提取方法
及系统
(57)摘要
本发明涉及一种面向司法文本数据的关键
词提取方法及系统，本发明首先以引入法律名称
和司法相关专业性词汇表用于分词，并且进行人
工复检来构建司法专业词汇标注表；然后通过将
构建司法专业词汇标注词典和大规模的用户词
典，进行分词，去除停用词等方法，获取词语；并
且采集统计各类纠纷与案由的关键词搜索词汇，
共同组成候选关键词；其次，加入标题词权重和
词语全局性权重值方法修正候选关键词TF_IDF
的权值，如果待提取的文档中未含有候选关键
词，那么采用文档中每个词的TF_IDF归一化值作
为TextRank算法初始权值输入，得到最终的词语
权值。

本发明可以较好地匹配司法文本数据，匹
配性高，适用于大部分的司法文本数据；并且加
快了提取速度，
同时提取准确度高。

权利要求书3页说明书8页附图3页CN 110059311 A 2019.07.26
C N 110059311
A
1.一种面向司法文本数据的关键词提取方法，其特征在于，包括如下步骤：
(1)采集并预处理司法文本数据，对司法文本数据进行分词、停用词去除，获取词语；
(2)构建关键词词典，并设置关键词词典标注词初始权值w initial ；
(3)利用TF_IDF模型计算文档d j 中词语word i 的TF_IDF权重，作归一化处理得到TF_IDF 权重归一化值tfidf ij_norm ；根据词语word i 在文档d j 中出现的位置计算标题词权值W title (word ij )；利用词语word i 在文档d j 中的出现范围计算全局性权值W global (word ij )；
(4)基于关键词初始权值w initial 、标题词权值W title (word ij )、全局性权重值W global (word ij )、TF_IDF权重归一化值tfidf ij_norm 计算得到词语word i 在文档d j
中的总体权值
(5)计算文档d j 所有词语的权重，按照词语的权重大小进行降序排列，将权值排在前k为的词语作为文档d j 的关键词。

2.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述分词采用司法专业词汇标注表，所述的司法专业词汇标注表通过提取法律相关名称词典和专业词库、组合常规词及人工复检的方法构建。

3.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述步骤(2)的具体步骤如下：
(2.1)采集各司法网站的关键词搜索词汇，作为第一词典标注词，并设置该类词典标注词的权重w initial1；
(2.2)统计步骤(1)获取的词语的词频，将词频在设定阈值范围内的词语作为第二词典标注词，并设置该类词典标注词的权重w initial2；
(2.3)将第一词典标注词和第二词典标注词合并，构建关键词词典，如果有重复出现的词典标注词，取较大的权重作为对应词的初始权值w initial 。

4.根据权利要求1所述的一种面向司法文本数据的关键词提取方法，其特征在于：所述TF_IDF权重归一化值tfidf ij_norm 的计算方法如下：
1)设文档集合D ,某个文档的词语表示为d j ＝{word 1,word 2,...,word N }，N表示文档d j 中出现词语的个数，word i 是在文档中出现词语，利用TF_IDF方法计算给初始候选关键词的权
重公式：
其中，tf ij 是指词语word i 在文档d j 中出现的频率；n i ,j 是指词语word i 在文档d j 中出现的次数；∑k n k ,j 是指词语word i 在文档d j 中所有词语的出现次数总和，k表示文档d j 内的词语；idf i 是指词语word i 的逆向文档数，可用中文件数目除以包含该词语的文件的数目，即|D|表示全部文档的文件总数，|{j:word i ∈d j }|表示包含词语word i 的文件数目(n i ,j ≠0的文件数目)，θ为常量值；
2)将TF_IDF权重进行归一化处理，
归一化的权值计算公式如下：
权　利　要　求　书1/3页2CN 110059311 A。