【CN110059311A】一种面向司法文本数据的关键词提取方法及系统【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910237329.2
(22)申请日 2019.03.27
(71)申请人 银江股份有限公司
地址 310012 浙江省杭州市益乐路223号1
幢1层
(72)发明人 张云云 王开红 丁锴 陈涛
蒋立靓 胡慷 沈晓宇 陈寅峰
(74)专利代理机构 杭州之江专利事务所(普通
合伙) 33216
代理人 张慧英
(51)Int.Cl.
G06F 17/27(2006.01)
G06F 16/36(2019.01)
G06F 16/951(2019.01)
G06Q 50/18(2012.01)
(54)发明名称
一种面向司法文本数据的关键词提取方法
及系统
(57)摘要
本发明涉及一种面向司法文本数据的关键
词提取方法及系统,本发明首先以引入法律名称
和司法相关专业性词汇表用于分词,并且进行人
工复检来构建司法专业词汇标注表;然后通过将
构建司法专业词汇标注词典和大规模的用户词
典,进行分词,去除停用词等方法,获取词语;并
且采集统计各类纠纷与案由的关键词搜索词汇,
共同组成候选关键词;其次,加入标题词权重和
词语全局性权重值方法修正候选关键词TF_IDF
的权值,如果待提取的文档中未含有候选关键
词,那么采用文档中每个词的TF_IDF归一化值作
为TextRank算法初始权值输入,得到最终的词语
权值。
本发明可以较好地匹配司法文本数据,匹
配性高,适用于大部分的司法文本数据;并且加
快了提取速度,
同时提取准确度高。
权利要求书3页 说明书8页 附图3页CN 110059311 A 2019.07.26
C N 110059311
A
1.一种面向司法文本数据的关键词提取方法,其特征在于,包括如下步骤:
(1)采集并预处理司法文本数据,对司法文本数据进行分词、停用词去除,获取词语;
(2)构建关键词词典,并设置关键词词典标注词初始权值w initial ;
(3)利用TF_IDF模型计算文档d j 中词语word i 的TF_IDF权重,作归一化处理得到TF_IDF 权重归一化值tfidf ij_norm ;根据词语word i 在文档d j 中出现的位置计算标题词权值W title (word ij );利用词语word i 在文档d j 中的出现范围计算全局性权值W global (word ij );
(4)基于关键词初始权值w initial 、标题词权值W title (word ij )、全局性权重值W global (word ij )、TF_IDF权重归一化值tfidf ij_norm 计算得到词语word i 在文档d j
中的总体权值
(5)计算文档d j 所有词语的权重,按照词语的权重大小进行降序排列,将权值排在前k为的词语作为文档d j 的关键词。
2.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述分词采用司法专业词汇标注表,所述的司法专业词汇标注表通过提取法律相关名称词典和专业词库、组合常规词及人工复检的方法构建。
3.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述步骤(2)的具体步骤如下:
(2.1)采集各司法网站的关键词搜索词汇,作为第一词典标注词,并设置该类词典标注词的权重w initial1;
(2.2)统计步骤(1)获取的词语的词频,将词频在设定阈值范围内的词语作为第二词典标注词,并设置该类词典标注词的权重w initial2;
(2.3)将第一词典标注词和第二词典标注词合并,构建关键词词典,如果有重复出现的词典标注词,取较大的权重作为对应词的初始权值w initial 。
4.根据权利要求1所述的一种面向司法文本数据的关键词提取方法,其特征在于:所述TF_IDF权重归一化值tfidf ij_norm 的计算方法如下:
1)设文档集合D ,某个文档的词语表示为d j ={word 1,word 2,...,word N },N表示文档d j 中出现词语的个数,word i 是在文档中出现词语,利用TF_IDF方法计算给初始候选关键词的权
重公式:
其中,tf ij 是指词语word i 在文档d j 中出现的频率;n i ,j 是指词语word i 在文档d j 中出现的次数;∑k n k ,j 是指词语word i 在文档d j 中所有词语的出现次数总和,k表示文档d j 内的词语;idf i 是指词语word i 的逆向文档数,可用中文件数目除以包含该词语的文件的数目,即|D|表示全部文档的文件总数,|{j:word i ∈d j }|表示包含词语word i 的文件数目(n i ,j ≠0的文件数目),θ为常量值;
2)将TF_IDF权重进行归一化处理,
归一化的权值计算公式如下:
权 利 要 求 书1/3页2CN 110059311 A。