【CN110134781A】一种金融文本摘要自动抽取方法【专利】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910281459.6

(22)申请日 2019.04.09

(71)申请人 国金涌富资产管理有限公司

地址 201304 上海市浦东新区书院镇船山

街148号138室

(72)发明人 蔡青林 

(74)专利代理机构 杭州求是专利事务所有限公

司 33200

代理人 刘静 邱启旺

(51)Int.Cl.

G06F 16/34(2019.01)

G06F 17/27(2006.01)

(54)发明名称

一种金融文本摘要自动抽取方法

(57)摘要

本发明公开了一种金融文本摘要自动抽取

方法,首先利用TF_ISF方法抽取语句关键词属

性,然后抽取语句的情感属性以及计算语句的主

题相关性,通过加权打分评价语句在情感摘要的

重要程度,最后根据相似性度量方法过滤摘要语

句候选集,生成最终的情感摘要。本发明可自动

抽取金融文本的情感摘要,在智能投顾等金融科

技领域具有较大的应用价值,如自动抽取和汇总

海量研报数据中蕴含的金融机构分析师观点,对

大类资产配置具有重要的指导作用。权利要求书2页 说明书4页 附图1页CN 110134781 A 2019.08.16

C N 110134781

A

1.一种金融文本摘要自动抽取方法,其特征在于,包括以下步骤:

(1)数据预处理,具体包括以下子步骤:

(1.1)依次读取金融文本语料库的每个文本d i;

(1.2)读取停用词典,删除文本d i中所有停用词;

(1.3)读取金融词汇本体,对d i内容的每个句子分词,生成分词语句,对d i的标题分词,生成分词标题;

(2)情感关键句抽取,具体包括以下子步骤:

(2.1)对于每个词汇w i,依次统计文本d i中包含w i的语句数目;

(2.2)依次计算d i中每个语句s i的关键词属性分值key(s i);

(2.3)读取情感词典,依次匹配语句s i中的每个情感词,获得其情感倾向性和情感强度值,计算s i的情感属性分值sent(s i);

(2.4)读取同义词典,依次计算语句s i与标题t的相同词数目和同义词数目,计算语句s i 的主题相关度分值corr(s i,t);

(2.5)根据语句s i的关键词属性分值key(s i)、情感属性分值sent(s i)、主题相关度分值corr(s i,t)计算s i的情感打分score(s i);

(3)自动摘要抽取,具体包括以下子步骤:

(3.1)根据情感打分将d i的所有语句从高到低排序,抽取前K个语句组合为候选摘要cand_abs;

(3.2)计算cand_abs中每两个语句的相似度,若大于阈值,则将情感分值较低的语句从cand_abs删除;

(3.3)将cand_abs的剩余语句按照在原始文本d i中出现的先后顺序排序,生成最终摘要cand并输出。

2.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.2包括以下子步骤:

(2.2.1)依次统计每个词汇w i在s i的词频,计算w i的TF-ISF分值,并计算语句s i的TF-ISF 累积分值TFISF(s i);

(2.2.2)读取指示性词语表,统计语句s i中所有指示性词语数目ind(s i),计算语句s i的关键词属性分值key(s i)=TFISF(s i)·ind(s i)。

3.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.3中,

s i

的情感属性分值其中ori(ew i,k)为语句s i中第k个情

感词的情感倾向性,cont(ew i,k)为语句s i中第k个情感词的情感强度值,n为语句s i中的情感词数目。

4.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.4中,

语句s i

的主题相关度分值其中sam(s i,t)为语句s i与标题t的

相同词数目,syn(s i,t)为语句s i与标题t的同义词数目。

5.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.5中,语句s i的情感打分score(s i)=key(s i)·sent(s i)·corr(s i,t)。

权 利 要 求 书1/2页

2

CN 110134781 A

相关文档
最新文档