【CN110134781A】一种金融文本摘要自动抽取方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910281459.6
(22)申请日 2019.04.09
(71)申请人 国金涌富资产管理有限公司
地址 201304 上海市浦东新区书院镇船山
街148号138室
(72)发明人 蔡青林
(74)专利代理机构 杭州求是专利事务所有限公
司 33200
代理人 刘静 邱启旺
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 17/27(2006.01)
(54)发明名称
一种金融文本摘要自动抽取方法
(57)摘要
本发明公开了一种金融文本摘要自动抽取
方法,首先利用TF_ISF方法抽取语句关键词属
性,然后抽取语句的情感属性以及计算语句的主
题相关性,通过加权打分评价语句在情感摘要的
重要程度,最后根据相似性度量方法过滤摘要语
句候选集,生成最终的情感摘要。本发明可自动
抽取金融文本的情感摘要,在智能投顾等金融科
技领域具有较大的应用价值,如自动抽取和汇总
海量研报数据中蕴含的金融机构分析师观点,对
大类资产配置具有重要的指导作用。权利要求书2页 说明书4页 附图1页CN 110134781 A 2019.08.16
C N 110134781
A
1.一种金融文本摘要自动抽取方法,其特征在于,包括以下步骤:
(1)数据预处理,具体包括以下子步骤:
(1.1)依次读取金融文本语料库的每个文本d i;
(1.2)读取停用词典,删除文本d i中所有停用词;
(1.3)读取金融词汇本体,对d i内容的每个句子分词,生成分词语句,对d i的标题分词,生成分词标题;
(2)情感关键句抽取,具体包括以下子步骤:
(2.1)对于每个词汇w i,依次统计文本d i中包含w i的语句数目;
(2.2)依次计算d i中每个语句s i的关键词属性分值key(s i);
(2.3)读取情感词典,依次匹配语句s i中的每个情感词,获得其情感倾向性和情感强度值,计算s i的情感属性分值sent(s i);
(2.4)读取同义词典,依次计算语句s i与标题t的相同词数目和同义词数目,计算语句s i 的主题相关度分值corr(s i,t);
(2.5)根据语句s i的关键词属性分值key(s i)、情感属性分值sent(s i)、主题相关度分值corr(s i,t)计算s i的情感打分score(s i);
(3)自动摘要抽取,具体包括以下子步骤:
(3.1)根据情感打分将d i的所有语句从高到低排序,抽取前K个语句组合为候选摘要cand_abs;
(3.2)计算cand_abs中每两个语句的相似度,若大于阈值,则将情感分值较低的语句从cand_abs删除;
(3.3)将cand_abs的剩余语句按照在原始文本d i中出现的先后顺序排序,生成最终摘要cand并输出。
2.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.2包括以下子步骤:
(2.2.1)依次统计每个词汇w i在s i的词频,计算w i的TF-ISF分值,并计算语句s i的TF-ISF 累积分值TFISF(s i);
(2.2.2)读取指示性词语表,统计语句s i中所有指示性词语数目ind(s i),计算语句s i的关键词属性分值key(s i)=TFISF(s i)·ind(s i)。
3.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.3中,
s i
的情感属性分值其中ori(ew i,k)为语句s i中第k个情
感词的情感倾向性,cont(ew i,k)为语句s i中第k个情感词的情感强度值,n为语句s i中的情感词数目。
4.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.4中,
语句s i
的主题相关度分值其中sam(s i,t)为语句s i与标题t的
相同词数目,syn(s i,t)为语句s i与标题t的同义词数目。
5.根据权利要求1所述一种金融文本摘要自动抽取方法,其特征在于,所述步骤2.5中,语句s i的情感打分score(s i)=key(s i)·sent(s i)·corr(s i,t)。
权 利 要 求 书1/2页
2
CN 110134781 A