【CN110110082A】多源异构数据融合优化方法【专利】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910294678.8

(22)申请日 2019.04.12

(71)申请人 黄红梅

地址 510610 广东省广州市天河区沾益直

街1号

申请人 何卓华 谢新屋

(72)发明人 黄红梅 何卓华 谢新屋 

(74)专利代理机构 北京联瑞联丰知识产权代理

事务所(普通合伙) 11411

代理人 张学府

(51)Int.Cl.

G06F 16/35(2019.01)

G06F 16/903(2019.01)

(54)发明名称

多源异构数据融合优化方法

(57)摘要

本发明公开了一种多源异构数据融合优化

方法,包括如下步骤:A)对数据实例、类别和属性

进行提取和分析,建立词库和短文本库;B)从互

联网获取多源异构数据;C)对多源异构数据进行

规范化处理,生成短文本;短文本有多个词构成,

规范化处理包括分词和去除停用词;D)将短文本

作为待匹配短文本,将待匹配短文本与短文本库

中存储的短文本进行匹配,得到短文本匹配结

果;E )根据短文本匹配结果对数据进行融合,建

立大数据内容模型,得到数据融合结果;F )对数

据融合结果进行评价,得到评价结果;评价结果

包括优、良、中和差。本发明能建立完整性、准确

性和一致性较强的高质量的大数据知识库。权利要求书2页 说明书5页 附图1页CN 110110082 A 2019.08.09

C N 110110082

A

1.一种多源异构数据融合优化方法,其特征在于,包括如下步骤:

A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;

B)从互联网获取多源异构数据;

C)对所述多源异构数据进行规范化处理,生成短文本;所述短文本由多个词构成,所述规范化处理包括分词和去除停用词;

D)将所述短文本作为待匹配短文本,将所述待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;

E)根据所述短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;

F)对所述数据融合结果进行评价,得到评价结果;所述评价结果包括优、良、中和差。

2.根据权利要求1所述的多源异构数据融合优化方法,其特征在于,所述步骤D)进一步包括:

D1)计算所述待匹配短文本与短文本库中的短文本之间的字符匹配因子;

D2)计算所述待匹配短文本与短文本库中的短文本之间的词匹配因子;

D3)根据所述字符匹配因子和词匹配因子,对所述待匹配短文本与短文本库中的短文本进行匹配,计算短文本匹配因子。

3.根据权利要求2所述的多源异构数据融合优化方法,其特征在于,所述字符匹配因子

采用如下公式进行计算:

其中,F 1表示所述字符匹配因子,c 1表示所述待匹配短文本包含的字符数,c 2表示所述短文本库中的短文本包含的字符数,p表示匹配的字符数,h表示换位的数目。

4.根据权利要求3所述的多源异构数据融合优化方法,其特征在于,所述词匹配因子采

用如下公式进行计算:

其中,F 2表示所述词匹配因子,n表示维数较高短文本向量的维数,σ表示修正因子,σ∈

[0.9,1.3],用于修正增加词带来的误差,A i 为所述待匹配短文本中的第i个词,B i 为短文本库中的短文本中的第i个词。

5.根据权利要求4所述的多源异构数据融合优化方法,其特征在于,所述短文本匹配因

子采用如下公式进行计算:

其中,Y表示短文本的匹配因子;设定匹配阈值Y 0,若Y≥Y 0,则说明所述待匹配短文本与短文本库中的短文本相匹配,若Y<Y 0,则说明所述待匹配短文本与短文本库中的短文本不匹配。

6.根据权利要求5所述的多源异构数据融合优化方法,其特征在于,所述步骤E)具体

权 利 要 求 书1/2页2CN 110110082 A

相关文档
最新文档