【CN110110082A】多源异构数据融合优化方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910294678.8
(22)申请日 2019.04.12
(71)申请人 黄红梅
地址 510610 广东省广州市天河区沾益直
街1号
申请人 何卓华 谢新屋
(72)发明人 黄红梅 何卓华 谢新屋
(74)专利代理机构 北京联瑞联丰知识产权代理
事务所(普通合伙) 11411
代理人 张学府
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/903(2019.01)
(54)发明名称
多源异构数据融合优化方法
(57)摘要
本发明公开了一种多源异构数据融合优化
方法,包括如下步骤:A)对数据实例、类别和属性
进行提取和分析,建立词库和短文本库;B)从互
联网获取多源异构数据;C)对多源异构数据进行
规范化处理,生成短文本;短文本有多个词构成,
规范化处理包括分词和去除停用词;D)将短文本
作为待匹配短文本,将待匹配短文本与短文本库
中存储的短文本进行匹配,得到短文本匹配结
果;E )根据短文本匹配结果对数据进行融合,建
立大数据内容模型,得到数据融合结果;F )对数
据融合结果进行评价,得到评价结果;评价结果
包括优、良、中和差。本发明能建立完整性、准确
性和一致性较强的高质量的大数据知识库。权利要求书2页 说明书5页 附图1页CN 110110082 A 2019.08.09
C N 110110082
A
1.一种多源异构数据融合优化方法,其特征在于,包括如下步骤:
A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;
B)从互联网获取多源异构数据;
C)对所述多源异构数据进行规范化处理,生成短文本;所述短文本由多个词构成,所述规范化处理包括分词和去除停用词;
D)将所述短文本作为待匹配短文本,将所述待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;
E)根据所述短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;
F)对所述数据融合结果进行评价,得到评价结果;所述评价结果包括优、良、中和差。
2.根据权利要求1所述的多源异构数据融合优化方法,其特征在于,所述步骤D)进一步包括:
D1)计算所述待匹配短文本与短文本库中的短文本之间的字符匹配因子;
D2)计算所述待匹配短文本与短文本库中的短文本之间的词匹配因子;
D3)根据所述字符匹配因子和词匹配因子,对所述待匹配短文本与短文本库中的短文本进行匹配,计算短文本匹配因子。
3.根据权利要求2所述的多源异构数据融合优化方法,其特征在于,所述字符匹配因子
采用如下公式进行计算:
其中,F 1表示所述字符匹配因子,c 1表示所述待匹配短文本包含的字符数,c 2表示所述短文本库中的短文本包含的字符数,p表示匹配的字符数,h表示换位的数目。
4.根据权利要求3所述的多源异构数据融合优化方法,其特征在于,所述词匹配因子采
用如下公式进行计算:
其中,F 2表示所述词匹配因子,n表示维数较高短文本向量的维数,σ表示修正因子,σ∈
[0.9,1.3],用于修正增加词带来的误差,A i 为所述待匹配短文本中的第i个词,B i 为短文本库中的短文本中的第i个词。
5.根据权利要求4所述的多源异构数据融合优化方法,其特征在于,所述短文本匹配因
子采用如下公式进行计算:
其中,Y表示短文本的匹配因子;设定匹配阈值Y 0,若Y≥Y 0,则说明所述待匹配短文本与短文本库中的短文本相匹配,若Y<Y 0,则说明所述待匹配短文本与短文本库中的短文本不匹配。
6.根据权利要求5所述的多源异构数据融合优化方法,其特征在于,所述步骤E)具体
权 利 要 求 书1/2页2CN 110110082 A