【CN110110082A】多源异构数据融合优化方法【专利】

合集下载

一种多源异构数据处理方法、装置和存储介质[发明专利]

一种多源异构数据处理方法、装置和存储介质[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910903339.5(22)申请日 2019.09.24(71)申请人 中国电子科技集团公司电子科学研究院地址 100041 北京市石景山区双园路11号申请人 武汉大学(72)发明人 郑作亚 仇林遥 陈旭 呙维 贾向阳 潘一凡 柳罡 李黔湘 鲁续坤 (74)专利代理机构 工业和信息化部电子专利中心 11010代理人 吴淑艳(51)Int.Cl.G06F 16/242(2019.01)G06F 16/28(2019.01)G06F 16/81(2019.01)G06F 16/83(2019.01)G06F 16/838(2019.01)G06F 16/84(2019.01)(54)发明名称一种多源异构数据处理方法、装置和存储介质(57)摘要本发明提出了一种多源异构数据处理方法、装置和存储介质,用以提供一种实现多源数据统一接入和管理。

本发明实施例提供一种多源异构数据处理方法,包括:接收数据源系统上传的结构化数据,所述结构化数据为利用预先定义的可扩展标记语言XML模板对元数据进行处理后得到的;利用XSL文本转换器将所述结构化数据转换为键值对K -V类型数据,所述XSL文本转换器为根据所述XML模板生成的,所述K -V类型数据中包含有混合字段,所述混合字段为利用需要被搜索的字段拼接得到的;从所述K -V类型数据中抽取数据值存储至地理空间关系型数据库中。

权利要求书2页 说明书9页 附图3页CN 110716952 A 2020.01.21C N 110716952A1.一种多源异构数据处理方法,其特征在于,包括:接收数据源系统上传的结构化数据,所述结构化数据为利用预先定义的可扩展标记语言XML模板对元数据进行处理后得到的;利用可扩展样式表语言XSL文本转换器将所述结构化数据转换为键值对K-V类型数据,所述XSL文本转换器为根据所述XML模板生成的,所述K-V类型数据中包含有混合字段,所述混合字段为利用需要被搜索的字段拼接得到的;从所述K-V类型数据中抽取数据值存储至地理空间关系型数据库中。

一种基于深度学习的多源异构数据融合方法

一种基于深度学习的多源异构数据融合方法

一种基于深度学习的多源异构数据融合方法
一种基于深度学习的多源异构数据融合方法
惠国保
【摘要】摘要:在大数据背景下,结合深度学习,讨论了多源异构影像数据融合问题,在数据融合的基本架构基础上,构思了一种泛化性强的多源异构影像数据融合的深度学习模型,将深度学习技术运用到多源异构数据信息提取与挖掘。

【期刊名称】现代导航
【年(卷),期】2017(008)003
【总页数】6
【关键词】深度学习;多源异构数据;数据融合;信息提取
0 引言
在信息化战争中,情报信息非常重要。

随着装备发展,尤其是多源异构传感器性能提升,产生大量多源异质的情报数据[1]。

从这些情报数据中挖掘出战场环境目标特征信息,可用于发现、识别战场目标,也可用于关联、挖掘战场数据以掌握目标活动规律,进而预测其趋势和意图,以构建准确的战场态势图[2]。

战场环境目标的高层特征能提高目标规律挖掘与预测的精度,通过高层特征对战场目标数据印证、匹配、推理,实现战场目标活动趋势和意图的准确预测和判断,所以战场目标高层特征选择技术是世界各国竞相发展的一项重要军事技术。

目标高层特征一般指能高度概括目标特点和属性的深层抽象特征,能对目标近似本质的刻画[3]。

从目标特征获取方式上,手工选取特征由于简单易行得以普遍应用,但是手工选取的目标特征多为浅层特征,特征抽象程度不高,语义表。

一种多源异构数据融合的方法、装置、产品及介质[发明专利]

一种多源异构数据融合的方法、装置、产品及介质[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201911388016.3(22)申请日 2019.12.25(71)申请人 深圳力维智联技术有限公司地址 518057 广东省深圳市南山区粤海街道科苑南路3099号储能大厦六层申请人 南京中兴力维软件有限公司(72)发明人 朱金华 徐明 刘强 王强 陈晓东 曹友盛 (74)专利代理机构 深圳鼎合诚知识产权代理有限公司 44281代理人 彭家恩 彭愿洁(51)Int.Cl.G06K 9/00(2006.01)G06F 16/583(2019.01)G06F 16/51(2019.01)G06F 16/55(2019.01)(54)发明名称一种多源异构数据融合的方法、装置、产品及介质(57)摘要一种多源异构数据融合的方法、装置、产品及介质,包括根据预设时间间隔,获取由第一物联网传感器传输的多张人脸图像,根据多张人脸图像与人口特征库中的人脸特征进行特征匹配,在特征匹配成功时,根据匹配成功的人脸特征获得对应该特定对象的第一真实标签,获取由第二物联网传感器传输的信息,根据所获取的由第二物联网传感器传输的信息所绑定的特定对象的身份信息,获取对应的第二真实标签,第一物理网传感器与第二物理网传感器传输信息的数据格式不同,根据第一真实标签与第二真实标签,将所获取的由第一物联网传感器传输的多张人脸图像与所获取的由第二物联网传感器传输的信息进行融合,实现多源异构数据融合。

权利要求书2页 说明书11页 附图7页CN 111126324 A 2020.05.08C N 111126324A1.一种多源异构数据融合的方法,其特征在于,包括:根据预设时间间隔,获取由第一物联网传感器传输的多张人脸图像;根据所述多张人脸图像与人口特征库中的人脸特征进行特征匹配;在特征匹配成功时,根据匹配成功的人脸特征所对应特定对象的身份信息获得对应该特定对象的第一真实标签;获取由第二物联网传感器传输的信息,其中,所述第二物联网传感器传输的信息绑定特定对象的身份信息,所述第一物理网传感器与第二物理网传感器传输信息的数据格式不同;根据所获取的由第二物联网传感器传输的信息所绑定的特定对象的身份信息,获取对应的第二真实标签;根据所述第一真实标签与第二真实标签,将所获取的由第一物联网传感器传输的多张人脸图像与所获取的由第二物联网传感器传输的信息进行融合。

面向多源异构的数据融合方法、系统、装置及存储介质[发明专利]

面向多源异构的数据融合方法、系统、装置及存储介质[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201911039444.5(22)申请日 2019.10.29(71)申请人 珠海格力电器股份有限公司地址 519000 广东省珠海市前山金鸡西路申请人 珠海联云科技有限公司(72)发明人 寇茜茜 李润静 胡松青 龙富永 张红燕 (74)专利代理机构 北京聿宏知识产权代理有限公司 11372代理人 吴大建 张杰(51)Int.Cl.G06F 16/25(2019.01)G06F 16/215(2019.01)G06K 9/62(2006.01)(54)发明名称面向多源异构的数据融合方法、系统、装置及存储介质(57)摘要本发明提供一种面向多源异构的数据融合方法、系统、装置及存储介质,所述方法包括:采集待融合的业务系统的源数据;对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集;利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据,得到融合数据集。

本发明避免了由于业务系统的维护人员操作不规范、业务系统开发过程中未考虑到与其他业务系统间的关联性、历史数据遗留问题等导致的关联关系不明确,导致业务系统的数据分析无法自动匹配融合的问题。

权利要求书2页 说明书8页 附图4页CN 110750588 A 2020.02.04C N 110750588A1.一种面向多源异构的数据融合方法,其特征在于,包括:采集待融合的业务系统的源数据;对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集;利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据,得到融合数据集;其中,已有的决策树模型是利用历史融合数据集训练得到的。

一种多源异构数据融合方法及其应用研究

一种多源异构数据融合方法及其应用研究

一种多源异构数据融合方法及其应用研究姜建华;洪年松;张广云【期刊名称】《电子设计工程》【年(卷),期】2016(024)012【摘要】针对基于多源数据融合的多用户决策问题,建立了多源异构数据融合模型,研究了基于三角模糊数的异构数据统一量化表示方法,采用有序加权平均算子融入决策者的偏好,设计了一种支持多用户决策的多源异构数据融合算法。

实际应用表明,本文设计的算法能解决多源异构数据在结构和语义上的模糊性、差异性和异构性等问题,通过在数据融合过程中考虑决策者偏好,提高了多用户决策结果的可靠度。

%As to the multi-source data fusion based multi-user decision, a model of multi-source heterogeneous data fusion was designed. Triangular fuzzy number based uniform quantity description of multi-source data was researched. The ordered weight average (OWA) was used to deal with the preference of decision-maker and a data fusion algorithm for decision making was designed. At last, practical application shows the algorithm can solve the problems of semantic ambiguity, difference and heterogeneity of multi-source heterogeneous data, and the reliability of decision results was improved by considering data maker's preference into the process of data fusion.【总页数】4页(P33-36)【作者】姜建华;洪年松;张广云【作者单位】广东科学技术职业学院计算机工程学院,广东珠海 519090;浙江工贸技术职业学院信息传媒学院,浙江温州 325003;广东科学技术职业学院计算机工程学院,广东珠海 519090【正文语种】中文【中图分类】TN01【相关文献】1.一种基于深度学习的多源异构数据融合方法 [J], 惠国保2.Web服务在多源异构农业数据融合上的应用研究 [J], 倪芳;曾辉;卓辉;廖桂平3.一种多源异构数据融合技术在PGIS系统中的研究与应用 [J], 周凯4.基于多源异构数据融合的化工安全风险动态量化评估方法 [J], 刘庆龙;曲秋影;赵东风;刘尚志;王劲5.多源异构房产数据融合的应用研究 [J], 吴国华因版权原因,仅展示原文概要,查看原文内容请购买。

一种多源异构数据融合和量测数据多源互校验方法及系统[发明专利]

一种多源异构数据融合和量测数据多源互校验方法及系统[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202011397370.5(22)申请日 2020.12.04(71)申请人 中国电力科学研究院有限公司地址 100192 北京市海淀区清河小营东路15号(72)发明人 谢琳 张林鹏 李立新 叶瑞丽 张风彬 王岩 卫泽晨 崔灿 李宇佳 李劲松 宫玲琳 冯琼 王淼 门德月 徐鑫 (74)专利代理机构 北京中巡通大知识产权代理有限公司 11703代理人 郭瑶(51)Int.Cl.G06F 16/2458(2019.01)G06F 16/25(2019.01)G06Q 10/06(2012.01)G06Q 50/06(2012.01)(54)发明名称一种多源异构数据融合和量测数据多源互校验方法及系统(57)摘要本发明公开了一种多源异构数据融合和量测数据多源互校验方法及系统,从各调度层级多源业务系统抽取海量量测数据,融合以电网运行设备为中心的模型数据,通过分析不同系统间的数据结构、类型、变化频率等差异,获取多源量测数据时序关联关系及变化趋势特征,利用优化的距离模型进行多源关联分析,实现多源不一致数据的快速研判,基于调控云整合的各级调度量测数据进行全局范围综合分析,解决了由于各区域调度分析局部数据造成的异常数据检出率不高的问题,从整体上提升了电网调度数据质量,为实现电网一体化特征的数据采集、融合、校验、修正的全链路闭环管理提供技术支持。

权利要求书3页 说明书7页 附图1页CN 112199421 A 2021.01.08C N 112199421A1.一种多源异构数据融合和量测数据多源互校验方法,其特征在于,包括以下步骤:对多源量测数据进行融合;基于融合结果,对量测数据进行时序关系分析与特征提取;根据提取的特征,计算多源关联分析与偏差量化指标;基于偏差量化指标,进行量测多源一致性校验。

2.根据权利要求1所述的多源异构数据融合和量测数据多源互校验方法,其特征在于,对多源量测数据进行融合,包括:从消息总线获取的量测报文,按照电力调度数据对象结构化设计进行数据解析,得到多源量测数据;依据HBase数据存储结构,进行Rowkey区分,并按年份和电力调度数据对象维度分表存储量测数据;数据获取通过运行在Hadoop集群上的Spark分布式计算引擎,将HBase中存储的量测数据加载到集群内存中进行多源量测数据融合。

一种异构多源数据融合系统[发明专利]

一种异构多源数据融合系统[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202110078550.5(22)申请日 2021.01.21(66)本国优先权数据202011454364.9 2020.12.10 CN(71)申请人 太极计算机股份有限公司地址 100102 北京市朝阳区容达路7号中国电科太极信息产业园(72)发明人 吕翊 黄海峰 韩国权 李佳忆 (74)专利代理机构 北京智桥联合知识产权代理事务所(普通合伙) 11560代理人 金光恩(51)Int.Cl.G06F 16/215(2019.01)G06F 16/25(2019.01)G06F 16/22(2019.01)G06F 11/14(2006.01) (54)发明名称一种异构多源数据融合系统(57)摘要本发明公开了一种异构多源数据融合系统,包括:数据源装置,数据集成装置,数据存储与处理装置及统一资源服务装置;其中通过数据集成装置对于多源数据的清理和转换,数据存储处理模块中对于查询和索引模块中对索引数据的保存,对副本的备份和访问时间的设置等,有效地提高了异构多源数据系统的可靠性,同时通过负载迁移的设置和自动恢复模块等在保障异构多源数据融合系统被可靠访问的同时,满足了用户快速访问的需求。

权利要求书1页 说明书7页 附图2页CN 112395281 A 2021.02.23C N 112395281A1.一种异构多源数据融合系统,其特征在于,所述系统包括:数据源装置,数据集成装置,数据存储与处理装置及统一资源服务装置,所述装置,通过通信线路相互连接;所述数据源装置,用于对数据进行采集,通过系统日志和网络数据采集获取结构化和非结构化的多源数据;所述数据源装置包括数据校验模块,所述数据校验模块,对接收数据和发送数据做一致性的校验;所述数据集成装置,用于对数据源装置的多源数据进行预处理,从中抽取具有价值的数据,并对采集数据进行清洗转换,以适应数据的存储要求;所述数据存储与处理装置,用于大数据存储与管理,并进行数据调用;对数据类型按照数据热度分为在线,近线,离线数据三种类型,对于近线数据响应时间设置在100ms以内,对于在线数据的响应时间设置在30ms以内,对于离线数据响应时间设置在1s以内;所述数据存储与处理装置,包括分布式索引和查询单元,所述分布式索引和查询单元,用于将索引数据切分后,采用hash函数的映射的方式,将数据分布到不同的存储节点;所述数据存储与处理装置,将同一存储节点的数据以2个副本的形式保存到不同的节点上,一个副本在同机架的其他节点上,另外一个副本在其他机架的节点上,其中一个副本仅起数据备份作用,不接受查询请求;所述统一资源服务装置,用于为用户使用数据提供不同的应用接口,以与各种应用的需求对接。

多源异构数据融合系统及方法[发明专利]

多源异构数据融合系统及方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201711273802.X(22)申请日 2017.12.06(71)申请人 中国南方航空股份有限公司地址 510000 广东省广州市黄埔区玉岩路12号冠昊科技园区一期办公楼三楼301室(72)发明人 彭向晖 黄文强 卢春 邱文辉 黄瑞辉 (74)专利代理机构 厦门致群专利代理事务所(普通合伙) 35224代理人 刘兆庆 陆庆红(51)Int.Cl.G06F 17/30(2006.01)G06Q 30/02(2012.01)G06Q 50/30(2012.01)(54)发明名称多源异构数据融合系统及方法(57)摘要本发明公开了一种多源异构数据融合系统,其包括数据源层、计算层、数据层及分析层。

计算层包括内存计算框架、流计算框架、数据仓库、数据挖掘引擎、分布式计算框架及文件系统;数据层包括SQL系统、NoSQL系统及缓存系统,分析层用于包括语义层及OLAP引擎。

本发明还公开了一种多源异构数据融合方法,包括:S1、对航空公司官网进行改造,获取代表用户唯一身份的用户拉链表;S2、获取多源异构数据,对多源异构数据进行融合,并以单一用户的数据方式存储在大数据平台上;S3、应用支持:利用融合后的多源异构数据形成用户画像;将形成的用户画像采用NOSQL的表示形式存储到大数据平台上面。

本发明实现了多源异构数据的融合,为航空公司的科学决策提供支持。

权利要求书2页 说明书4页 附图1页CN 108021670 A 2018.05.11C N 108021670A1.多源异构数据融合系统,用于航空业的多源异构数据融合,其特征在于,包括:数据源层,所述数据源层用于获取各异构数据源的集合,其获取的数据源包括结构化数据、非结构化数据及实时流数据;计算层,所述计算层用于对所述数据源的收集、清洗、存储及计算,其包括内存计算框架、流计算框架、数据仓库、数据挖掘引擎、分布式计算框架及文件系统;所述内存计算框架用于实现基于内存的数据计算,所述流计算框架用于对于航空PNR 数据的实时接收以及计算,所述数据仓库用于存储结构化后的网站浏览相关数据,所述数据挖掘引擎用于用户的模型建立和计算,用于对于整个大数据平台的资源管理,所述文件系统用于整个平台底层的数据文件存储;数据层,所述数据层用于实现存储数据访问,其包括SQL系统、NoSQL系统及缓存系统;所述SQL系统用于实现关系型数据库的存储和搜索,所述NoSQL系统用于非关系型数据库的存储和搜索,所述缓存系统用于基于缓存的数据存储和计算;分析层,所述分析层用于实现对用户关联后的数据分析及画像刻画,其包括语义层及OLAP引擎;所述语义层用于实现基于分析后和业务场景进行报表的开发和展示,所述OLAP 引擎用于实现对于数据分析的联机分析处理。

多源异构数据融合汇聚方法[发明专利]

多源异构数据融合汇聚方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010761729.6(22)申请日 2020.07.31(71)申请人 珠海市新德汇信息技术有限公司地址 519000 广东省珠海市高新区唐家湾镇科技三路19号1栋(72)发明人 龚波 苏学武 水军 刘怀春 唐飞 李天琪 (74)专利代理机构 广东朗乾律师事务所 44291代理人 闫有幸(51)Int.Cl.G06F 16/25(2019.01)G06F 16/215(2019.01)G06Q 50/26(2012.01)(54)发明名称多源异构数据融合汇聚方法(57)摘要一种多源异构数据融合汇聚方法,通过对不同数据源的访问方式进行归纳总结,对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口;为包装后的数据接口生成配置文件,用于配置数据接口访问规则;根据要求配置数据抽取规则,通过主机的资源使用率选择利用率低的主机执行数据抽取任务;根据配置的规则对数据进行进一步处理,符合侦查情报特色需求;将抽取处理后的数据发送到中间库进行数据去重处理;最后将处理后的数据汇聚到目标库中,根据指定时间内来源数据源数据总量和目标数据源总量是否一致,确定数据抽取任务是否执行成功。

权利要求书2页 说明书5页 附图1页CN 111897863 A 2020.11.06C N 111897863A1.一种多源异构数据融合汇聚方法,其特征在于,包括以下具体步骤:S1、分类归纳数据源类型,其中包括关系性数据源,非关系性数据源,文件类数据源,关系性数据源;S2、对访问方式相近的数据源进行统一包装,将数量繁多的数据源包装为少量具有统一访问方式的数据源访问接口,访问接口分为关系型数据接口、非关系型数据接口、文件型数据接口、实时队列数据接口四大类接口插件;S3、根据不同类型接口访问方式,对外提供相关配置信息,包括数据源的地址、数据源账密、数据格式、数据处理方式、任务名;S4、定义数据抽取的时间规则,规则包括时间规则和抽取规则,时间规则包括年,月,周,日,时,分,秒;抽取规则包括增量抽取、全量抽取、实时抽取;S5、根据配置文件和数据抽取规则生成数据抽取任务;S6、数据抽取任务在所有部署数据源接口插件的主机的列表内,选择资源利用率最低的主机来执行数据抽取任务;S7、数据抽取任务抽取的数据需要先抽取到中间库S8、数据抽取到中间库的过程中,数据抽取任务根据数据主键确定数据是否唯一存在;S9、数据抽取任务发现本条数据不唯一,对上一条重复数据的版本号修改为数据插入时间和主键组合的唯一值;S10、数据抽取任务发现本条数据不重复,则直接插入本条数据,将数据的版本号标记为01,同时记录数据插入时间;S11、将中间库中不同来源的数据抽取到目标库中,并将版本不为01的数据抽取到目标库对应的历史数据表中;S12、根据数据抽取任务的开始时间和截止时间统计来源数据的数据总量和目标数据的数据总量,根据数据总量确定数据抽取任务是否执行成功。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910294678.8
(22)申请日 2019.04.12
(71)申请人 黄红梅
地址 510610 广东省广州市天河区沾益直
街1号
申请人 何卓华 谢新屋
(72)发明人 黄红梅 何卓华 谢新屋 
(74)专利代理机构 北京联瑞联丰知识产权代理
事务所(普通合伙) 11411
代理人 张学府
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/903(2019.01)
(54)发明名称
多源异构数据融合优化方法
(57)摘要
本发明公开了一种多源异构数据融合优化
方法,包括如下步骤:A)对数据实例、类别和属性
进行提取和分析,建立词库和短文本库;B)从互
联网获取多源异构数据;C)对多源异构数据进行
规范化处理,生成短文本;短文本有多个词构成,
规范化处理包括分词和去除停用词;D)将短文本
作为待匹配短文本,将待匹配短文本与短文本库
中存储的短文本进行匹配,得到短文本匹配结
果;E )根据短文本匹配结果对数据进行融合,建
立大数据内容模型,得到数据融合结果;F )对数
据融合结果进行评价,得到评价结果;评价结果
包括优、良、中和差。

本发明能建立完整性、准确
性和一致性较强的高质量的大数据知识库。

权利要求书2页 说明书5页 附图1页CN 110110082 A 2019.08.09
C N 110110082
A
1.一种多源异构数据融合优化方法,其特征在于,包括如下步骤:
A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;
B)从互联网获取多源异构数据;
C)对所述多源异构数据进行规范化处理,生成短文本;所述短文本由多个词构成,所述规范化处理包括分词和去除停用词;
D)将所述短文本作为待匹配短文本,将所述待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;
E)根据所述短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;
F)对所述数据融合结果进行评价,得到评价结果;所述评价结果包括优、良、中和差。

2.根据权利要求1所述的多源异构数据融合优化方法,其特征在于,所述步骤D)进一步包括:
D1)计算所述待匹配短文本与短文本库中的短文本之间的字符匹配因子;
D2)计算所述待匹配短文本与短文本库中的短文本之间的词匹配因子;
D3)根据所述字符匹配因子和词匹配因子,对所述待匹配短文本与短文本库中的短文本进行匹配,计算短文本匹配因子。

3.根据权利要求2所述的多源异构数据融合优化方法,其特征在于,所述字符匹配因子
采用如下公式进行计算:
其中,F 1表示所述字符匹配因子,c 1表示所述待匹配短文本包含的字符数,c 2表示所述短文本库中的短文本包含的字符数,p表示匹配的字符数,h表示换位的数目。

4.根据权利要求3所述的多源异构数据融合优化方法,其特征在于,所述词匹配因子采
用如下公式进行计算:
其中,F 2表示所述词匹配因子,n表示维数较高短文本向量的维数,σ表示修正因子,σ∈
[0.9,1.3],用于修正增加词带来的误差,A i 为所述待匹配短文本中的第i个词,B i 为短文本库中的短文本中的第i个词。

5.根据权利要求4所述的多源异构数据融合优化方法,其特征在于,所述短文本匹配因
子采用如下公式进行计算:
其中,Y表示短文本的匹配因子;设定匹配阈值Y 0,若Y≥Y 0,则说明所述待匹配短文本与短文本库中的短文本相匹配,若Y<Y 0,则说明所述待匹配短文本与短文本库中的短文本不匹配。

6.根据权利要求5所述的多源异构数据融合优化方法,其特征在于,所述步骤E)具体
权 利 要 求 书1/2页2CN 110110082 A。

相关文档
最新文档