07领域目标知识图谱系统
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
领域目标知识图谱系统
1.简介
领域目标知识图谱既可以理解为一种技术,也可以是一种成果。知识图谱最初是由谷歌提出用来优化搜索引擎的技术。随着近年来的不断发展,知识图谱应用于人工智能的多种场景,例如语音助手、聊天机器人、智能问答等。人工智能可以划分为感知智能(主要对图片、视频、语音的能力的探究)和认知智能(涉及知识推理、因果分析等)。知识图谱是认知智能领域中主要的技术之一。
知识图谱图谱分为通用知识图谱和领域知识图谱。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等业务场景。通用知识图谱强调的是广度,数据不一且多来自于互联网,很难形成完整的全局性的针对本体层的统一管理。在越来越多的垂直领域中,知识图谱也被广泛应用,已经成为基础数据服务,为上层智能应用提供数据支撑。
领域目标知识图谱针对企业或者政府机构现存数据可用性差,无法自动提取有价值知识或者资源的问题,提供一种通过数据智能清洗、智能融合、数据可视化等技术将数据转化为知识或者资源的方式。在知识图谱构建技术中,领域内知识表示建模、实体识别与实体链接、关系事件抽取、隐形关系发现为领域目标知识图谱研究的方向。
2.提供功能
1.基础数据管理及数据采集
一方面通过分布式爬虫技术爬取互联网公开数据源,包括新闻、微信公众号、微博、移动客户端、贴吧、论坛等公开数据源信息,存储到数据仓库中。另一方面也可以使用业务方直接提供的数据接口。
2.数据整理与数据清洗
将采集的数据进行标准化的清洗,可以根据智能比对完成数据的查漏补缺。也可以人工清洗采集数据。最终将清洗后的数据按照统一标准格式存储到泛目标库当中。
3.数据融合
数据融合分为智能自动融合和手动融合。智能自动融合是对同一目标的多条记录进行属性合并和信息合并,使多条杂乱的数据融合成一条相对完整的融合目标,并对目标与目标之间建立关联。手动融合是将相似度较高但机器无法百分百判定是同一目标的记录,采取人工稽核的方式进行手动融合。
4.专题图谱构建
根据用户实际需求可针对某一行业或某一领域的积累的大量数据,通过清洗和融合后梳理成为相对完成的知识网络专题图谱,并以数据可视化的手段进行展示,提供用户方便快捷的获取该领域的知识。
3.系统特点
(1)系统灵活、易扩展
开发了一套灵活性高、扩展性强的数据转化及导入工具。可在短时间内,根据用户现有数据的格式、特点开发转换插件,支持各类结构化、非结构化、文件等格式的数据导入。
(2)完整的数据处理周期
通过采集、清洗、提取/加工、融合、关联、分析等步骤,涵盖了数据转化为知识的各个环节,为用户真正将数据转化为资产和知识提供了一套完整的解决方案。
4.技术指标
(1)提供针对结构化、半结构化、非结构化、文件等多种数据格式的转化导入方式。
(2)命名实体识别准确率在90%以上,且可根据需要,提取用户指定的元数据。
(3)系统具备较高的灵活性和可扩展性。
(4)提供自动发现相似目标、自动发现关联目标的功能;提供手动融合、自动融合两种数据融合方式。
(5)可伸缩性。具备根据需求和数据量变化,扩充(或缩减)系统规模的能力。
(6)可扩展性。能够随需求变化,增加、删除、修改系统功能。
(7)可靠性和可用性。针对系统关键数据,根据需要可提供冗余备份支持。根据应用需要可提供双机或集群备份机制,以应对高负载和单点失效。
(8)安全性。具有完善的身份认证和授权功能,具备基于日志的安全审计能力;具备符合应用需要的高敏感数据存储安全和传输安全保障策略。
5.应用领域
1)分散数据整合
企业,政府(各行业)现存数据以“烟囱”式分布,横向关联性小,耦合度低,无法从整体视角,全面快速分析关键问题,无法发挥数据应有的价值。
2)数据标准化
没有完整的数据治理体系,企业级数据治理体系和整合机制不健全,没有定义企业统一标准数据字典,数据标准规范未及时更新,与现状不符。
3) 数据智能化
数据发现,数据清洗和融合停留在人工化,传统化的层面,无法以智能的方式将数据价值展现出来。
4)数据全局图谱构建
未对企业数据进行全局监控,海量企业数据散布于各业务中,无法及时掌握企业数据变
化。