知识发现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
知识发现:知识发现是从各种信息中,根据不同的需求获得知识的过程。
知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有效的、新颖的、潜在有用的知识,直接向使用者报告。
刘江玲通过《面向大数据的知识发现系统研究》,基于如何有效利用大量结构化、半结构化和非结构化的复杂数据这一问题,以图书馆等信息机构的服务系统为例,介绍了知识发现系统的功能架构和模型。
其功能主要是知识挖掘和数据分析,对数字化的信息进行处理分析,将不同知识点间的关联关系揭示出来,结合应用数据挖掘、学习和推理技术,通过人机交互与用户交互实现自动化、智能化深入分析,展现大量数据中潜在的信息。
设计遵循系统开发基本原则的模型,实现整合资源、发现知识及推送成果的功能目标。
把得到的各种形式的信息经过分类处理转化成数据集,通过知识挖掘、索引规则等方法建立数字化信息之间的联系,发现用户需要的或潜在的知识,总结其中的规律,运用技术手段进行匹配,实现信息资源的挖掘关联和升值。
赵洪等人在《基于大规模政府公文智能处理的知识发现及应用研究》一文中针对政府公文智能处理和知识发现问题做了研究,利用词汇特征和神经网络分类器方法对公文进行分类和解析,构建面向政府公文的轻量级,采用Autoencoder 神经网络训练特征权重,实现公文的主题自动标引处理。
通过注意力机制的神经网络模型产生自动摘要,并加入强化训练效果,结合公文中提炼的重要内容,基于多维度指标,实现公文的优先级排序。
处理时,采用卷积Bi-LSTM-CRF 循环神经网络模型对政策/政令/行政执法文书中的知识进行抽取,通过Bi-LSTM 的语义角色分析方法对政令分析,并转化为概念图与抽取信息语义进行相似度计算,匹配责任对象。
以公文资源智能管理、公文关系推演发现和公文任务权责定位为框架构建了政府公文知识发现系统,并且对具体公文的知识发现实例进行了分析。
王春雷等人在《基于知识发现的网络安全态势感知系统》中,介绍了由于网络安全告警数据的复杂性和多样性,导致难以精确地分析和评估网络安全态势等网络安全告警系统中存在的问题,提出了一种基于知识发现的网络安全态势建模与生成框架。
建模阶段把收到的事件转化成可被处理的数据,经过精简、过滤等处理,采用D-S证据理论实现告警事件的置信度分析;生成阶段通过频繁模式挖掘、序列模式挖掘等知识发现的方法,对安全警告事件分析和学习,提取关联
规则,由此生成了网络安全态势算法。
文中还介绍了基于此模型开发了网络安全态势生成引擎,进行了网络安全态势建模和生成的实验分析。
李楠等人的《基于关联数据的知识发现应用体系研究》提出了如何实现关联数据和知识发现的相互促进发展,从关联数据角度扩展知识发现,使用知识发现的方法促进关联数据的应用研究。
从基本定义、应用发展、应用基础框架以及潜力和挑战介绍了关联数据的标准和现状。
做了关联数据的知识发现应用问题体系的分析和知识发现与关联数据研究相融合的应用体系模型。
曲建升等人在《知识发现中异构信息标准化处理研究》中针对多源异构数据的异构性导致用户很难通过统一的标准对数据进行处理,提出了将文献数据进行格式提取,实现异构数据的集成。
他从类型和格式两方面研究了具体领域异构信息的标准化处理模式,以及如何构建异构文献处理框架,实现具有标准化处理接口的服务。
提出了根据研究内容的设定不同的知识提取模板,并加入空间分析、统计分析数据时,并对提取的数据进行标准化和计量学角度的集成,并且对提取的信息进行数据值和数据单位的二次规范化处理。
对异构数据的集成研究提出了本体的异构数据集成方法—在拟构建的文献综合集成系统中需加入一个学科知识本体,此外针对研究领域的具体设立相对的指标,进行标准化,曲建升对资源环境领域数据进行了地理空间、时间单位和属性提取的标准化
在刘红煦的《文献综合集成模式下领域知识发现流程研究》中,提出了面向多学科领域的知识发现,以解决不同学科间的信息服务。
采用Meta分析作为知识发现的基本研究方法,对领域文献及其基本特征进行统计聚类及发现。
分析了基于文献综合集成的领域知识发现系统的数据采集、本体表示、知识提取、数据集成、知识发现及可视化呈现流程。
其中在数据集成流程中,嵌入Meta分析策略,采用单个效应量修正、效应量的描述统计与合并等方法对提取的知识进行效应值合并,实现异构信息统计分析。
数据集成采用了Meta的统计分析与检验策略。
韩朝等人在《基于粗糙集知识发现的开放领域中文问答检索》基于信息检索的开放领域问答系统中中文语言表达有大量不确定性的问题,提出了一种基于粗糙集知识发现的中文问答检索方法,利用粗糙集的属性约简方法和上近似概念从已标注的问答语料库中发现并表示知识利用获得的粗糙集问答知识结合传统的
句子相似度方法对问句和候选句进行匹配度计算。
文章简要介绍了粗糙集的概念,利用不同的句子集合判定词的标记的训练获得划分规则和问句,将候选句划分入正、负匹配句集从而实现粗糙集的问答系统知识发现和表达。
基于粗糙集问答知识的问答检索,用传统的向量化模型得到句子向量后用余弦相似度计算。
这种知识表达方式既可以存储【问句-答案】知识,也可以存储语言表达知识,还可以从多个正、负匹配句中挖掘出潜在的问答句语言表达信息。
赵斌等人在《访问控制中基于粗糙集的授权规则知识发现》针对基于信任的访问控制信任与权限的映射问题,将成功交互的实体的授权信息作为用于知识发现的数据决策信息表,结合访问控制的授权规则,采用粗糙集理论对决策信息表进行分析,通过数据分类对数据决策信息表中的条件属性约简形成属性约简表,以授权规则中涉及的主要属性作为知识发现的条件属性,以授权规则中目标属性作为决策属性,文章提出了基于粗糙集的授权规则的知识发现方法,实现授权规则中的属性约简、知识规则的提取。
提出了面向开放式网络环境基于信任的访问控制中基于粗糙集的授权规则的知识发现。
该方法是在原有授权规则的基础上对决策信息表内授权的规则再次进行约简,将多余的信息去除求出每一实体对象的核值,以核值为出发点,判断是否是最小约简,根据最小约简得出尽可能小的授权决策规则,达到提高授权算法执行效率的目的。
郑存芳等人在《数据偏序结构关系中的知识发现可视化方法》针对决策模式信息表,提出一种属性偏序决策图方法。
该方法在将决策问题转化为决策模式信息表的基础上,通过研究对象的属性特征,将其表现在可视化图形上,介绍了属性偏序结构图的原理、生成算法及应用实例。
属性偏序决策图通过属性的聚类完成事物的聚类,并以直观图形的形式进行表示,从中发现事物之间相区别的属性,从而达到提取事物共同特征的目的。
并通过一个医学诊断的实例介绍属性偏序决策图的具体使用方法,并验证其规则提取的有效性。
牛娇娇等人在《基于概念格的异构数据知识发现方法》中基于概念格来研究异构决策形式背景的知识发现问题。
定义了异构形式背景并在此基础上提出异构决策形式背景,分析了异构形式背景的概念格构造,并讨论了异构决策形式背景的规则提取问题,最终给出了挖掘非冗余决策规则的有效算法。
给出了对异构数据的分析方法但时间复杂度较大,对大规模数据处理效率不高。
强宇在《模糊概念格在知识发现的应用及一种构造算法》基于有限L-背景的模糊格在扩展和时空复杂度上有局限的问题。
定义了广义的模糊概念格和其上的截运算,提出了一种模糊格构造算法,简化了格构造。
在概念格结点级上定义了两个模糊参数以避免提取因高偏差导致的无效规则。
通过实例说明了从模糊概念格提取不确定规则、计算规则支持度、置信度的原则、方法。
构造算法与Godin 算法的对比实验。
闵波等人在《构建基于文献信息网络的知识发现系统应用模型的设想》通过潜在的关联挖掘来推断出新的科学假设。
利用复杂网络的方法对文献集进行文本挖掘,探讨了关联知识的图结构组织对文献知识发现的重要作用。
揭示了非相关文献中的隐含知识,并构建了文献信息网络的知识发现应用模型。
基于文本知识中存在隐性关联,把文本抽象为数据集,构建信息网络,提取关联信息,形成网络知识库。
高劲松在《基于关联数据的知识发现模型构建研究》,通过分析关联数据应用于知识发现的可行性与优势,对比关联数据集和知识集的特征,提出了基于关联数据的知识发现过程金字塔。
构建了基于关联数据的知识发现模型,并以关联数据可视化工具gFacet为例进行实例分析。
为开放网络环境下的知识发现提供新的研究范式与方案,能够实现关联数据环境下的知识抽取,从而构建新环境下的创新性知识。
樊凤杰在《方剂配伍规律的可视化表示方法与知识发现》中针对数据挖掘方法在方剂配伍规律研究领域的应用问题,基于形式概念分析理论,提出一种偏序结构图分层表示的方剂配伍知识可视化方法。
实现了挖掘方法的频次、聚类和关联分析。
汪建基在《碎片化知识处理与网络化人工智能》中针对互联网时代大量碎片化知识的处理和应用问题,分析了传统人工智能方法面对大规模碎片化知识处理时存在的问题,讨论了碎片化知识处理组织与学习的基本结构,提出了网络化人工智能的概念,介绍了大数据演化规律的公式发现方法,提出了群智网络拓扑表征以及从机器学习到机器推理等问题。
李俊在《关联数据的知识发现研究》中针对大量信息、海量数据的难以充分高效利用问题。
描述了W3C和LOD社区总结出的9条发布和提供数据服务的最
佳实践。
提出基于关联数据进行知识发现的模型,并对模型中每一阶段的工作和目标进行详细介绍。
构建了适用于不同学科领域的关联数据模型,使得各领域用户在开发利用关联数据的过程中具有统一的使用模式,满足不同用户对隐藏在数据背后知识同样的需求。
曹志杰在《共词分析法用于文献隐性关联知识发现研究》中,针对科技文献中经常出现某些有价值关联被忽略的问题,提出了基于共词分析的隐性关联知识发现方法, 用于发现这些尚未被发现的联系或显现这些被主观隐藏的特定联系, 揭示出技术发展动向, 以提高情报研究质量,实现了信息、知识、数据的充分利用。