基于知识库系统的智能搜索引擎研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于知识库系统的智能搜索引擎研究
作者:胡风华王磊
来源:《中国新技术新产品》2011年第18期
摘要:本文对智能化搜索引擎进行了分析及综合评价.在此基础上,着重讨论了知识库系统以及它在智能搜索引擎中的应用。
关键词:搜索引擎;知识库系统
中图分类号:TP18文献标识码:B
1 引言
随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具,用以在浩瀚的网站页面的海洋中迅速地找到自己所需的信息。从用户的角度来看,当前的搜索引擎主要存在信息检索质量不高、检索方式单一、个性化服务问题、搜索引擎对信息的标引深度不够、信息收集与检索的分离等几个方面的不足。
2 智能搜索引擎功能特点
智能搜索引擎的人机接口和网络蜘蛛高度智能化,可跨平台工作、处理多种混合文档、支持多种语言搜索,并能根据用户的兴趣、爱好、特性、定题需求,不断实时推荐、推送相关的信息、知识,定制个性化页面等,表现出较大的智能性、主动性、交互性、人性化特征。使其用户范围从具有良好信息检索素质的专业人士,扩展为无任何检索技能背景的普通用户。
2.1 智能型的自然语言技术
智能型的自然语言技术包括"自然语言搜索"和"动态关联词、联想词提示"技术。内建完整的"布尔逻辑运算组合"的搜索条件和"邻近搜索"功能,配合"智能型快速响应模式",有效提高搜索速度和精确度。用户可灵活选择欲搜索的数据库,配合"中文同音"、"中英文近似概念"、简繁转换"、通配字符搜索"、词组搜索"和"多字段平行检索"等多项智能搜索功能,从而更加高效、便捷获取有用信息。
2.2 灵活的检索机制
提供多重模板设计功能,可按照用户自身需求轻松修改搜索结果的显示画面;并可依据不同的搜索方式,套用可获得不同的搜索结果的模板文件。提供"机动权值排序机制"、"阶层式分类目录"、"动态关联词、联想词提示"等功能,向用户提供更友好的搜索界面,增加搜索结果的适用性。
2.3 强大的索引功能
采用"多线式资料获取机制"、 "平行索引模式"、 "动态文件分析技术"及"实时差异式索引更新技术"等多种功能,有效提高文件与数据库的索引速度,大幅降低索引等候时间和更新周期。提供"多重索引数据库"架构及"群组式分类目录"功能,缩短资料索引时间,灵活整合文档资料。
3知识库系统的原理
3.1 知识的定义
知识是人类对客观世界的认识,通常知识是先由底层数据经过分类、归纳、综合等处理过程而得到的上层信息,这种信息再经过解释、比较、推理得到我们所获取的知识,这种过程主要是在语义的层面来进行的。
3.2 知识的类型:过程型知识、描述型知识和元知识。
3.3 知识的表示
知识表示是指知识在计算机内部的存储和组织,是数据结构和解释过程的结合。数据结构用于知识的形式化描述,而解释过程则用来说明知识的现实含义。知识的表示方法主要有一阶谓词逻辑表示法、产生式表示法、语义网络表示法和面向对象的知识表示方法等。
3.3.1 一阶谓词逻辑表示法
谓词的一般形式为P(x1,x2,…,xn),其中,P是谓词;x1,x2,…,xn是个体(常量、变元或函数)。谓词逻辑适用于表示事物的状态、属性、概念等事实性的知识,也可以用来表示事物间确定的因果关系,即规则。例如:"书在课桌上"可以描述成:ON(book,desk)。谓词逻辑是一种形式语言,是目前能够表达人类思维活动的一种最精确的语言,它与人类的自然语言比较接近,因此一阶谓词逻辑表示方法是最早使用的一种知识表示方法。它具有简单、自然、精确、灵活、容易实现等优点。
3.3.2 产生式表示法
产生式表示法又称为产生式规则表示法它是依据人类大脑记忆模式中各种知识之间的大量存在的因果关系,以"IF-THEN"的形式,即产生式规则表示出来的。它的基本结构包括前提和结论两部分:前提(IF部分)描述状态,结论(THEN部分)描述在状态存在的条件下所做的某些动作:
前提状态→结论动作或 IF状态THEN动作
整个产生式的含义是:如果前提被满足,则可推出结论或执行所规定的操作。产生式表示法具有自然性好,便于推理的优点,且有利于对知识的增加、删除和修改。另外,产生式表示法既可以表示确定性知识,又可以表示不确定性知识;既有利于表示启发式知识,又可方便地表示过程性知识;既可表示领域知识,又可表示元知识。但是产生式表示法不能表达具有结构性的知识,工作效率不高;而且在求解复杂问题时容易引起组合爆炸。
3.3.3 语义网络表示法
语义网络是一种通过概念及其语义关系来表示知识的一种网络图。一个语义网络就是一个带有标志的有向图。其中,有向图的节点表示各种事物、概念、动作、状态、属性等;有向弧表示它所连接的节点间的某种语义联系,每个节点可以包含若干个属性。语义网络表示法具有灵活、自然、易于实现、善于表示结构性知识等优点。语义网络表示法的局限性主要表现在它对知识表示的非严格性,这使得有可能存在二义性,而且存在知识处理的复杂性。
3.3.4 面向对象的知识表示方法
按照面向对象方法学的观点,一个对象的形式可定义为四元组〈对象〉::=(ID,DS,MS,MI)。其中ID代表对象标志符,DS代表数据结构,MS代表方法集合,MI代表消息接口。这种方法可以将知识抽象为对象的内部状态和静态特征属性进行封装和隐藏,而知识的处理方法表示为对内
部状态和特征属性的操作,并由消息接口与外界发生联系。
3.4 知识库
知识库是关于某一领域的陈述性知识、过程性知识和策略性知识的集合。知识库中不但包含了大量的简单事实,还包含了规则、过程型知识和策略性知识。从存储知识的角度来看,以描述型方法来存储和管理知识的机构叫做知识库。从使用知识的角度来看,知识库是由知识和知识处理机构组成。
3.5 知识库系统
3.5.1 知识库系统的体系结构
知识库系统包括知识的获得、利用和管理三个方面。知识库、推理机及存贮器是知识库系统的三个组成要素。知识库系统的核心组成部分是知识库和推理机构。
3.5.2 推理机构
利用知识,解释输入的数据或事实,推导出用户所需的结论;并根据要求,说明得出结论的依据,用于进行这种推理控制的模块称为推理机构。推理机构应具备以下四个功能:
(1)知识库中新知识的获取功能。