大数据环境下信息智能检索系统设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图1 检索模型分类图

检索模型在实际的检索应用中,作为一个四元组而存在,系统根据检索任务及形式不同,自行选择检索模型,再对应其相应的排序算法来进行排序。检索排序主要是根据检索文献中的关键词相关程度进行排序。因此,通常根据检索模型来定义一个权值计算其相关性。假设K表示检索关键词,表示检索文献,那么W≥0为二元组(K,D)的权值,该权值的计算值则为检索文献的相关程度值。假设T表示关键字在文献中出现的数目,那么K={K1,K2,…,KT}是其关键字出现的全部集合。W≥0是表示文献中标有关键词的权值,假如文献中没有出现关键词的权值,那么则W=0。关键词的向D=(W1,W2,…,WT)

标有关键词的权值通常被认为是互相独立的,对于文献中与关键词相关的词语,系统算法会自动将该权值默认成为两个关键词。因此,在两个相近含义的关键词同时出现在同一篇文献中时,它们的权值则会反映出这两者间的关联。经过排序算法进行计算后的数据显然在准确度上更为精确。排序算法可以自动根据检索模型的分类来对不同模型下的文献进行自动排序计算,并将计算结果按照其与关键词的相关程度进行排序显示。在一定程度上提高了检索系统的准确度,同时也为用户的后期筛选带来了便利。

3 大数据下智能检索系统设计

 基本设计原理及可行性分析

大数据环境下的智能检索系统设计核心内容是在原有的智能检索系统基础上优化对关键字进行语义的扩展优化。扩展内容主要包括扩展关键词的同义词以及扩展概念词,扩展

图3 index.asp.net的界面

下面介绍的主要代码。

将新闻按照分类显示,每个新闻类别只显示最新的10条新闻。如果新闻类别较多,则网页会被拉长,给用户阅读带来不便。为了解决这个问题,本实例使用书签来定义新闻类别的位置,书签格式为#a<类别编号>。例如,类别编号为1的新闻类别的书签名称为#al。

(上接第129页)

的互联网检索系统。该系统可以根据检索任务将检索模型进行相应的分类,并根据检索模型进行相应的排序计算,在一定程度上为用户的信息筛选带来了便利。同时其在传统检索系统的基础上,对检索关键词进行了语义扩展,扩大了检索范围,再对检索结果中相关性最大的文献进行核心相关内容的提取。将核心内容设定为原始向量,根据原始向量筛选其他相关文献。在一定程度上提高了检索结构的精确度,为我国互联网的长远发展奠定了基础。

相关文档
最新文档