基于网格的面向专业内容的Web信息检索体系结构

合集下载

基于 Web 的信息检索技术综述

基于 Web 的信息检索技术综述

互独立的,但在实际环境中很难得到满足。因此,为了考虑
词与词之间的相关性,处理自然语言的语义模糊性,从而产
生了潜在语义分析的思想。潜在语义分析(Latent Semantic Analysis, LSA)[3]是一种通过分析大量的文本集自动生成关
键字-概念(语义)之间映射规则的方法。LSA 认为词语在文
1 传统的信息检索模型
传统的信息检索的目的是根据用户的查询即关键词从大 量的文本中找到满足用户要求的相关文本,其中心问题是判 别相关文本和无关文本。检索模型即是判断文本是否与查询 相关和对相关文本进行排序的数学模型。根据相关度判别方 法的不同,发展出了不同的信息检索模型,传统的信息检索 模型大体可以分为 3 类:布尔模型,向量空间模型和概率推 断模型。
蒋 凯,武港山
(南京大学计算机软件新技术国家重点实验室,南京大学计算机科学与技术系,南京 210093)
摘 要:随着信息技术的发展,特别是 Web 的不断普及和应用,Web 上的信息飞速增长,形成了巨大的信息资源。因此,如何从巨量的 信息中快速有效地提取出所需的信息,成为迫切需要解决的问题。文章分别介绍了几种传统的信息检索模型和基于潜在语义分析的信息检 索模型,以及自动问答系统,并在多方面对它们进行比较,最后展望了问答系统的应用前景。 关键词:信息检索;潜在语义分析;自动问答
个最大的奇异值及其对应的奇异矢量构成新矩阵来近似表示
—8—
原文本集的词条-文本矩阵。从某种意义上来说,LSA/SVD 是一种用于发掘一组相互无关的索引变量(因素)的技术, 从而使每个词-文本都可以利用左-右奇异值向量,表现为单 个 k 维空间向量,并可以消弱噪音、词语使用多样性等对信 息检索的影响。直观地说,因 k 值比文本集中词条 m 小得多, 词义上地细微区别被忽略了。以下是具体做法:

Web 信息检索 课程教学大纲

Web 信息检索 课程教学大纲

Web信息检索课程教学大纲一、课程的基本信息适应对象:信息工程专业课程代码:39D01827学时分配:36赋予学分:2先修课程:计算机网络、信号与系统后续课程:二、课程性质与任务《Web信息检索》是信息工程专业的选修课程,也是一门应用性较强的课程。

本课程通过讲授信息文献查找的基本知识和治学入门的必备知识,培养学生的信息意识和信息查找能力,让学生掌握检索理论、检索语言、检索策略、检索服务等基本知识,结合网络信息技术培养学生的信息获取、信息分析和信息加工能力,综合提升学生的信息素质,顺应时代趋势。

让学生学会使用现代Web技术高效率地进行信息检索,提高学生综合获取和利用文献信息的能力,使学生真正成为学习的主人,去主动获取信息,积极创新。

三、教学目的与要求1 要求学生了解和掌握信息检索的基本概念、基本原理和研究方法。

2 要求学生了解信息检索的几种数学模型:集合论检索模型、代数论检索模型、概率论检索模型。

3 要求学生了解计算机检索系统的构成。

4 要求学生了解和掌握文本信息的几种检索方法:布尔检索、向量空间检索、概率检索,了解文本信息的自动化处理方法。

5 要求学生了解和掌握多媒体信息的几种检索方法:基于文本的多媒体信息检索;基于内容的多媒体信息检索;基于XML的多媒体信息检索。

6 要求学生了解搜索引擎的概念、特点、分类及基本原理。

7 要求学生了解和掌握信息检索的基本方法,了解信息检索的评价方法。

8 要求学生了解常用的数据库及国际联机检索服务系统与网络搜索引擎服务系统及其使用方法。

四、教学内容与安排 1 信息检索概述课时安排:2学时主要教学内容:(1)信息检索的基本概念和基本原理;(2)信息检索的研究对象与研究方法;(3)信息检索的发展历史。

2 信息检索的数学模型课时安排:4学时主要教学内容:(1)信息检索系统的形式化表示;(2)集合论检索模型;(3)代数论检索模型;(4)概率论检索模型。

3 信息检索系统及其构成课时安排:4学时主要教学内容:(1)计算机检索系统的硬件结构和软件体系;(2)计算机检索系统的数据库;(3)计算机检索系统的通讯网络。

Web信息检索技术研究

Web信息检索技术研究

Web信息检索技术研究随着互联网技术的快速发展,网络上的信息呈现出爆炸性增长的趋势。

而人们在不同的时间和场合需要找到这些信息。

因此,Web信息检索技术的研究越来越日益受到关注。

Web信息检索技术是指在互联网上通过搜索引擎等方式查找信息的过程。

而搜索引擎技术又是其中重要的部分,其主要应用在通过查询关键字来获取网络上的信息,并能够提供相关性排序结果的过程中。

Web信息检索技术主要包括三个阶段:网页的抓取、网页的索引和用户查询的处理。

一、网页的抓取网页的抓取是指通过网络爬虫程序从互联网上抓取网页的过程。

而网络爬虫程序的核心是其算法,可以根据不同的需求进行调整和优化。

它的主要作用是从互联网上收集网页,然后将其汇总起来,形成一个可供查询的网页库。

二、网页的索引网页的索引是指将抓取到的网页进行分类、标识和整理的过程。

由于互联网上的信息量太大,所以需要将其结构化,以便进行管理和查询。

同时,索引还需要进行去重和过滤,可以考虑在语义上的相似性进行处理,以避免信息的重复性出现。

三、用户查询的处理用户查询是指用户在搜索引擎中输入的关键字或查询语句,搜索引擎通过相应的算法匹配索引库中的网页,然后提供相关型排序结果。

在这个过程中,需要考虑的问题包括如何识别查询词、如何将查询语句转化成可以处理的格式、如何组织查询结果以及如何做出相应的排名。

针对Web信息检索技术的研究,可以从以下几个方面进行深入探讨:1.语义化检索技术的研究对于传统的基于关键字的检索方法,存在“词义异构”、“多义词”、“未登录词”的问题,导致检索结果的准确性和完整性受到很大的影响。

而语义化检索技术则可以有效地解决这些问题。

语义化检索技术将语义信息融入到检索过程中,能够更准确地识别用户的查询意图。

基于语义的Web信息检索技术很有前景,但面临许多挑战,如大规模的语料库获取、语言多样性等。

2.个性化搜索技术的研究个性化搜索技术是指在给定用户的历史查询记录、用户可能感兴趣的信息和其他相关特征的基础上,提供个性化的搜索结果。

文献信息检索系统的构成要素

文献信息检索系统的构成要素

文献信息检索系统的构成要素
文献信息检索系统的构成要素包括以下几个方面:
1. 用户接口:包括查询界面、搜索框、菜单栏等,用户通过接口与系统进行交互,输入查询请求并获取检索结果。

2. 数据库:储存各类文献信息的数据库,包括论文、期刊、图书等,以及相关的元数据信息,如作者、标题、关键词、摘要等。

3. 检索算法:根据用户输入的查询条件,在数据库中进行检索并返回相关的文献结果。

常用的检索算法包括布尔检索、向量空间模型、文本分类、语义检索等。

4. 统计分析功能:对用户的查询行为和结果进行统计分析,如查询频次、热门查询词、相关文献推荐等,以提供更精准的检索结果和个性化的搜索推荐。

5. 用户管理:包括用户注册、登录、个人信息管理等功能,以及权限管理和安全控制,确保用户的信息和隐私安全。

6. 推荐系统:根据用户的历史查询记录、兴趣偏好等信息,向用户推荐相关的文献,提高用户的检索效率和满意度。

7. 全文索引:为了提高检索速度,系统通常会对文献进行全文索引,通过建立倒排索引等技术,提供更快速、精确的检索服务。

以上是构成文献信息检索系统的主要要素,不同的系统可能会有些差异,具体的系统构成还需要根据实际情况进行调整和设计。

基于网格的信息检索系统体系结构研究

基于网格的信息检索系统体系结构研究
息” ,要 求 “ 分 匹配”或 “ 部 最佳 匹配 ” ,而不是 “ 精确 匹
11 人 机 交互层 . 提供用户 与 WeI bR系统 的惟 一接 口。通 过 这一 接 口, 信 用户向 Wel b R系统发 出查询请求 、接受系统 的服务 。
12 服 务 器管理层 ‘ .
息 化 与
g1,ma t at h eilyadt cr aae et fh bRss . i I g ie n n n m,t fx it n es ut m ngm n t WeI t el bi h e i y o e ye m
cl bl saa it, tef xbl , tesc r n i y h e iit h e ui ma ̄ l i y y t n ds n. ta o n o
Байду номын сангаас
ppr ae m a sn ae m k gc pro s o i
bq  ̄n te s se ac i tr G' w y tm rht u  ̄ t eW e I sse a d t eGr l s s m hc a n d a tg s s c s te h c e h b R yt m h i R y t w ih h sma y a v a e 。 u h a n d e n h
档子集 S 。既 WeI bR的过程 对应 于一 个映 射中:C q 一 s (,) 。
与典型的数 据 库 系统 不 同,We 息 检索 的处 理 对 象是 b信 “ 文档资 源 ” :如 无 结 构 的平 文 档 、半 结构 化 的文 档 ( 如 H M 、X L文档 )或结构化 的多媒体 的信息 ;We 信 息检 TL M b 索的服务对象是 “ 用户” ,文档集合相对静止 ,用户查 询请 求却是动态变化 的 ;信息检 索的处理 目标是 “ 现相关 信 发

基于网格技术的分布式信息检索模型的研究

基于网格技术的分布式信息检索模型的研究
中 图分 类 号 :P 3 . T 388 文 献标 识 码 : A
Re e r h o i c ni ue f r Dit i ut d I f r a i n Se r h M o e s a c n Gr d Te h q o s rb e n o m to a c dl
0 引 言
信 息 网络 系统 中的数 据 资源 各 种 各样 , 示 、 表 存 储 的形 式也 各 不相 同 。一 些数 据 可 能 以 文件 形 式 存
( aaG i) D t r 的概念 来 自于 网格 ( r ) 它 通过 其关 键 d Gi , d
供元数据 目录服务 , 并在此基础上提 出了单一数据访 问接 口, 而实现 网格环境下统一 的数据 访 问。 最后 基 于该设 计思 从
想 提 出 了一 种 分 布 式 异 构 信 息检 索模 型 。
关键词 : 数据 网格 ; 元数据模 型 ; D P; L A 元数据 目录服务 ; 数据统一访 问;分布式信息检 索
包 勇 飞 , 晓冬 万
( 南京航空航天大学 自动化学院 , 苏 南京 20 1 ) 江 10 6
摘 要 : 着 网 上 信 息 数 量 和 种 类 的 增 加 , 统 的 集 中式信 息检 索 方 式 已 经 不 能 满 足 广 大 用 户 的 需 求 , 布 式信 息 检 索 技 随 传 分 术 日益 成 为研 究 的 热 点 。如 何 有 效地 定 位 、 问 、 览数 据 是 异 构 广 域 网 络 中急 需 解 决 的 问题 , 据 网 格 技 术 是 解 决 此 访 浏 数 问题 的 有 效 手段 之 一 。通 过 运 用虚 拟 化 的元 数 据 模 型 与 L A ( ih egt i c r A cs Po c1 D P Lg t ih D r t y ces rt o)目录服 务 相 结合 , w e o o 提

文献检索课程报告题目

文献检索课程报告题目

91237 91238 91239 91240 91241 91242 91243 91244 91245 91246 91247 91248 91249 91250 91251 91252 91253 91254 91255 91256 91257 91258 理工01 理工02 理工03 理工04 理工05 理工06 理工07 理工08 理工09 理工10 理工11 理工12 理工13 理工14 理工15 专升本01 专升本02 专升本03 专升本04 专升本05 专升本06 专升本07 专升本08 专升本09 专升本10
91201 91202 91203 91204 91205 91206 91207 91208 91209 91210 91211 91212 91213 91214 91215 91216 91217 91218 91219 91220 91221 91222 91223 91224 91225 91226 91227 91228 91229 91230 91231 91232 91233 91234 91235 91236
专升本11 贺晓波
面向主题的搜索引擎的设计与实现 基于vega技术的地下虚拟现实系统研究与实现 基于java的手机模拟系统 矿业权数据库导入导出工具设计与实现 基于Web的矿业权信息发布查询系统设计与实现 基于遗传算法的K-Means空间聚类 K-means算法中的k值优化问题研究 基于空间散乱点的三角剖分算法研究 基于粒子群优化算法的聚类分析 基于变长编码的遗传K均值算法研究 基于空间离散点的曲面重构
学号
91147 91148 91149 91150 91151 91152 91153
彩色图象滤波器设计 场景文本的提取与识别 多机器人编队问题研究 基于FPGA的8位计算机硬件设计与实现 机器人路径规划研究 汽车牌照模式识别 毕业生就业信息网站的构建与实现

基于网格的快速有效Web信息检索体系结构的设计

基于网格的快速有效Web信息检索体系结构的设计
维普资讯
经 銮速
WL AV的优势 结合运H 剑不 良数据 辨识中。 由于采用 了量测量突 j 变检测法 ,所以能有效避免残差淹 没,残 差污染及异解现象,为不 良数据的辨识奠定了良好的基础 。仿真 实验表 明权 函数用于不 良数 据 辨 识 的效 果 是 比较 理 想 的 。 此 方 法 电不 可避 免 的存 在 某 些 缺 点和 不足,有待进一步的研究和改善。@
法。
地理位置 上分布 的集群系统组成,这些集样 系统构成 了 个分l 的 布 检索群体 ,作为信息共亨的平 台,并负责整个集群范围内的信息管
理 ,维 护 和 查询 。
关键词: We ; b 网格计算:集群系统 : X ;g n ML e t A 中图分类号:T 3 11 文献标识码 : B P 1 1
A b ta t h s fgr o p t g c u t n y t s d n X L s r c : e u e o i c m u i . l ser g s s em ba e o M T d n i
t c n l g t d sg a e h o o y o e i n gr i d,i s bl o p e d t a e i t s a Ba e o t e r s d n h c n e t f e er e e s n o ma in e s n b y eln ig o h o t n o h t og n ou if t r a o a l b o g n t t e r o
or a i a in a d ma a e e ts r c u e o e n o m a i n r t e al nz t n n g m n tu t r fa W b i f r t e r v g o o i s se y t m T p o ie u e s wi a f s , e f i n a c s t t e o r vd s t r h at fi e t c e s o h c if r a i n t e e d nom t h yn e o

基于网格的面向专业内容的Web信息检索体系结构

基于网格的面向专业内容的Web信息检索体系结构

(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;
(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;
(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;
集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。
参考文献:
[1] 洪学海,许卓群,丁文魁. 网格计算技术及应用综述[J]. 计算机科学,2003,30(8):1-5.
[2] 孟小峰. Web数据管理研究综述[J]. 计算机研究与发展,2001,38(4):385-395.
[3] 叶修洪,陈根才. 基于XML的电子数据交换的研究和实现[J]. 计算机应用研究,2000,17(12):25-27.
(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。
目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。

信息检索中的Web搜索引擎算法探索

信息检索中的Web搜索引擎算法探索

信息检索中的Web搜索引擎算法探索随着互联网的迅速发展,人们在日常生活中越来越依赖搜索引擎来获取所需的信息。

对于搜索引擎来说,它的算法是其核心之一,直接决定了搜索结果的质量和相关性。

因此,对于信息检索中的Web搜索引擎算法进行探索就显得非常重要。

搜索引擎算法由数学、信息学和计算机科学的原理和方法组成。

这些算法旨在将用户的查询与索引中的网页进行匹配,并以某种方式将最相关的结果展示给用户。

本文将探讨几种常见的搜索引擎算法,以及它们如何工作。

一种常见的搜索引擎算法是基于关键词的搜索算法。

该算法通过识别用户查询中的关键词,并将其与网页的关键词匹配进行比较。

它使用一系列规则和权重来确定网页的相关性,然后按照相关性的程度对搜索结果进行排序。

这种算法的优势在于简单有效,但它可能无法解决查询含义模糊或多义性的问题。

为了解决查询含义模糊或多义性的问题,出现了基于语义的搜索算法。

这种算法使用自然语言处理和语义分析技术,以理解用户查询的语义,而不仅仅是关键词。

它通过理解用户查询的意图,将其与网页的内容进行匹配,并根据相关性对搜索结果进行排序。

基于语义的搜索算法可以更好地满足用户的需求,但它要求对自然语言的理解和语义分析有更高的要求。

另一种常见的搜索引擎算法是PageRank算法。

这个算法由Google创始人之一拉里·佩奇提出,并成为了Google搜索引擎的核心算法之一。

PageRank算法通过分析网页之间的链接关系,以及链接的权重和质量,来评估网页的重要性和相关性。

它认为一个被其他重要网页链接的网页也会具有一定的重要性。

因此,PageRank算法将重要的网页排在搜索结果的前面。

这个算法的优势在于较好地解决了垃圾网页和链接 farm 的问题,增加了搜索结果的质量和可靠性。

除了PageRank算法,还有一种被广泛应用的算法是TF-IDF算法。

这个算法用于评估文档中的单词的重要性和相关性。

TF-IDF的全称是词频-逆文档频率,它通过计算一个词在文档中的频率和在整个文档集合中的频率,来确定该词在文档中的重要性。

基于Web技术的信息检索与分析

基于Web技术的信息检索与分析

基于Web技术的信息检索与分析在当今的信息时代,信息的快速获取和准确分析,已经成为了人们日常工作和生活中最为重要的要素之一。

而基于Web技术的信息检索与分析,已经逐渐成为了一种非常流行和高效的方式。

本文将从Web技术的基础入手,介绍其在信息检索与分析中的应用,并且通过实例分析的方式,展示了其在实际操作中的优势和不足之处。

一、Web技术的基础Web技术是指基于互联网的一种应用技术。

它是由一系列的技术组合而成,包括HTML、CSS、JavaScript、AJAX等等。

其中,HTML作为Web技术的基础,是所有Web技术中最为基本的构造语言。

它的功能在于定义网页的结构和内容,而CSS则主要用来控制网页的布局和样式,JavaScript用来实现网页的动态效果和交互行为,AJAX则可以实现网页的异步加载,提高用户的浏览体验。

二、Web技术在信息检索中的应用1. 搜索引擎搜索引擎是指基于Web技术的一种信息检索工具。

它通过Web技术中的爬虫程序,抓取网络上的信息,并将其建立成一个存储在数据库中的索引。

同时,搜索引擎还具有智能化的查询功能,可以根据用户的查询关键词,在索引库中寻找相关的信息,并返回给用户最符合其需求的结果。

常见的搜索引擎包括谷歌、百度、搜狗等等。

2. 数据挖掘数据挖掘是一种基于Web技术的信息分析方法。

它通过利用Web技术中的爬虫程序和Web服务技术,对大量的Web数据进行收集和分析,并找出其中存在的规律和关联。

同时,数据挖掘还可以对数据集进行可视化处理,使数据之间的关系更加直观和清晰。

数据挖掘在商业、医疗等领域中得到广泛的应用。

三、Web技术在信息检索中的实例分析在这里,我们将以谷歌搜索引擎和豆瓣网为例,展示Web技术在信息检索与分析领域中的应用。

1. 谷歌搜索引擎谷歌作为全球最大的搜索引擎,其成功的背后离不开Web技术的支持。

其主要特点如下:1)基于大数据技术,建立了全球最大的索引库。

2)通过智能化的搜索算法和人工智能技术,精准地匹配用户需求。

WEB信息检索综述

WEB信息检索综述
B信 息检索综述
张 培 宾
( 州航 空 工业 管理 学院 图书馆 , 南 郑 州 4 0 1 ) 郑 河 5 05 摘 要: 本文对 目前 比较 常用的几种 We 信 息检 索工具及 其功能进行 了 绍 , b 从检 索工具 、 索技 巧和发晨, 检 劳荨兄个另回进行 了 分 析 , 对 We 息 检 索 的发 展 趋 势 进 行 了分析 和 预 测 。 并 b信 关键 词 : }信 息检 索 ; 索 工具 ; 索技 巧 we 】 检 检 2 b信息 检 索 的一 些 关键 技 术 。2 .基 于 内容 的 检索 技 术 。 . We 2 .1 2 1概述 因特网上丰富多彩的 We b信息资源给人们带来 _巨大的便利, r 每 We b是一个分布式的、 全球性 的数字图书馆模型 , 它的 U L相当于地 R 常因 U L会变动而导致搜索的返 回结果 R 天上网浏览新闻, 收发邮件 , 检索相关资料等几乎成 了人们每 日必需的 址的文件标识器。而现实中 , 道:作餐 。不论是哪种类型的网络信息, I : 一般 情况下 , 我们不知道其 变得无用。另一种代替 U L来定位搜索 目标 的方法是基于内容的方 R 它是一个包含关键词的表, 可作为检索 目标 网页的查询条件。这种 在网上存储的地址, 也尢法记住那么多内容的地址 。另外 , 其他一些媒 法 , 体如图像 、 音频和视频也大量存在。We b是一个非常大的 、 非结构化且 查询 称 为基 于 内容 的 寻址 , 要查 询 。它 的优点 是 , 或概 当一个 目标 网页 基于内容的寻址定位也不会改变 , 从而仍然可以得出正确的检 无处不在的数据库, 这就需要有效的T具来管理 、 检索和从数据库 中筛 移动时 , 互联网上存在着多种格式的文档 , 除了文本之外还 选信息。为了有效地查询和利用网上信息 , 人们开发 了各种 We b信息 索结果。另~方面, 音频、 视频。 『 人f使用搜索引擎式基本上都是进行文本搜索, 1 对 检 索 系统 , 索 引擎 (erhE g e ) 是 一类 能 自动 搜索 , 织 有图像 、 即搜 Sac n i s。它 n 组 We 信息 资源 , 供检 索服 务的信 息服 务系统 。 b 并提 多媒体内容 的检索技术 尚不成熟 。就此问题 目前提 出了基于内容的图 We b信息检索的基本形式有三种。 第一种搜索引擎 , 它标引一部分 像检索技术 ,其1 作原理是 ,由机器 自动提取包含图像 内容的可视特 二 网络 文献作 为 一个 全 文数 据库 ; 二 种 是 We 第 b目录 , 按 主题 来 对所 征 : 它 颜色 、 纹理 、 形状 、 对象的位置和相互关系等。对数据库中的对象和 检索与样本相似的图像。2 . .2 2 选的 We, t文献进行分类 ; 三种还没有完全成熟 , 第 却利用超链接结构 查询样本图像在特征空间进行相似匹配 , 自 然语言处理技术。 自然语言处理长期以来一直是人工智能的一个核 来检 索 网络 。 人 1 实现 We . 1 b信息检索的条件 。实现 We 信息检索必须具备 包 心研 究 领域 。比较 基础 的技 术有 自动分 词 、 名和机 构名 的 自动 识别技 b 资源, 信息处理干信息传输这j大条件。 u 其中, 信息资源指对各种信息进 术 、 自动标引技术等, 其它像信息抽取 、 自动文摘 、 文档 自动分类 、 中文 行分类 , ,l , , 汇总 力1 组织 按照客观事物的相互关联建立起来 的有序结 概念词的 自动发现以及概念词之间的语义关系的确定等复杂技术也都 工 构 ; 处理 指利 用计算 机信 息 进行 的~ 系列筛 选 , 信息 反馈 , 匹配 , 算 等 必不可少。 计 应用了这些技术的搜索引擎我们称之为智能搜索引擎。 实现 语义理解 、 知识管理和知识检索 。 其中, 加]操作 ; 息传输指人和计算机借助通信 网络进行的信息传递和交 智能搜索的过程主要分三部分 : : 瞧 流。 因此, 信息经济学专家提出: “ 信息网络是现代通信 网, 算 机网和信 知识库是实现智能搜索的基础和核心。.3 l } 1 2 .集成搜索引擎技术。 2 这种技 息资源网的综合 , 现代通信 , 电子计算机 , 信息资源( 息内容 ) 信 三者互相 术是将搜索引擎系统建立在多个现有的搜索引擎之上,提供对这些引 渗透 , 连接 , 合而形 成的全方 位的服 务网络 。 联 这 种网络按 不 同途 径发 擎进行统一访 问的服务 。 集成搜索引擎 自己并不维护所有文件的索引。 但是 , 了提供 更好 的服 务 , 个 复杂 的集成 搜索 引 擎通 常会维 护一 些 为 一 展, 往信息资源开发 , 利用和共享这个方向下趋向三网合一” 。 1 面 临的主要 难题 。主要 有两类 : 本 身 的问题 和用 户及其 检 关于底层搜索引擎内容 的信息。当向集成搜索引擎提 【查询以后 , . 2 数据 叶 I 它能 索系统交互的问题。 数据的分布. 数据分布在许多计算机和平台上。 将该 查询分 送 到适 当 的底层 搜索 引擎 ,再搜 集 和整 理底 层引擎 返 回的 a I 生: 网络 互联 的有 效带 宽及其 可靠 I经 常发生变 化 。. 定数据 的大 量存 结果 。 多个 搜索 引擎组 合在 一起 , 查询 的 网络 覆盖 面将 比任何单 个 生 b 不稳 将 可 在 : B资源经 常更 新 , 致要 处理 大量 空链接 和重 新 定位 的 问题 。C 搜索引擎都要大很多。由一个建立在多个专题搜索引擎基础之上的集 WE 导 . 非结构和冗余数据: 由于网络的共享性, 许多网络资非常相似或有大量 成搜索引擎代替综合引擎 ,可以解决存 We 上搜索的可扩展性 问题。 b 的镜像存存。不同的资源有着不同的概念模型 , 缺乏一致 } . 生。d 异构数 此外 ,集成搜索引擎还可以方便对多个引擎的查询 ,提高检索的有效 据: 全球文献 巾有各种语种 , 如扣丁语系和汉语等 , 而且不能简单地通 性。 .4 2 .数据挖掘技术与检索技术的结合 。 2 数据挖掘技术也称数据库知 识发现技术, 被广泛 的应用于数据仓库 、 并行分布式数据库 中, 以发现 过 软件来解 决 。 2We 信 息资 源检 索方法 与搜 索技术 b 数据 中隐含的规律和趋势 , 用来分析经验 、 解释原因、 制定决策 、 指导改 使数据库具有知S, Yg的詹陛。 I 数据挖掘技术涉及许多学 2 We 信息资源检索方法 。 .1 . } I , 2 .直接访问信息源搜索的途径。通 进和预测趋势 , 1 常 的做法 足通 过 I P地址 直接 打 开 网站或 网页 , 般 是在 已知 所查 询 的 科的技术 , 一 包括数据库技术 、 统计学 、 机器学习 、 模式识别技术以及信息 b挖掘技 术 , 实现对 We 它 b存取 信 息在某 一具体 的网站或 网 页时使 用 ,不过 这种 方法需 要 记忆 大量 的 检 索技术 。现在有 一种 新技术 称为 We 域名, 网址。一种更简便的方法是安装网络实名插件 , 可在浏览器的地 模 式 、 b We 结构 和规 则 , 动态 的 We 以及 b内容的查 找 。 b We 挖掘技 术最 址 栏或搜 索引擎 网站 中 , 输入 中英文 网站名 称 , ,7 1 直接 如 32 网络实 名 , 大的特 | 是从 大量 数据 巾发 现有 用 的知识 ,因此发 展面 向互联 网的 就 州 入网站 , 输 企事业 单位 , 商标, 产品等炎键词的中英文名称 , 就能直达 知识挖掘技术 , 并将其与灵活使H 的信息检索技术无缝的结合起来 , j 将 方便的、 内容空前丰富的学)知识和问题的 J 对应的网站或网页。 .2 21 利用网络检索 具。 . 可使刚综合 眭搜索引擎 , 会向人们提供一户 网站 , 查 询过 程 一 求 解途 径 。 G ol e 在 般提供分类查询和关键词查询。 有些网站还提供 很多网址的链接, 根 3搜索引擎及其技术 据 需要 点击 , 可直接 进 入 网站 当需 要检 索某 些专 业性 或特 定信 息 时 , 可 31 .搜索引擎构成。搜索引擎是一种最为常见的 We h信息检索系 使 J 々题搜 索 引擎 .例如 专业 地 图搜 索 的T具 有 图吧 (t: w p 统 , l I j . hp / wma— t, w 主要 由 四部分 组成 :网络 机器 人 : 个 功能 很强 的程 序 , 会 定 a 是一 它 hlOl, aCl)矧行天下m p w , p o ) .3 -l { / , ¨ 2 . i。21 构造检索提问式的要 期 根据 预先 设定 的地 址去查 看 对应 的 网页 ,如 网页发 生变 化就重 新 获 Ⅲ cn . 点。 存检 索 中 , 两个最 为关键 的步 骤 , 是慨括 检索 提问 , 择精确 的 取该 网页 , 则根据 该 网页 中的链接 继续 去访 问 。 有 一 选 否 网络机 器人访 问贞 面 检 索词 ; 二是正�

WEB全文信息检索技术

WEB全文信息检索技术

WEB全文信息检索技术检索文档WEB全文信息检索技术李灿(华南理工大学图书馆 510641)摘要:本文探索了在INTERNET网上实现全文检索的技术。

计论了从网上信息的标引、分类等预处理到组织信息检索的过程,并就智能检索技术的发展进行了阐述。

关键词:信息检索因特网全文检索一、前言Internet网是目前全球最大的、最有影响力的信息网络,它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网(LAN)集成为一个单一的、庞大的、跨越全球的通讯网络。

越来越多的人们利用这一网络与世界各地的人进行交流。

如何利用Internet网获取有价值的信息,已成为科研人员必备的一项基本技能。

因特网是一个开放型的巨大的信息资源库,拥有上千万台以上的主机和过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息搜索者被其独特的魅力所吸引。

而在近几年,因特网用户的数量更是成倍地增长。

可见,因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。

二、概述网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报搜集、分类、检索等工作带来了新的问题和挑战。

如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。

全文信息检索就是概据Internet信息的特点而发展起来的一种检索方式。

它主要指研究对整个文档信息的表示,存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。

全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。

一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。

要实现全文检索,首先必须对WEB信息进行预处理。

三、WEB信息的预处理信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。

智能检索技术体系架构与关键技术-搜索引擎论文-图书档案学论文

智能检索技术体系架构与关键技术-搜索引擎论文-图书档案学论文

智能检索技术体系架构与关键技术-搜索引擎论文-图书档案学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——1引言在网络和电子等技术的发展影响下,每天网络中产生大量的数据,图灵奖获得者Jim Gray提出了一个关于网络环境下数据量的定律:网络环境下每18个月产生的数据量等于有史以来数据量之和[1].如此海量的数据中蕴含着大量有用的信息[2],检索正是实现信息发现的有效方法。

信息检索是指将信息按照一定的方式组织存储起来,并根据用户的需求检索出有关信息的过程[3].信息检索经历了手工检索、计算机检索到网络化、智能化检索等多个发展阶段,检索的内容也从最初的的、稳定的、相对封闭的内容变为形式多样、动态、更新快、分布广泛、管理松散的数据信息。

随着信息多样化和信息检索能力的要求,基于关键词匹配算法的传统检索检索方法虽然快捷、简单,但检准率低,已无法有效实现检索,不能满足检索要求和结果的个性化呈现[3].适应网络化、智能化以及个性化的需要是信息检索技术发展的必然趋势[4],由此智能检索技术应运而生。

2智能信息检索技术及应用2.1智能信息检索技术智能信息检索是在传统信息检索方法的基础上,运用人工智能技术,对所检索的内容分析、理解、推理、决策等,并以良好的形式展现给用户。

它除了提供传统的快速检索,相关度排序等功能,还提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能。

智能信息检索将信息检索从基于关键词层面提高到基于知识(或概念)层面。

理想的智能信息检索系统应具有的主要功能:提供多种样式的检索能力;语义推理能力;基于自然语言或其他语言;信息的及时更新;能力扩充;个性化结果呈现等。

根据信息检索技术的不同,智能信息检索系统的特点和应用领域存在较大差异。

其中典型的智能信息检索技术有:基于垂直搜索的信息检索技术、基于语料库的信息检索技术和基于语义网的信息检索技术等。

2.2基于垂直搜索的信息检索技术及应用垂直搜索是专业领域检索的典型技术,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,其具专、精、深的特点,且具有行业色彩。

信息检索及WEB检索的架构

信息检索及WEB检索的架构

信息检索及WEB检索的架构一,信息检索的架构:1、标准信息检索系统——用户需求架构随着社会的进步,市场经济的飞速发展,企业越来越重视产品质量,人们对生活质量的要求也越来越高。

为满足和达到上述目的,我国颁布了质量法和标准化法,世界有关组织和国家也不断出台新标准,新规范。

查询和检索标准信息已在人们日常工作和生活中广泛使用。

但是由于行业管理的需求不同,各级管理和服务部门所建立的检索系统差异较大,规范不一,范围受限,检索方法少,给用户检索标准信息带来了不便。

通过相关调查和分析,针对不同群体对标准信息检索范围、检索方式、检索方法要求不一的特点,确定了满足客户需求必须具备以下三个条件。

(1)检索范围:检索范围的确定是本架构研究的基本保障,因此在选定检索范围时,我们进行长期而又充分的调研,在满足不同用户需求时考虑了目前实际情况与长远发展相结合。

(2)检索方法:检索方式是按照用户的需求而确定,由于人们的需求不同,文化水平的差异,专业和非专业人员业务的区别,查询的习惯不同,查询环境不同,查询目的也不同,对标准信息检索的方式自然不一(3)检索方法:检索方法是由检索环境而确立,该方法要视大型图书馆的需要,企业和企业集团的需要,公共场所和单一个人的需要而确定。

2、标准信息检索系统——管理平台架构标准信息检索系统管理平台架构是在用户需求架构的基础上建立,它以满足各层次,各类型的客户集群和单一客户的基本需求为前提,通过管理员的科学管理,实现和满足填充、调控、跟踪、扩展和升级的要求,以先进的方法达到用户与运行服务商的互动。

因此管理平台架构应包括信息库管理、会员制管理、系统管理权管理、统计管理等四个方面。

(1)信息库管理;信息库管理是依据检索范围而定,必须满足检索范围的各项条件,所以标准信息检索系统信息库管理应包括文本库管理、标准代号管理、标准分类管理、标准年代号管理、标准信息目录库管理、作废替代库管理,实现自动排序、自动更新、自动删除等功效。

地理信息Web检索系 统体系结构、原理及发展

地理信息Web检索系 统体系结构、原理及发展

第30卷 第4期 热 带 地 理 V ol.30,No.4收稿日期:2009-09-24;修订日期:2009-12-29作者简介:杜萍(1976―),女,四川营山人,博士研究生,主要研究方向为地理语义网,(E-mail )duping1012@ 。

地理信息Web 检索系统体系结构、原理及发展杜 萍,刘 勇(兰州大学 资源环境学院,兰州 730000)摘 要:介绍了地理信息Web 检索系统的含义、体系结构及基本原理,并重点阐述地理信息检索系统的发展,包括该领域两个重要的研讨会:GIR 和GeoCLEF ;讨论了地理信息Web 检索系统与Google Maps 等通用地理类搜索工具的区别,并对一个有代表性的地理信息Web 检索系统SPIRIT 做了详细说明;指出地理信息Web 检索系统目前面临的挑战包括:地理本体的建立,页面地理信息的抽取,空间索引的建立,主题和空间双重搜索模型的运用,搜索结果的排序及搜索结果的地图可视化。

关键词:地理信息Web 检索;体系结构;基本原理;GIR ;GeoCLEF ;SPIRIT中图分类号:P208 文献标识码:A 文章编号:1001-5221(2010)04-0392-05Web 的不断发展和日益普及使得网上的信息量飞速增长。

搜索引擎的诞生为人们有效、准确地获取所需信息提供了很大的帮助。

据统计,在人们提交给搜索引擎的查询中,约1/5跟地理信息有关[1]。

然而,当人们把带有地理信息的查询提交给搜索引擎后,发现检索结果过于庞大,准确率不高,用户难以快速准确地找到自己所需要的信息。

这是由搜索引擎的检索方式决定的。

目前,搜索引擎大多采用传统信息检索方式[2]:基于关键字的检索和基于分类目录的检索。

这两种检索方式都无法处理丰富的地理语义和空间关系,例如,对于用户查询“campsites west of Oxford ”,搜索引擎将空间关系“west of ”当做用户输入的关键字,那些在页面中明确出现“west ”却跟用户查询需求相差甚远的网页往往会排在搜索结果的前列,从而导致搜索结果的不如人意。

基于信息集结算子的Web信息检索方法研究的开题报告

基于信息集结算子的Web信息检索方法研究的开题报告

基于信息集结算子的Web信息检索方法研究的开题报告一、研究背景和意义:随着互联网的发展,信息检索成为了人们获取信息的主要方式之一。

而传统的检索方法,如关键词检索和布尔检索,已经不能满足人们对信息检索的需求。

因此,基于信息集结算子的Web信息检索方法应运而生。

信息集结算子是指通过信息抽取、信息融合、信息建模等过程,将不同来源的信息整合成一个有机的整体的方法。

这种方法可以很好地解决信息来源分散、冗余信息多等问题,提高信息检索的效率和准确率。

基于信息集结算子的Web信息检索方法主要是通过构建知识图谱,将不同领域的信息进行融合,形成一个具有完整结构和语义关系的数据集合,再进行检索。

以此来提高检索结果的准确率和可信度。

二、研究目的和内容:本研究旨在探究基于信息集结算子的Web信息检索方法。

具体研究内容包括:1. 分析信息集结算子的理论基础和应用场景。

2. 构建知识图谱,整合不同领域的信息。

3. 设计基于信息集结算子的Web信息检索算法。

4. 实现Web信息检索系统,并进行性能测试和效果评估。

三、研究方法:本研究采用文献研究法、案例分析法、实验研究法等多种方法。

1. 文献研究法:从理论层面上分析信息集结算子的原理和应用,查阅国内外相关文献,了解已有研究成果和发展方向。

2. 案例分析法:参考已有的知识图谱构建案例,对数据进行处理和建模,形成一个具有完整结构和语义关系的数据集合。

3. 实验研究法:在已有的知识图谱和检索算法的基础上,进行性能测试和效果评估,并对结果进行分析和优化。

四、研究计划:1. 第一年:(1) 研究基于信息集结算子的理论基础和应用场景。

(2) 构建知识图谱,整合不同领域的信息。

(3) 设计基于信息集结算子的Web信息检索算法。

2. 第二年:(1) 实现Web信息检索系统。

(2) 进行性能测试和效果评估。

(3) 对结果进行分析和优化。

3. 第三年:(1) 优化Web信息检索系统。

(2) 开展相关研究领域的拓展和应用。

基于Web的数据库检索系统研究

基于Web的数据库检索系统研究

基于Web的数据库检索系统研究摘要根据用户的需求和本馆的特色,自建了许多各具特色的数据库,并通过WEB页面动态交互或静态的提供给读者,采取统一友好的检索界面不失为方便读者有效利用信息资源的一种重要服务手段。

关键词Web;数据检索;数据库1信息检索工作原理信息检索过程:包括存贮和检索两个过程。

存贮过程就是按照主题词表或分类表及使用原则对原始信息进行处理,形成信息标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。

检索过程则是按照同样的主题词表或分类表及组配原则分析课题,形成检索提问标识,根据存贮所提供的检索途径,从信息集合中查得与检索提问标识相符的信息特征标识的过程。

信息检索的实质:检索提问标识与存储在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含检索提问标识,则具有该标识的信息就从检索工具中输出,输出的信息就是检索命中的信息。

信息检索系统的基本要素:(1)检索文档。

即文献检索标识的有机集合。

如手工检索系统中书目、索引和文摘中由文献款目组成的正文、工具书由条目或短文组成的主体。

计算机系统中以一定形式存储的书目信息或事实、数据等。

(2)技术设备。

能存储信息及其标识,并实现存储和检索操作的各种技术设备,如手工检索系统的卡片目录或检索刊物,计算机检索系统的装入设备、运算器、存储器、控制器、输出设备等,联机时还需要调制解调器、通信线路、通信装置、终端设备及其相应的软件等。

(3)作用于系统的人。

文献加工者、用户、系统维护人员、管理人员。

(4)检索工具。

检索语言、文献标引规则、输入输出标准等如图1。

2检索系统的设计步骤2.1选择检索系统和数据库根据课题分析结果、信息需求的要求,选择适当的数据库。

不同的数据库学科范围不同,检索指令不同,收费标准也不同。

所以在检索之前要阅读有关数据库的使用介绍,在做联机检索时,还可通过总索引文档了解与检索课题有关的每一个文档中的文献篇数,选择文献量大的一个或几个文档作为检索文档。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于网格的面向专业内容的Web信息检索体系结构
1 引言
近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。

但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。

如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。

本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。

2 基于网格的面向专业内容的Web信息检索体系结构的设计
网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。

为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。

本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1
(1)网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。

集群系统负责整个集群范围内的信息管理,维护和查询。

(2)网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。

它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。

(3)网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。

图1
本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。

这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。

2.1 集群系统的设计
由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。

目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。

因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于
XML的面向专业内容的信息集成系统。

集群系统的具体结构见图2。

集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。

其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。

资源服务Agent根据信息资源请求任务,利用XM L信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。

资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。

下面主要说明基于专业内容的XML信息集成系统的构造方法:
XML(the eXtensible Markup Language)是W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。

XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。

XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。

目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing a pproach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。

图2
2.2 网格中间件的设计
图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。

内部主要功能模块说明如下:
(1)接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。

(2)关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。

数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。

(3)格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。

由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。

(4)XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足
条件的集群系统的相关信息,获取各集群系统的接口参数。

(5)发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。

其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。

在系统中引入Agent 可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。

图3
3 工作过程
要使本体系结构具有高协作性和互操作性,用户、网格中间件、集群系统以及其它Age nt等实体之间的通信是整个系统运转的关键。

由于XML为基于特定专业内容的表达提供了一种极好的手段,XML是一种元语言,其严格的定义和规则集使人和机器都能更容易的阅读文档,因此本文将XML集成到各部分的通信语言中,在用户发出的信息检索请求文档、网格中间件、集群系统之间的通信均利用XML定义,这样做增强了通信的语义信息和灵活性并可以在多种平台使用,并且基于XML的通信语言其通信内容的表达比其它方法更容易开发语法分析器。

具体的工作过程如下:
(1)请求、定位过程:由网格用户层向网格中间件发送用户的信息检索请求文档,描述网格接口参数、信息请求内容等,在接受Agent进行身份确认及权限确认后,经文档格式转换Agent模块、文档分析Agent模块、发送Agent模块处理后,定位于某些特定的集群系统服务器。

(2)应答、处理过程:集群系统服务器经验证、调用资源服务Agent对信息集成系统进行查询后,将查询结果信息传输给用户。

4 结语
本文利用网格计算、集群系统、XML在数据组织、交换、共享方面的优势,对大量分散、异构的面向专业内容的信息资源提供了一种有效组织和管理方法;并通过网格中间件,实现了信息资源的数据格式转换与快速定位,提高了信息检索的效果。

本文仅提出了一个体系结构设计,对更为复杂的实际问题的适用性,还有待进一步的完善和改进。

本篇文章来源于维尚期刊网:/。

相关文档
最新文档