网络信息检索的原理及技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 5.查询完毕后,将最终的检索结果以超文本链接等形式显示给用户,用户根据这 些链接去访问相关的信息资源。
网络信息检索的原理及技术
搜索引擎的基本结构
集中式搜索引擎的一般结构
用户
网络信息空间
界面 检索引擎 标引库 标引器 收集器
检索过程
收集标引过程
网络信息检索的原理及技术
分布式搜索引擎的一般结构
用户
将各个系统的具体实现映射到抽象模型上,才能使不同 的系统在一个相互理解的、标准的通信平台上进行交互,满 足互操作的需要。
1.该协议是一种应用层协议 2.能够提供一致性的检索接口进行多数据查询 3.该协议是一种面向连接的有状态的协议 4.该协议面向数据库检索
网络信息检索的原理及技术
Z39.50标准协议提供的服务
• Marchionini网络信息检索行为模型
接受问题
理解问题
选择系统
构造查询
思考/重复/停止
提取信息
评价结果
执行查询
• Choo网络信息检索行为模型 • Macpherson网络信息检索行为模型
网络信息检索的原理及技术
9.2.2网络信息检索技术
• • • • • •
索排检标网海
引序索引页量
技技技技搜数
网络信息资源集成的阶段和步骤
1网页文本数据抽


息 资
2.查询重构
源 集
3.查询优化和执行

4.异构数据的集成
网络信息检索的原理及技术
9.6网络信息的搜索
• 1.搜索引擎及其分类
概念:
是指在Internet上主动搜索信息并能主动索引、提供查询服务的一类网站,这些网站通过网络搜索Robot或网站登录方式, 将Internet上大量网站的页面收集到本地,经过加工处理而建成索引数据库, 从而能对用户提出的各种查询做出响应,提供用户所需信息
• 简单点说就是我们跟王老师学习的信息检索内容
• 主题信息采集技术就是基于下面的理念出现的

主题信息采集的任务就是在尽可能短的时间内,尽可能
搜集多的主题相关信息。尽可能少的搜索与主题无关的信息
。 网络信息检索的原理及技术
主题信息采集策略
主要的主题信息采集策略
基于动态价值
评估的搜索策 略
基于内容评价 的搜索策略
4.兼容性强
1.无法及时的处理大量 的网络信息资源 2.对信息标引的专业性 很高,所以不适合大多 数普通信息用户
2 3.编目的工作复杂,只
能由专业的编目人员进 行操作 4.所设项目繁杂且产生 速度慢
•图书采访利用MARC数 据,就可以通过图书的 ISBN号,调入正题名、 责任者等图书内容,从 而简化图书采购数据的
• DC元数据规范最基本的内容是包含十五个元素的元 数据元素集合,用以描述资源对象的语义信息。
题名Title 创建者Creator 日期Date 主题Subject 出版者Publisher 类型Type 描述Description
其他责任者Contributor 格式Format 来源Source 权限Rights 标识符Identifier
• 2.信息收集模块完成信息收集任务后,将所收集的信息资源返还给搜索引擎,并 对这些信息资源进行页面分类、建立索引,然后存放在已建立好的索引数据库。
• 3.搜索引擎为用户提供统一的网络信息检索界面,用户通过该检索界面提交自己 的检索请求。
• 4.搜索引擎根据用户提供的检索请求,在索引中查询相关语句,并进行必要的逻 辑运算操作,然后在索引数据库中查找匹配的网页。
思考:网络搜索引擎的信 息怎么采集的呢?
网络信息检索的原理及技术
9.3.2网络蜘蛛
• 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘 蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的 链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网 页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找 下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完 为止
语种Language 关联Relation 覆盖范围Coverage
网络信息检索的原理及技术
DC元数据 的优势
简单 性
灵活 性
可直 接处 理数 据
通用 性
优势
扩展 性
兼容 性
适应 性
网络信息检索的原理及技术
RDF的概念
RDF:资源描述框架,一种用于描述Web资源的标记语言, 是一个处理元数据的XML(标准通用标记语言的子集)应用。
网页1链出个数
+ —网—页—2—级—别—...+—网—页—N—级—别—
网页2链出个数
网页N链出个数
网络信息检索的原理及技术
9.7网络信息检索的研究热点
• 9.7.1 海量数据的存储与处理
A
Group
B
Group
C
Group
(1)海量数据的 磁盘列存储技术
(2)海量数据 存储模式
基于链接 构的评价
策略
基于综合价值 评估的搜索策

基于未来回报 价Y值o评ur价te的xt 搜
索策略
网络信息检索的原理及技术
9.4.1网络信息的组织
语法信息组织
语法信息组织是以信息的形式特征为特征 为依据序化信息的方法
语义信息组织
语义信息组织是以信息的内容或本质特征 为依据序化信息的方法
语用信息组织
3 录入。是组织网络信息
资源的一种有效方式。
网络信息检索的原理及技术
DC元数据的来历
DC元数据:即“都柏林核心(Dublin Core)元数据 ”,由OCLC首倡于1994年,因创始地在美国俄亥 俄(Ohio)首府都柏林而得名。其维护机构为 DCMI:Dublin Core Metadata Initiative。
• 深度优先是指网络蜘蛛会从起始页开始,一个链接 一个链接跟踪下去,处理完这条线路之后再转入下 一个起始页,继续跟踪链接。(简单)
网络信息检索的原理及技术
9.3.3主题信息采集技术
• ”主题“就是用户所需要搜集信息的特征。

主题可以是很多种类别:如Web的信息采集 互联网的
信息采集 语义分析的信息采集 等等
《金碟图书馆管理系统》增强网络版自带150万CNMARC格式书目库, 支持CNMARC格式书目数据的导入导出,可大大减少编目录入工作量。
网络信息检索的原理及技术
优点
MARC格式优缺点 缺点
Baidu Nhomakorabea
作用
1.具有标准的信息交换 格式 2.完整的书目描述,且 具有多种检索点 3.各类信息资源在图书
1 馆目录中的集成
PageRank算法
PageRank算法的数学定义为:
PR(A)=(1-d)+d(PR(Ti)/C(Ti)+...+PR(Tn)/C(Tn) 例如在网页A-网页F中,B、C、D、E、F中都链接A。则说明A网页是最为
重要的,所以它的PageRank值最高。
网页A级别=(1-系数)+系数×—网—页—1—级—别—
1.1搜索引擎综合分类
(1)全文搜索引擎 (2)目录搜索引擎
(3)元搜索引擎
网络信息检索的原理及技术
全文搜索引擎的工作原理
网络信息检索的原理及技术
常用的中文搜索引擎
网易搜索引 擎
雅虎中国搜 索引擎
搜狐搜索 引擎
北大天网中英 文搜索引擎
新浪搜索引 擎
百度中文搜 索引擎
Google搜索 引擎
网络信息检索的原理及技术
网络信息检索的原理及技术
MARC元数据的概念 MARC元数据:是利用计算机识读和处理的目录。MARC主要用
于图书馆管理软件中,采访、编目、典藏等环节都有重要的 作用,也方便馆际之间的数据交流,是统一文献著录规范。 我简练点叫它“英文机读目录格式” ,如果是“中国范”的 CNMARC就叫“中国机读目录格式”
术术术术索据
技的
分类
术存 储




术 网络信息检索的原理及技术
9.2.3网络信息检索系统
……..
体系结构
人 工 收 集
Internet 自 动 收 集
索引数据库 页面分类
信息资源采集
用户界面

数据过滤

地址列表
网络信息检索的原理及技术
网络信息检索系统工作流程
• 1.搜索引擎中的信息收集模块在网络环境下手机网络信息资源,手机的方式包括 人工收集和利用信息收集两种。
• (大家可以想象下我们经常使用PPT中的那个超级链接,个人觉得和那 个很相似)
网络信息检索的原理及技术
网络蜘蛛的工作原理图
网络信息检索的原理及技术
• 在抓取网页的时候,网络蜘蛛一般有两种策略:广 度优先和深度优先
• 广度优先是指网络蜘蛛会先抓取起始网页中链接的 所有网页,然后再选择其中的一个链接网页,继续 抓取在此网页中链接的所有网页。(速率)
内容新 颖实时
网络信息检索的原理及技术
网络信息检索的原理及技术
网络信息检索工具三提供给用户检索信息的软件系统,是网络信息检索的接 口
联机检索:一种受控的,其数据库需注册的,且有偿的系统 搜索引擎:一种开放式的网络检索工具,用户可自由使用它
网络信息检索的原理及技术
9.2.1网络信息检索的基本原理
它包括了11种基本服务: 1.查询;2.检索;3.终止 4.浏览;5.分类;6.解释; 7.初始化;8.存取控制; 9.资源控制;10.删除结果;11.扩展服务;
网络信息检索的原理及技术
网络信息资源集成 网络信息资源集成有什么意义:
网络信息集成技术用于网络信息的查询中,可以得到精确而完善的 查询结果。使internet网上繁杂的信息得到更好的整理与集成。
网络信息检索的原理及 技术
2020/12/13
网络信息检索的原理及技术
网络信息检索的原理及技术
是衡量信息检索工 具的重要指标之一
现实的网络异构, 有很大物理差异, 所以检索途径更加
灵活
用户界面设计友好, 利于信息用户与检
索系统的交流
检索主 题广泛
检索灵 活多元
功能完 善友好
跟进internet的步 伐,每时每刻出现 新信息,更新内容, 随时获取最新信息
语用信息组织是以信息的效用特征为依据 序化信息的方法
网络信息检索的原理及技术
9.4.2网络信息组织的规范 • 元数据最本质、最抽象的定义为:data about data 。 • 元数据被定义为:描述数据的数据,对数据及信息资源的描
述性信息。 • 元数据的基本特点主要有: • a)元数据一经建立,便可共享。 • b)元数据首先是一种编码体系。 • 由于元数据也是数据,因此可以用类似数据的方法在数据库
网络信息检索的原理及技术
9.4.3网络信息组织的方法
• 1.数据库组织方式:将所有获得的信息资源按照固定的记录格式存储组织,用户通过
关键字及其组配可以知道所需要的信息线索
• 2.超链接方式:把不定长的基本信息单元存放在节点上,这些基本信息单元可以使单个
字,句子,章节,文献,甚至是图像,音乐或者录像。
中进行存储和获取。如果提供数据元的组织同时提供描述数 据元的元数据,将会使数据元的使用变得准确而高效。用户 在使用数据时可以首先查看其元数据以便能够获取自己所需 的信息。
(随便告诉大家元数据是元数据是一种二进制信息,用以对存储在公共语言 运行库可移植可执行文件 (PE) 或存储在内存中的程序进行描述)
它的作用是为多种元数据的交互提供平台
网络信息检索的原理及技术
RDF的两大特点
01
独立性
02 使用XML作 为其描述语 法
内容
u它可嵌入DC元数据也可嵌入 其他类型的元数据,使元数据 间的转换成为可能
内容
u它采用目前最具发展前景的标记语言XML (可扩展标记语言),用XML作为自己的 描述语言,自然就成为一种可携带多种元 数据穿行于网络上的框架工具
• 3.主页方式:通过各种频道栏目,根据网站定位的用户对象,需求的动态,一次信息等
进行全面的编辑,翻译,报道,集中组织信息,提供信息服务。
• 4.文件方式:采用主题法的思想,以文件名标识信息内容,用文件夹组织信息资源,通
过网络共享实现信息传播,是成熟的文件操作技术和网络传输技术相结合的产物。
• 5.主题树的方式:将信息资源按照某种事先确定的概念体系,分门别类的逐层加以组织,
用户先通过层层浏览的方式遍历,知道找到所需要的资源。
网络信息检索的原理及技术
9.5.1网络信息的整合
• 网络信息整合可分为3个阶段
(1)面向网络信息组织的整合阶段 (2)面向异构数据源的数据整合方式
(3)面向应用的信息整合阶段
网络信息检索的原理及技术
Z39.50标准协议的作用及特点 z39.50协议(应用和服务定义与协议规范)
复制管理器 中介器 对象缓存
中介器

收集器
络 空

………….
网络信息检索的原理及技术
9.3.1网络信息的采集
• 定义:是实现网络信息检索的第一环节,其主要任
务是为网络信息资源库录入信息源。
• 广义上:网络信息采集包括网络信息检索系统的所
有信息采集和录入活动。
• 狭义上:是指网络搜索引擎的信息采集。
相关文档
最新文档