网络信息检索的原理及技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 主题信息采集技术就是基于下面的理念出现的
•
主题信息采集的任务就是在尽可能短的时间内,尽可能
搜集多的主题相关信息。尽可能少的搜索与主题无关的信息
。
主题信息采集策略
主要的主题信息采集策略
基于动态价值
评估的搜索策 略
基于内容评价 的搜索策略
基于链接 构的评价
策略
基于综合价值 评估的搜索策
略
基于未来回报 价Y值o评ur价te的xt 搜
• 深度优先是指网络蜘蛛会从起始页开始,一个链接 一个链接跟踪下去,处理完这条线路之后再转入下 一个起始页,继续跟踪链接。(简单)
9.3.3主题信息采集技术
• ”主题“就是用户所需要搜集信息的特征。
•
主题可以是很多种类别:如Web的信息采集 互联网的
信息采集 语义分析的信息采集 等等
• 简单点说就是我们跟王老师学习的信息检索内容
《金碟图书馆管理系统》增强网络版自带150万CNMARC格式书目库, 支持CNMARC格式书目数据的导入导出,可大大减少编目录入工作量。
优点
MARC格式优缺点 缺点
作用
1.具有标准的信息交换 格式 2.完整的书目描述,且 具有多种检索点 3.各类信息资源在图书
1 馆目录中的集成
4.兼容性强
1.无法及时的处理大量 的网络信息资源 2.对信息标引的专业性 很高,所以不适合大多 数普通信息用户
2 3.编目的工作复杂,只
能由专业的编目人员进 行操作 4.所设项目繁杂且产生 速度慢
•图书采访利用MARC数 据,就可以通过图书的 ISBN号,调入正题名、 责任者等图书内容,从 而简化图书采购数据的
(随便告诉大家元数据是元数据是一种二进制信息,用以对存储在公共语言 运行库可移植可执行文件 (PE) 或存储在内存中的程序进行描述)
MARC元数据的概念 MARC元数据:是利用计算机识读和处理的目录。MARC主要用
于图书馆管理软件中,采访、编目、典藏等环节都有重要的 作用,也方便馆际之间的数据交流,是统一文献著录规范。 我简练点叫它“英文机读目录格式” ,如果是“中国范”的 CNMARC就叫“中国机读目录格式”
是衡量信息检索工 具的重要指标之一
现实的网络异构, 有很大物理差异, 所以检索途径更加
灵活
用户界面设计友好 ,利于信息用户与
检索系统的交流
检索主 题广泛
检索灵 活多元
功能完 善友好
跟进internet的步 伐,每时每刻出现 新信息,更新内容 ,随时获取最新信
息
内容新 颖实时
网络信息检索工具三提供给用户检索信息的软件系统,是网络信息检索的接 口
检索过程
收集标引过程
分布式搜索引擎的一般结构
网络空间
用户
复制管理器 中介器 对象缓存
中介器
收集器
………… .
9.3.1网络信息的采集
• 定义:是实现网络信息检索的第一环节,其主要任
务是为网络信息资源库录入信息源。
• 广义上:网络信息采集包括网络信息检索系统的所
有信息采集和录入活动。
• 狭义上:是指网络搜索引擎的信息采集。
思考:网络搜索引擎的信 息怎么采集的呢?
9.3.2网络蜘蛛
• 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘 蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的 链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网 页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找 下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完 为止
述性信息。 • 元数据的基本特点主要有: • a)元数据一经建立,便可共享。 • b)元数据首先是一种编码体系。 • 由于元数据也是数据,因此可以用类似数据的方法在数据库
中进行存储和获取。如果提供数据元的组织同时提供描述数 据元的元数据,将会使数据元的使用变得准确而高效。用户 在使用数据时可以首先查看其元数据以便能够获取自己所需 的信息。
• (大家可以想象下我们经常使用PPT中的那个超级链接,个人觉得和那 个很相似)
网络蜘蛛的工作原理图
• 在抓取网页的时候,网络蜘蛛一般有两种策略:广 度优先和深度优先
• 广度优先是指网络蜘蛛会先抓取起始网页中链接的 所有网页,然后再选择其中的一个链接网页,继续 抓取在此网页中链接的所有网页。(速率)
联机检索:一种受控的,其数据库需注册的,且有偿的系统 搜索引擎:一种开放式的网络检索Hale Waihona Puke Baidu具,用户可自由使用它
9.2.1网络信息检索的基本原理
• Marchionini网络信息检索行为模型
接受问题
理解问题
选择系统
构造查询
思考/重复/停止
提取信息
评价结果
执行查询
• Choo网络信息检索行为模型 • Macpherson网络信息检索行为模型
• 海量数据的存储和处理技术 • 网页搜索技术 • 标引技术 • 检索技术 • 排序技术 • 索引技术
9.2.2网络信息检索技术
分类
自动收集
9.2.3网络信息检索系统
……. .
体系结构
人工收集
Internet
索引数据库 页面分类
信息资源采集
用户界面 数据过滤 地址列表
用户
网络信息检索系统工作流程
索策略
9.4.1网络信息的组织
语法信息组织
语法信息组织是以信息的形式特征为特征 为依据序化信息的方法
语义信息组织
语义信息组织是以信息的内容或本质特征 为依据序化信息的方法
语用信息组织
语用信息组织是以信息的效用特征为依据 序化信息的方法
9.4.2网络信息组织的规范 • 元数据最本质、最抽象的定义为:data about data 。 • 元数据被定义为:描述数据的数据,对数据及信息资源的描
• 4.搜索引擎根据用户提供的检索请求,在索引中查询相关语句,并进行必要的逻 辑运算操作,然后在索引数据库中查找匹配的网页。
• 5.查询完毕后,将最终的检索结果以超文本链接等形式显示给用户,用户根据这 些链接去访问相关的信息资源。
搜索引擎的基本结构
集中式搜索引擎的一般结构
用户
网络信息空间
界面 检索引擎 标引库 标引器 收集器
• 1.搜索引擎中的信息收集模块在网络环境下手机网络信息资源,手机的方式包括 人工收集和利用信息收集两种。
• 2.信息收集模块完成信息收集任务后,将所收集的信息资源返还给搜索引擎,并 对这些信息资源进行页面分类、建立索引,然后存放在已建立好的索引数据库。
• 3.搜索引擎为用户提供统一的网络信息检索界面,用户通过该检索界面提交自己 的检索请求。