网络信息检索的原理及技术

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 主题信息采集技术就是基于下面的理念出现的
•
主题信息采集的任务就是在尽可能短的时间内，尽可能
搜集多的主题相关信息。尽可能少的搜索与主题无关的信息
。
主题信息采集策略
主要的主题信息采集策略
基于动态价值
评估的搜索策略
基于内容评价的搜索策略
基于链接构的评价
策略
基于综合价值评估的搜索策
略
基于未来回报价Y值o评ur价te的xt 搜
• 深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。（简单）
9.3.3主题信息采集技术
• ”主题“就是用户所需要搜集信息的特征。
•
主题可以是很多种类别：如Web的信息采集互联网的
信息采集语义分析的信息采集等等
• 简单点说就是我们跟王老师学习的信息检索内容
《金碟图书馆管理系统》增强网络版自带150万CNMARC格式书目库，支持CNMARC格式书目数据的导入导出，可大大减少编目录入工作量。
优点
MARC格式优缺点缺点
作用
1.具有标准的信息交换格式 2.完整的书目描述，且具有多种检索点 3.各类信息资源在图书
1 馆目录中的集成
4.兼容性强
1.无法及时的处理大量的网络信息资源 2.对信息标引的专业性很高，所以不适合大多数普通信息用户
2 3.编目的工作复杂，只
能由专业的编目人员进行操作 4.所设项目繁杂且产生速度慢
•图书采访利用MARC数据，就可以通过图书的 ISBN号，调入正题名、责任者等图书内容，从而简化图书采购数据的
（随便告诉大家元数据是元数据是一种二进制信息，用以对存储在公共语言运行库可移植可执行文件 (PE) 或存储在内存中的程序进行描述）
MARC元数据的概念 MARC元数据:是利用计算机识读和处理的目录。MARC主要用
于图书馆管理软件中，采访、编目、典藏等环节都有重要的作用，也方便馆际之间的数据交流，是统一文献著录规范。我简练点叫它“英文机读目录格式” ,如果是“中国范”的 CNMARC就叫“中国机读目录格式”
是衡量信息检索工具的重要指标之一
现实的网络异构，有很大物理差异，所以检索途径更加
灵活
用户界面设计友好，利于信息用户与
检索系统的交流
检索主题广泛
检索灵活多元
功能完善友好
跟进internet的步伐，每时每刻出现新信息，更新内容，随时获取最新信
息
内容新颖实时
网络信息检索工具三提供给用户检索信息的软件系统，是网络信息检索的接口
检索过程
收集标引过程
分布式搜索引擎的一般结构
网络空间
用户
复制管理器中介器对象缓存
中介器
收集器
………… .
9.3.1网络信息的采集
• 定义：是实现网络信息检索的第一环节，其主要任
务是为网络信息资源库录入信息源。
• 广义上：网络信息采集包括网络信息检索系统的所
有信息采集和录入活动。
• 狭义上：是指网络搜索引擎的信息采集。
思考：网络搜索引擎的信息怎么采集的呢？
9.3.2网络蜘蛛
• 网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止
述性信息。 • 元数据的基本特点主要有： • a）元数据一经建立，便可共享。 • b）元数据首先是一种编码体系。 • 由于元数据也是数据，因此可以用类似数据的方法在数据库
中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据，将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
• （大家可以想象下我们经常使用PPT中的那个超级链接，个人觉得和那个很相似）
网络蜘蛛的工作原理图
• 在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先
• 广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。（速率）
联机检索：一种受控的，其数据库需注册的，且有偿的系统搜索引擎：一种开放式的网络检索Hale Waihona Puke Baidu具，用户可自由使用它
9.2.1网络信息检索的基本原理
• Marchionini网络信息检索行为模型
接受问题
理解问题
选择系统
构造查询
思考/重复/停止
提取信息
评价结果
执行查询
• Choo网络信息检索行为模型 • Macpherson网络信息检索行为模型
• 海量数据的存储和处理技术 • 网页搜索技术 • 标引技术 • 检索技术 • 排序技术 • 索引技术
9.2.2网络信息检索技术
分类
自动收集
9.2.3网络信息检索系统
……. .
体系结构
人工收集
Internet
索引数据库页面分类
信息资源采集
用户界面数据过滤地址列表
用户
网络信息检索系统工作流程
索策略
9.4.1网络信息的组织
语法信息组织
语法信息组织是以信息的形式特征为特征为依据序化信息的方法
语义信息组织
语义信息组织是以信息的内容或本质特征为依据序化信息的方法
语用信息组织
语用信息组织是以信息的效用特征为依据序化信息的方法
9.4.2网络信息组织的规范 • 元数据最本质、最抽象的定义为：data about data 。 • 元数据被定义为：描述数据的数据，对数据及信息资源的描
• 4.搜索引擎根据用户提供的检索请求，在索引中查询相关语句，并进行必要的逻辑运算操作，然后在索引数据库中查找匹配的网页。
• 5.查询完毕后，将最终的检索结果以超文本链接等形式显示给用户，用户根据这些链接去访问相关的信息资源。
搜索引擎的基本结构
集中式搜索引擎的一般结构
用户
网络信息空间
界面检索引擎标引库标引器收集器
• 1.搜索引擎中的信息收集模块在网络环境下手机网络信息资源，手机的方式包括人工收集和利用信息收集两种。
• 2.信息收集模块完成信息收集任务后，将所收集的信息资源返还给搜索引擎，并对这些信息资源进行页面分类、建立索引，然后存放在已建立好的索引数据库。
• 3.搜索引擎为用户提供统一的网络信息检索界面，用户通过该检索界面提交自己的检索请求。