基于大数据分析技术的数字图书馆信息检索模型设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 1 单本体结构 Fig.1 Single body structure
图 2 多本体结构 Fig.2 Multi-ontology structure
域本体进行有效建立。其中, 选用的本体建立方法为[1-3]: 第一,选用单本体方法,表明共享词汇集是由全局本体
所提供的, 全局本体一定要与全部的信息源产生联系, 确 保语义的一致性。针对某一特定领域, 当需要对其进行映 射时, 可以选用单本体方法, 不过存在一个前提条件, 即信 息源变化不会影响单本体。其中, 单本体结构, 如图1 所示。
中图分类号:TN919
文献标识码:A
文章编号:1007-9416(2021)05-0121-03
1 数字图书馆信息领域本体的建立 通过运用大数据分析技术, 对数字图书馆信息领域本
体进行有效建立, 然后在知识库中, 对用户需要进行检索 的信息进行搜索。当用户将查询请求输入数字图书馆信 息领域本体领域时, 推理机便会对输入的语句或者关键 词进行语义推理, 以构成逻辑表达式, 然后会在检索系统 中上传逻辑表达式。在进行检索过程中, 还应选用R D F 等 工具来对实例推理进行详细描述, 根据相关推理规则与 推理要求, 同时结合实际情况, 由系统程序员来合理构建 规则。最后, 在数字图书馆信息资源中, 对用户所需的有 关文献资源进行搜索, 不过因为存在多种不同类型的领 域本体, 所以应根据各种类型的领域本的开发层次, 对领
对候选术语的长度、候选术语的出现频率、候选术语的出
现次数总和进行计算, 其中, 计算公式为:
C-Value={log2|a|*f(a)}
(1)在Βιβλιοθήκη 式(1)中:智能算法用C-Value来进行表示;字符串
长度用lo g进行表示;候选字符串用a进行表示;出现频率
用f 进行表示。
在利用智能算法对术语进行抽取过程中, 需要先对
第39卷 第5期 2021年 5月
数字技术与应用 Digital Technology &Application
Vol.39 No.5 2M02a1y年第20251 期
设计开发
DOI:10.19695/12-1369.2021.05.40
基于大数据分析技术的数字图书馆信息检索模型设计
根据MARL元数据提取的标准,对不同类型的数据库 信息进行提取与细化, 最后提取文档信息元数据。不过, 针对XML,由于它没有语义描述功能,因此需要建立相应
收稿日期:2021-03-31 作者简介:吴荣(1972—),女,陕西西安人,本科,副研究员,研究方向:数据库技术。
121
Copyright©博看网 . All Rights Reserved.
吴荣
(火箭军工程大学图书馆,陕西西安 710007)
摘要:目前,我国现行的数字图书馆信息检索模型存在较多问题,如误差大、精度低等,用户无法获取较为理想的数字图书
馆信息检索结果,为有效解决以上问题,本文设计了一种新的模型,即基于大数据分析技术的数字图书馆信息检索模型。首先
对相关数字图书馆信息检索文献资料进行了搜集与分析,找出影响数字图书馆信息检索效果的因素,然后对大量数字图书馆
第 39 卷
数字技术与应用
层次 应用层 服务层
支持层
资源层
图 3 文档元数据提取流程示意图 Fig.3 Schematic diagram of document metadata extraction process
表 1 数字图书馆信息检索模型层次架构 Tab.1 Hierarchical structure of information retrieval model of digital library
C - V a l u e 值进行计算, 然后对词性过滤规则进行建立, 最
后对与词性过滤规则相符合的术语进行搜索。
第二步: 当获取候选术语列表之后, 应对可接受的精
度进行有效计算,利用智能算法NC-Value,对上下文加权
主要内容
主要功能
检索界面、登录界面等 个性化推动服务
信息存储技术、信息发布技术、 大数据分析技术等
信息数据平台、知识库集合
向用户提供信息服务 向用户提供个性化服务 能够对信息进行提取、检索、筛选等;能够根据用户兴趣建立相应的模型; 根据用户的实际需求来对一些技术进行有效调整等 对不同类型的数据信息进行储存
信息检索数据进行收集,同时利用大数据分析技术,构建了数字图书馆信息检索模型,最后对新建模型的检索效果进行了仿真
检测。结果表明,与传统检索模型相比,本文设计的新检索模型更具优势,能够有效解决现行的数字图书馆信息检索模型中存
在的问题, 具有重要意义。
关键词: 大数据分析技术;数字图书馆信息检索模型;设计
合理的概念模型。 当以上工作全部完成以后, 通过运用一些工具来对程
序进行有效简化, 包括主题词、语义字典等, 有助于元数 据建立工作量的减少。
3 数字图书馆信息的有效检索
在将用户查询信息处理工作完成以后, 需要对数字图
书馆信息检索模型进行建立, 具体操作流程为[5-7]:
第一步, 选用智能算法, 对上下文单词进行有效处理,
2 用户查询信息的有效处理
在完成数字图书馆信息领域本体的建立以后, 接下来 需要对用户查询信息进行有效处理,选用统一模式,对文本 形式进行详细解析,然后在文档数据库中将其储存起来。根 据数字化文档元数的规范定义, 在遵守M A R L 标准的原则 下,将文档数据库中的文档信息提取出来。为能够共享数据 信息, 选用X M L , 在元数据库中储存提取出来的元数据组 织[4]。其中, 文档元数据提取流程示意图, 如图3 所示。
第二, 选用多本体方法, 对各种信息源进行详细描述, 同时保证全部的本体均具有自己的词汇集。当信息源发 生变化时, 并不会较多影响本体结构, 本体结构仅会发生 较小程度的改动, 这也是多本体方法的一大重要优势。其 中, 多本体结构, 如图2所示。
针对以上两组方法, 应根据领域本体的实际需求, 选 取相应合理、可行的分类方法, 能够在数字图书馆信息资 源中, 将用户所需的文献资料精准搜索出来。
相关文档
最新文档