基于MeSH的医学文献智能检索系统设计与实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在检 索 时 ,碰 到对 某 篇 医学 文 献 很 感 兴 趣 时 , 通 常会产 生 将 类 似 的相 关 文 献 全 部 找 出来 的 想 法 。 在对 象集 中查 找与某 个 给定 对 象 “ 似 ” 对 象 的查 相
并 以链接检索的方式 ,实现各知识点之间的相互关
联 。 ( ) 统计 分析 模块 :包 含信 息 统 计 与关 联 分 析 3 的功 能 。可 以从 主 题 、学 科 、作 者 、期 刊 、时 间 、 地 区 6个维 度 进行 信 息 统 计 ,各 个 维 度 之 间 可 以通
询过程称为相似性检索 。计算两篇文献之间的相 似程度 ,即文献的语义距离 ,涉及到相似度的计算 ,
对 于给定 的 目标 文 献 ,相 似 性 检 索 的关 键是 进 行 文
过关联分析进行深度信息挖掘。
3 2 检 索词 智能 提醒 . 中文 医学 主题 词表 是 医学领 域权威 的主题 词表 ,
T ep pr o e ecm npolm urn rn igb m dclirtr r r vl yt pooe a tlgne h ae sl s h o mo rbe s ncr tu n i e i t a e e i a ss m, rp ss ni e i c v t i e n o a le u te e n le
的主题 词 、概 念 、术 语 3级 结构 ,每 个 主, 都 与 题词 对应 的概念 、术 语建 立关 联 ,实现 同义 扩展 检索 。
医学术 语 的 同义 现 象 非 常多 ,文 献 的规 范 化 程
度不高,造成医学信息 的查全率与查准率受到较大
影 响 ,对 于 同一 个 概 念 的理 解 ,由 于用 户 背景 知 识 的差异 ,肯 定有 不 同的 表述 。如 与 肺 肿 瘤表 达 同一 概念 的有 肺 癌 、肺 部肿 瘤 、肺 部 癌 症 等 ,而 且 肺 肿 瘤 还 可 以细 分 为 非小 细 胞 肺 癌 、小 细胞 肺 癌 、支 气 管 癌等类 型 ,若 逐 个分 别 检 索 ,将 大 大增 加 用 户 的 负担 。为 了解决 这 一 问题 ,需 要 采 用 同义 扩 展 检 索 技 术 和上下 位语 义扩展 检索来 提 高检索 效率 。
夏光辉 李军莲 李丹亚
( 中国医学科学院医学信息研究所 北京 10 2 ) 00 0
[ 要 ] 针 对 目前 生物 医学文献检 索 系统 的 常见 问题 ,提 出基 于 MeH 词表 构 建 智 能型检 索 系统 的设 想。 摘 S 将 基 于 MeH词表 的检 索词 智能提 醒 、扩展检 索、主题相 关检 索 以及 主题 共现分析 等技 术结合 起 来 ,提 高检 S 索 系统的查 全率 。 实际应 用表 明智 能检 索与智 能分析 相 结合 的检 索模 式能 够提 高检 索 系统性 能 ,挖掘 文献 隐
r r vl ytm bsdo S .T ew rigg u mb e tet h o g f u ae , x n e tea, ujc rtea adC — e i a ss ae nMeH h okn opc i s h cnl yo at l t et ddr r vl sb te i l n O te e r o n e o o— r e ei e rv
・
3 ・ 3
J U N LO D A F MA IS 01 o.2,N . O R A F ME I LI O T 2 1,V 1 C N C 3 o1 2
提 升检索 系统 的查 全率 。
3 4 主题相 关检 索 .
直 以来 ,中国生物医学文献数据库 ( B C M)都坚
持采 用 MeH词 表 进行 人工 标 引 ,积 累 了丰 富 的 标 S 引数 据 ,为基 于 MeH 构 建 智 能 化 的 中 国生 物 医 学 S 文献 服务 系统 也 提供 了条件 。因此根 据用 户 的需求 , 按照 模块 化 的设 计原 则 , 中 国生物 医学 文 献 服 务 系 统将 智 能查询 与 智 能分 析 有 机 地 结 合 起 来 ,构 建 智 能检 索 系统 。划 分 为 3大 功 能 模 块 。 ( ) 检 索 模 1
较多,文献的规范化程度不高,造成 医学文献 的查
全率与查准率受到较大 的影响;文献之 间的关联性 较差 ,无法体现文献之 间的规律性知识 ,未能全面
满足用户的信息需求等等。本文提 出一种基于 《 医
MeH词表 由美 国 国立 医学 图 书馆 编 制 ,是 目 S
[ 收稿 日期 ] 2 1 — 8— 5 0 1 0 2 ( 者简 介] 夏光 辉 ,助理馆员 ,发表论文 6篇 。 作
i h l f l o o t z y t m f n t n ,mo e v r i d i l ai n d s i l e mo g l e au e . s ep u p i e s se u ci s t mi o r o e ,f mp i t icp i sa n i r t r s n c o n t
J R A DC LIF MA IS 01 o.2 o1 OU N L ME I O T 2 1,V 1 ,N . OF A N C 3 2
医学信息学杂志
2 1年第 3 01 2卷第 1 2期
基 于 M 的 医 学 文 献 智 能 检 索 系 统 设 计 eH S 与 实 现
医学 科学 研究需 要 对 医学 文献 信 息 进行 检 索 与 分 析 ,发现其 中规律 性 的知识 ,获取 有价值 的信 息 , 这 是 医学学术 研究 的重 要 组成 部 分 。 目前 医学 文 献 检索 系统存在 的主要 问 题包 括 医 学术 语 的同义 现象
示 医学文 献之 间潜 在 的规 律 ,并 有 效地 提 高 了 医学 文献 的查 全率 。
检索 词 智 能 提 醒 、主 题 扩 展 检 索 、主题 相关 检 索 、 主题 检索 以及主 题 共现 分 析 相结 合 的方 法 ,用 于 医 学文 献智 能检索 ,并 成 功地 构 建 了 中 国生 物 医学 文
献 服务系 统 。该 系 统 通过 医学 文献 之 间 的关 联 ,揭
献相似性的度量。本系统主要考虑文献 的主题信息
实现 相似性 检 索 。文 献 的主 题 相 似性 检 索 的 一般 流 程 为 :( )从 文献 中抽取 主题信 息 。 ( )在 文献 库 1 2 中的索 引表 中做集合 运算 ,并 计算 相 似 度 。 ( ) 按 3
医学相关领域 的图书和 文献 的标 引 和检索都 遵循
含 规律 。
[ 关键 词 ] MeH;生物 医学 ;智能检 索 系统 S
Dein a d Re l a in o e ia ie au eI tlg n eRere a y tm sd o e H X A G a g ~h i L u s n ai t fM dc lL tr t r nel e c tiv lS se Ba e n M S g z o i I un u, IJ n—l n,L i a I
[ y od ] MeH;Bo ei n ;It le te i a ss m Kew rs S im d ie nei n te l yt c lg r r v e
1 引 言
学主题词表》( ei l uj t ed g,M S M d aSb cH ai s eH)的 c e n
MeH 词 表 的原 则 。但 用 户 对 MeH 词 表 不 是 很 熟 S S 悉 ,用户所 熟 悉 的医 学 术语 也 往 往 不 是 规 范 的 主题 词 ,具 有较 大 的随 意性 。 因此 当用 户输 入检 索词 时 , 提 供 主题词 和款 目词 智 能 提 醒 功 能 ,可 以 引导 用 户
分 类 ,等级 结构 专 指 度 强 ,每个 主 题 词 至 少分配 一
输入 规范 的 医学术 语 进 行 检 索 ,从 而提 高 检 索 的查 全率 和查 准率 。 3 3 基 于 Me H的扩 展检 索 . S
个最专指的树形结构号 ,能够精确揭示主题词 的等 级关 系,既可以起到分类导航 的作用 ,也便 于了解 主题词上位类 、下位类或同位类1 根据 用户 需 求划分 功 能模块 .
本 系统 的应 用对象 主要 是 医学 相关领 域 的用 户 ,
应体现的用户需求有 :良好 的交互性 ;易:使用的 于 二
检索界面;中西文一体 的医学信息检索 ;较高 的查
全率 ;智 能 化 的检 索 功 能 和 较 强 的智 能 分 析 功 能 。
・
2 Me H概 述 S
前 国际上最具 代表 性 、使 用 最 为广 泛 的 受控 医学叙 词表 … 。MeH词 表按 照词 义 范 畴 和 学 科 属 性 进 行 S
3 ・ 2
医学信 息学 杂志 2 1 年第 3 01 2卷第 1 2期
J R A DC LIF MA IS 01 o.2,N . OU N L ME I O T 2 1,V 1 OF A N C 3 o1 2
D n a ntu d a I om tn hns A a e yo ei l c ne, a —y ,Istt o Mei l n r ai ,C ie cdm M dc i c i ef c f o e f aSe s
1 02 ,C i 0 0 0 hn a
[ btat A s c] r
照相似度将文献排序输 出。考虑到中国生物医学文
献数 据库 的文 献采用 M S 主题词进 行 了人工 标 引 , eH
文献的标引质量 比较好。因此 ,第 l步,以文献的 主题字段信息来代替从文献 中 自动抽取主题信息 ,
这 样就 转化 成从 主 题 字段 中提 取 主题 词 ,其 准 确 性
o c re c n lsst mp o e r c l rt . P a t e i dc ts t a t e c mbn t n b t e n el e c er v la d itl g n ea ay i c u r n e a ay i o i rv e al ai o r ci n iae h t h o i ai ewe n it l g n er t e a n n el e c n l ss c o i i i
一
为实现扩展检索,借助 M S eH词表 ,同时构造
了一个 医学 术语 对 照 表 。使 用 MeH 主 要 是 为 了 获 S 得 检索入 口词 的上 下位 词 及 款 目词 ,使 用 医 学术 语 对 照表则 获 取检 索词 的 同义 词 。 由于 中文 医学 主题 词 表 和医学 术语对 照 表 都建 立 了医 学 常用 术 语 与 主 题 词 的对 应关 系 ,若 检 索 人 口词 为 非 主题 词 ,则 借 助 于词表 中的对 应关 系进 行 转化 ,并 自动 检 索 其对 应 的主题 词 、同义 词 、下位 主题词 以及 下位款 目词 ,
块 :分为快速检索 、高级检索 、主题检索 、分类 检
索 、期 刊检索 、作者 检 索 6个 子 模 块 ,并 且 支 持 限 定检 索 和检索 历史 等功 能 。 ( )结 果 显 示模 块 :将 2 检索 结果 按照 核 心 期 刊 、 中华 医学 会 期 刊 以及循 证 文献 等进 行分 类 ,支持 多种 格式 的显 示 和保存 输 出 ,