医学一体化语言系统(UMLS)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
二、UMLS的组成
超级叙词表(Metathesaurus) 语义网络( Semantic Network) 情报源图谱(Information sources
Map ISM) 专家词典(Specialist Lexicon)
四个部分组成。这四部分紧密联系、 不可分割,构成了一个有机的整体。
中医药文献数据库在多年的建库过程中,深 刻体会到标引工作的复杂性与耗时、人、财 量。
5
为实现自动标引与自由检索,以及数据 库的深层次加工与数据挖掘。现行方法 有二个方面。
数据库结构的拆分与细化。 语言处理。
美国国立医学图书馆研制了统一的医学 语言系统(Unified Medical Language System,UMLS),其目的在于克服计算 机生物医学信息检索中相同的概念具有 不同的表达方式,有用的信息分散在不 同的数据库系统中。
11
概念组织:
叙词表是依据概念(concept)或涵义(meaning) 组织起来的,其根本目的是将相同概念的交替名称 和不同形式联系在一起,并识别不同概念之间的联 系。因此,可以说概念是超级叙词表组织系统的中 心。保留原有词表中概念与关系,同时增加了一个 新的关联。整合成一个庞大的可控的知识库。
9
( 1 )超级叙词表
超级叙词表是生物医学概念、术语、词汇及其等级范畴 的广泛集成。“Meta”意即超越、含盖。
1997年第8版的超级叙词表收录了来源于30多种生物医 学词表和分类表的能表达33万多个概念的739439个词 汇,2001年12版收录了83万个概念,190万个词。到 2002 年 , 第 13 版 超 级 叙 词 表 收 录 了 776940 个 概 念 共 210万个词。
4
(4)词表的不完备性影响了标引的质量。词 表的更新赶不上时代发展的步伐。庞大的词 表,使标引速度大大地降低。
(5 )标引员与检索员都必需熟悉词表才能工 作,使用非常不便。因此,必须发展使用电 脑来进行自动标引。早在1956年,美国的 H.P.Luhn就开始了文献自动标引的试验; 60年代初,美国的G.Salton教授在自动标引 方面取得了令世界瞩目的成就。
对于同一概念的不同术语以及不同的变异形式,超 级叙词表采用三级结构模式,即概念(I 级)-术语 (II 级)-词串(III 级),将一个概念的多种不同术 语连同多个变异词串有序地组织在一起。对于不同 的概念,超级叙词表采用多种“关系”概念如相关 概念、组配概念、共现概念等来描述不同概念之间 的关系。
92年至今为应用阶段 ,1996年UMLS新增了一个组成部分即 “专家词典”。在此阶段,许多研究机构利用UMLS 进行基于 Internet的应用开发,如决策支持系统DX plain、文献检索系统 Web medicine、临床Web搜索系统Clin web、医学世界检索 Medical world search以及集成化的Med weaver等。同时进行 了NLM/AHCPR大规模词汇测试。
过程
1986-1988的第一阶段,其研究和开发的重点是调查用户需求、 开发研究工具、 确定UMLS的性能及其实施方案、界定系统组 成等。在此阶段主要界定了UMLS的三个组成部分即超级叙词 表、语义网络、情报源图谱,并且进行了包括Mesh、 SNOMED、CMIT和PDQ词表在内的联接试验。
1989-1991年为UMLS的发展阶段,其开发的重点是迅速研制 和发行三个UMLS产品的试验版,同时继续开展用户调查和 UMLS功能开发。
来源:这些概念和词来自60 多个生物医学受控词表、 术语表、分类表、专家系统中的词汇、词典及工具性词 表等,如Mesh表及其葡萄牙语、西班牙语、法语、德 语、俄语等各种译本、 《医学系统化术语表》、 《国 际疾病分类》修订第 10 版及其他各版、 《护理诊断分 类》、麻省总医院研制开发的DX plain专家系统、 《多 兰氏图解医学辞典》、 《校对词表》3.1 版等。 10
大家好
1
医学一体化语言系统 (UMLS)
中研信公司
2
前言
20世纪中叶是情报语言学研究中人工语 言发展的鼎盛时期,20世纪末叶是人工 语言与自然语言相结合的新兴阶段。
自然语言由于存在词汇的同义、多义现 象,词汇的模糊性和不确定性,词汇量 的巨大,词间关系不明晰等问题,不可 能单纯使用它进行检索,所以需要用一 种受控检索语言对检索和标引所用的词 汇进行控制,把用户的语言和标引人员 的语言统一起来。 由于信息量的扩充, 给人工语言的处理带来了很大的困难。
6
一、UMLS的建立与发展过程
建立目的:
旨在建立一个计算机化的可持续发展的生物医学检索语言集成系 统和机读情报资源指南系统,其目的在于提高计算机程序“理解” 用户提问中生物医学词汇语义的能力,并利用这种理解帮助用户 检索和获取相关的机读情报。UMLS是计算机化的情报检索语言 集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工 具,而且是实现跨数据库检索的词汇转换系统,它可以帮助用户 在联接情报源,包括计算机化的病案记录、书目数据库、事实数 据库以及专家系统的过程中对其中的电子式生物医学情报作一体 化检索。是使医疗卫生专业人员和研究工作者能够通过多种交互 检索程序,克服由于不同系统语言差异性和不同数据库相关情报 的分散性所造成的诸多情报检索问题,帮助用户从电子病案系统、 书目数据库、图像数据库、事实数据库、专家系统等各种联机情 报源中检索和获取综合性或特定性的情报信息。 主要解决:1) 同一概念由于不同的人或在不同的数据库中可能会有不同的表达 方式; 2) 数据库系统分散所造成的检索不完整的问题 。 7
3
Leabharlann Baidu
(1)工作量大。因为其工作繁难,国外的信息检 索系统中有75%的运行费用要用于人工标引。 (2)效率低。标引员要正确标引一篇文献,往往 要耗时一个半小时以上。
(3)一致性差。美国的Cleverton曾做过一些试 验,他指出:两组人为同一主题编出的叙词表, 其中词的同一率仅60%。两位有经验的标引员 用同一叙词表对同一篇文献进行标引,其标引 词的同一率仅有30%左右。两个在同一库中用 同一检索系统检索同一问题的人,检索出的结 果的同一率仅有40%。两位科研人员根据同一 提问判断一组指定文献的相关性,其同一率不 会超过60%。
二、UMLS的组成
超级叙词表(Metathesaurus) 语义网络( Semantic Network) 情报源图谱(Information sources
Map ISM) 专家词典(Specialist Lexicon)
四个部分组成。这四部分紧密联系、 不可分割,构成了一个有机的整体。
中医药文献数据库在多年的建库过程中,深 刻体会到标引工作的复杂性与耗时、人、财 量。
5
为实现自动标引与自由检索,以及数据 库的深层次加工与数据挖掘。现行方法 有二个方面。
数据库结构的拆分与细化。 语言处理。
美国国立医学图书馆研制了统一的医学 语言系统(Unified Medical Language System,UMLS),其目的在于克服计算 机生物医学信息检索中相同的概念具有 不同的表达方式,有用的信息分散在不 同的数据库系统中。
11
概念组织:
叙词表是依据概念(concept)或涵义(meaning) 组织起来的,其根本目的是将相同概念的交替名称 和不同形式联系在一起,并识别不同概念之间的联 系。因此,可以说概念是超级叙词表组织系统的中 心。保留原有词表中概念与关系,同时增加了一个 新的关联。整合成一个庞大的可控的知识库。
9
( 1 )超级叙词表
超级叙词表是生物医学概念、术语、词汇及其等级范畴 的广泛集成。“Meta”意即超越、含盖。
1997年第8版的超级叙词表收录了来源于30多种生物医 学词表和分类表的能表达33万多个概念的739439个词 汇,2001年12版收录了83万个概念,190万个词。到 2002 年 , 第 13 版 超 级 叙 词 表 收 录 了 776940 个 概 念 共 210万个词。
4
(4)词表的不完备性影响了标引的质量。词 表的更新赶不上时代发展的步伐。庞大的词 表,使标引速度大大地降低。
(5 )标引员与检索员都必需熟悉词表才能工 作,使用非常不便。因此,必须发展使用电 脑来进行自动标引。早在1956年,美国的 H.P.Luhn就开始了文献自动标引的试验; 60年代初,美国的G.Salton教授在自动标引 方面取得了令世界瞩目的成就。
对于同一概念的不同术语以及不同的变异形式,超 级叙词表采用三级结构模式,即概念(I 级)-术语 (II 级)-词串(III 级),将一个概念的多种不同术 语连同多个变异词串有序地组织在一起。对于不同 的概念,超级叙词表采用多种“关系”概念如相关 概念、组配概念、共现概念等来描述不同概念之间 的关系。
92年至今为应用阶段 ,1996年UMLS新增了一个组成部分即 “专家词典”。在此阶段,许多研究机构利用UMLS 进行基于 Internet的应用开发,如决策支持系统DX plain、文献检索系统 Web medicine、临床Web搜索系统Clin web、医学世界检索 Medical world search以及集成化的Med weaver等。同时进行 了NLM/AHCPR大规模词汇测试。
过程
1986-1988的第一阶段,其研究和开发的重点是调查用户需求、 开发研究工具、 确定UMLS的性能及其实施方案、界定系统组 成等。在此阶段主要界定了UMLS的三个组成部分即超级叙词 表、语义网络、情报源图谱,并且进行了包括Mesh、 SNOMED、CMIT和PDQ词表在内的联接试验。
1989-1991年为UMLS的发展阶段,其开发的重点是迅速研制 和发行三个UMLS产品的试验版,同时继续开展用户调查和 UMLS功能开发。
来源:这些概念和词来自60 多个生物医学受控词表、 术语表、分类表、专家系统中的词汇、词典及工具性词 表等,如Mesh表及其葡萄牙语、西班牙语、法语、德 语、俄语等各种译本、 《医学系统化术语表》、 《国 际疾病分类》修订第 10 版及其他各版、 《护理诊断分 类》、麻省总医院研制开发的DX plain专家系统、 《多 兰氏图解医学辞典》、 《校对词表》3.1 版等。 10
大家好
1
医学一体化语言系统 (UMLS)
中研信公司
2
前言
20世纪中叶是情报语言学研究中人工语 言发展的鼎盛时期,20世纪末叶是人工 语言与自然语言相结合的新兴阶段。
自然语言由于存在词汇的同义、多义现 象,词汇的模糊性和不确定性,词汇量 的巨大,词间关系不明晰等问题,不可 能单纯使用它进行检索,所以需要用一 种受控检索语言对检索和标引所用的词 汇进行控制,把用户的语言和标引人员 的语言统一起来。 由于信息量的扩充, 给人工语言的处理带来了很大的困难。
6
一、UMLS的建立与发展过程
建立目的:
旨在建立一个计算机化的可持续发展的生物医学检索语言集成系 统和机读情报资源指南系统,其目的在于提高计算机程序“理解” 用户提问中生物医学词汇语义的能力,并利用这种理解帮助用户 检索和获取相关的机读情报。UMLS是计算机化的情报检索语言 集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工 具,而且是实现跨数据库检索的词汇转换系统,它可以帮助用户 在联接情报源,包括计算机化的病案记录、书目数据库、事实数 据库以及专家系统的过程中对其中的电子式生物医学情报作一体 化检索。是使医疗卫生专业人员和研究工作者能够通过多种交互 检索程序,克服由于不同系统语言差异性和不同数据库相关情报 的分散性所造成的诸多情报检索问题,帮助用户从电子病案系统、 书目数据库、图像数据库、事实数据库、专家系统等各种联机情 报源中检索和获取综合性或特定性的情报信息。 主要解决:1) 同一概念由于不同的人或在不同的数据库中可能会有不同的表达 方式; 2) 数据库系统分散所造成的检索不完整的问题 。 7
3
Leabharlann Baidu
(1)工作量大。因为其工作繁难,国外的信息检 索系统中有75%的运行费用要用于人工标引。 (2)效率低。标引员要正确标引一篇文献,往往 要耗时一个半小时以上。
(3)一致性差。美国的Cleverton曾做过一些试 验,他指出:两组人为同一主题编出的叙词表, 其中词的同一率仅60%。两位有经验的标引员 用同一叙词表对同一篇文献进行标引,其标引 词的同一率仅有30%左右。两个在同一库中用 同一检索系统检索同一问题的人,检索出的结 果的同一率仅有40%。两位科研人员根据同一 提问判断一组指定文献的相关性,其同一率不 会超过60%。