医学一体化语言系统UMLS

合集下载

一体化医学语言系统 (UNIFIED MEDICAL LANGUAGE SYSTEM, UMLS)

第二节：超级词表 Metathesaurus
• Concepts, terms, and attributes from many controlled “vocabularies” controlled “vocabularies”
• in a common explicit database format e format • New inter source relationships, definitional information, use information
第一节概述
让用户能够方便地把分离的信息系统中的信息集中起来，从而帮助医务人员从大量的信息源中检索和合成电子化的生物医学信息。
1986年，美国国立医学图书馆Donald Lindberg 开始组织研究和开发的一项长期项目。
第一节：概述
具体手段：
UMLS项目开发了机读型的“知识库”。将其广泛应用于应用程序之中，以克服因词表不同
第一节：概述
UMLS的目标和作用
第二节：超级词表
基本概念和结构
第三节：语义网络
基本概念和结构
第四节：专家词典
适用范围和结构
第三节：语义网络
组织概念：
把概念联系起来，通过概念间的语义关系，组成网络。
语义网络是建立概念间相互关系的权威规则。语义类型语义关系
我们以往见到的词表是如何组织概念的呢？
Atoms and Atom Identifiers
原子标识符：每一字串根据来源词表不同赋予不同的AUI。
称来自不同的来源词表的概念名或者字串为 “原子”。
是超级词表的基本构造单元。
第二节：超级词表
超级词表的数据文件
Concept Names (File = MRCON)

文献检索复习题

一、名词解释（20分，每题4分）1、标准文献:是标准化工作的产物，是一种具有约束力的法律文献，同时也是生产和科研的共同依据。

2、科技期刊属于周期性出版物，具有品种多、数量大、报道速度快、内容新颖、能及时反映当前科技水平的特点。

科技期刊是人们传递科技信息，交流学术思想使用的最基本、最广泛的手段。

是一类重要的文献源。

3、信息的存储就是将搜集到的一次信息，经过着录其特征而形成的款目，并将这些款目组织起来成为二次信息的过程。

4、：中国法是一部等级体系分类法，按照从一般到具体、从简单到复杂的原则，进行划分和概括，形成了一个秩序井然、层层展开的概论等级体系。

5、文献工整理将大量分散的、无序的原文文献加以帅选，加工整理，按文献特征进行提炼、浓缩、简化、编译成系统的工具性文献。

如文摘、索引、书目。

填空（30分，每空1分）二、1. 获取原文的途径有以下四种:通过期刊主办机构或出版机构网站获取原文、通过搜索引擎获取原文、通过全文数据库获取原文和通过免费电子期刊网站获取原文。

2. 科研论文文题的构成要素有: 明确研究对象、突出研究目的、标明研究方法和阐述主要贡献3. 论文的正文包括五大部分：前言、方法、参考文献、结果和讨论。

4. 文献按载体可划分为：印刷型文献、缩微型文献、机读型文献、实物型文献、声像型文献。

5．期刊的文献特征有：刊名和编辑单位不变、定期出版，多为双月刊、有连续编号、一般不再版和重印6. CNKI数字图书馆提供多种检索途径：导航检索、主题词检索、二次检索、检索途径、高级检索。

7. 存储信息的主要形式为文献。

8. 记录知识或信息的物质载体叫文献。

三、单项选择题（请将正确答案的序号填在括号内，每题2分，共20分）BADCC CBCCB ACCCA1. 广义的信息检索包含两个过程（）A 检索与利用B 存储与检索C 存储与利用D 检索与报道2. 下列哪种文献属于一次文献( )A 科技报告B 百科全书C 综述D 文摘3. 下列哪种文献属于二次文献( )A 专利文献B 学位论文C 会议文献D 索引4. 下列哪种文献属于三次文献( )A 标准文献B 学位论文C 数据手册D 文摘5. 少量载有某一学科大量有关文献的叫（）A 科技图书B 科技期刊C 核心期刊D 科技报告6. 以下作为检索工具的是（）A 零次文献B 一次文献C 二次文献D 三次文献7. 系统化了的信息叫（）A 情报B 知识C 载体D 文献8. 以下作为检索对象的是（）A 零次文献B 一次文献C 二次文献D 三次文献9. 以下作为情报研究成果的是（）A 零次文献B 一次文献C 二次文献D 三次文献10. 广义的信息检索包含两个过程（）A 检索与利用B 存储与检索C 存储与利用D 检索与报道11. 国际标准书号定长为（）位数字A 10B 12C 8D 912. 期刊论文记录中的“文献出处”字段是指：（）A 论文的整理B 论文整理的工作单位C 刊载论文的期刊名称及年卷期、起止页码D 收录论文的数据库13. 按执行功能分，下列不属于标准文献的是：（）A 强制性标准文献B 一般性标准文献C 基础标准文献D 推荐标准文献14. 以下检索出文献最少的检索式是（）A a and bB a and b or cC a and b and cD (a or b) and c15. 《中国图书分类法》（简称《中图法》）是我国常用的分类法，要检索数理科学方面的图书，需要在（）类目下查找。

论UMLS超级叙词表的概念表达

式规范，而定义的形式自由，因此在自动识别用户提问和机
念被使用的信息。所有这些概念表达方法都可以帮助我们识别和理解来源词表中各个பைடு நூலகம்单独的概念。
１概念定义
器可读信息源中的概念涵义差异方面，概念的语义类型比定
义更有用：３概念内关系超级叔词表是依据概念组织起来的。表达一个相同的
“
是解决因为各系统的差异性和信．源的分散性所造成的甚资检索困难
超级叙词表的关注焦点是概念．而不是词｛名称或术［、语，其词汇的收集和组织是以传递概念的涵义为目的的。它
是依据概念组织起来的，将具有相同概念而来源不同的词汇及其变体通过特定概念标识ｃ】删ｑｅｃｎＩｅｔｊ）ｌ（Ｌ０ｃＰ盯ｉｒ联ＩＩｅｄｌｅ
『本文编辑；陈
界］
论ＵＳ超级叙词表的概念表达ＭＬ
邱君瑞
（第二军医大学图书馆，上海
关键词：；Ｍ一体化医学语言系统；概念表达
中圈分类号：２４２３Ｇ５４文献标识码：Ｂ
２０３）０４３
文章编号：１７一９２ａｏ）３Ｏ７２６Ｉ３８（０２０一ＯＯ —０
在超级叙词表中这检索到与概念相关的信息两者自然没有被当作同义词但是有关两者在医学主题词5使用信息表中的关系被保留用这种方式超级叔词表既能正确地掌握概念涵义的另一种方法是揭示概念被使用的信息表达概念又能支持在检索用来源词汇标引的数据库时制定超级叙词表中的概念在一些情报源中出现的信息就是其中相应的检索策略

UMLS在信息检索系统中的应用

８３５１７１８个不同的标准化概念名称（ＬＵＩｓ）；１６９个来源词表。共有２１种语言。（２）组织的层次性与统一性：超级叙词表除对多
机化的情报检索语言集成系统，它不仅是语言翻译、自然语言处理及语言规范化的工具，而且是实现跨
Ａｂｓｔｒａｃｔ：ＴｈｅｐａｐｅｒｂｉｒｅｌｆｙｉｎｔｒｏｄｕｃｅｓｔｈｅｔｈｒｅｅｍａｉｎｃｏｍｐｏｎｅｎｔｓｏｆＵｎｉｉｆｅｄＭｅｄｉｃｌａＬａｎｇｕａｇｅＳｙｓｔｅｍ（ＵＭＬＳ）：ｍｅｔａｔｈｅｓａｕｒｕｓ，
ｓｅｍａｎｔｉｃｎｅｔｗｏｒｋａｎｄｓｐｅｃｉｌｉａｓｔｌｅｘｉｃｏｎ．ＩｔｂａｓｅｓｏｎＰｕｂＭｅｄａｎｄｉｔｓｉｎｄｅｘｉｎｇｌａｎｇｕａｇｅＭｅＳＨｔｏｓｔｕｄｙｏｎｍａｉｎａｐｐｌｉｃａｔｉｏｎｓｏｆＵＭＬＳ
使用问题。从而克服２个障碍：一是不同机读资源和不同人群对同一概念表达的差异；二是信息在网络中不同数据库之间传播的困难 …。ＵＭＬＳ同时是计算
语、涵义、关系的广泛集成。其具有以下特点：（１）来源的广泛性和异构性：在２０１２年１１月１５１３发布的新版ＵＭＬＳ（版本代号为“ ２０１２ＡＢ ” ）中，超级叙词表包含２８８６４２３个概念；ｌ１２５４０５１万个概念名称（ＡＵＩ）；９３２９４９１个不同概念名称（ＳＵＩｓ）；

国外常用医学搜索引擎介绍

国外常用医学搜索引擎介绍1.Medical Matrix医源/Index.aspMedical Matrix 是一种由概念驱动的免费全文智能检索工具，包括4600多个医学网址，1994年由堪萨斯大学创建，现由美国Medical Matrix LLC主持，是目前最重要的医学专业搜索引擎。

它是一个可免费进入的I nternet临床医学数据库，提供了关键词搜索和分类目录搜索，最适合临床医师使用。

分类目录搜索是它的主要特色，按各种医学信息分为专业（Specialties）、疾病种类(Diseases)、临床实践(Clinical Practic e)、文献(Literature)、教育(Education)、健康和职业(Healthcare and Professionals)、医学计算机和Inter net技术(Medical Computing,Internet and Technology)、市场(Marketplace)等8大类。

每一大类下再根据内容的性质分为新闻(News)、全文和多媒体(Full Text/Multi-Media)、摘要(Abstracts)、参考书(Textbook s)、主要网址(Major Sites/Home Pages)、操作手册(Procedures)、实用指南(Practice Guidelines/FAQS)、病例(Cases)、影像学和病理切片(Images、Path/Clinical)、患者教育(Patient Education)、教育资源(Educ ational Materials)等亚类。

2.Medscape(医景,)/美国公司Medscape公司1994年研制,1995年6月投入使用,由功能强大的通用搜索引擎AltaVista支持,可检索图像、声频、视频资料，至今共收藏了近20个临床学科25000多篇全文文献，拥有会员50多万人，临床医生12万人。

医药学专业搜索引擎简介

1
HON
1996
2
Medical Matrix
Medical World Search
1994
3
1977
•分类导航 •检索
病人、医护人员
序号
搜索引擎名称
建立主要功能时间
面向主要用户群体
特点
4
•分类导航 •检索 Medscape 1995 •医学新闻 •教育培训
临床医师
会员制（必须注册后才能检索和查看全文）；资源类型丰富；教育培训功能；专家观点（perspective）
图6-4 Medical Matrix 主页
关键词检索ຫໍສະໝຸດ 特色链接分类导航高级检索界面
• 与HON相比，功能相对简单，主要功能是分类导航和检索。 • 分类目录包括：专业(Specialties)、疾病种类 (Diseases)、临床应用(Clinical Practice)、文献 (Literature)、教育(Education)、健康和职业 (Healthcare and Professionals)、医学计算、因特网和技术(Medical Computing, Internet and Technology)、市场(Marketplace)八大类。 • 每一大类下再根据内容的性质分为新闻(News)、全文和多媒体(Full Text/MultiMedia)、期刊 (Journals)、参考书(Textbooks)、网址和主页 (Major Sites/ Homepages Guidelines/FAQS)、 CME、患者教育(Patient Education)、论坛（Forums）等亚类。
图6-5 Medical World Search 主页

医学知识推理研究现状与发展

医学知识推理研究现状与发展知识表示是为描述世界所做的一组约定，是知识符号化、形式化、模式化的过程，主要研究计算机存储知识的方法，其表示方式影响系统的知识获取、存储及运用的效率。

然而医学数据种类繁杂，存储方式不一，电子病历格式和标准不同，经常涉及交叉领域等特点，导致医学领域与其他领域在知识表示方面有所差异，同时也给医学领域的知识表示带来极大的挑战。

早期医疗知识库运用的知识表示方法有：谓词逻辑表示法，产生式表示法，框架表示法，语义网表示法等等。

比如，SNOMED-CT，早期的MYCIN 系统，大肠杆菌数据库EcoCyc等。

随着知识图谱中知识增长、关系复杂化，这些方法由于表示能力有限且缺乏灵活性，不再作为主要的知识表示方法，更多是作为医学知识表示的辅助或补充。

本体表示法以网络的形式表示知识，即以（实体1，关系，实体2）三元组来表示相关联的两个节点（实体），在知识图谱提出之后逐渐得到认可。

它借鉴了语义网表示法但又有所区别：本体关注的是实体固有特征，比后者更聚焦，更深入，因而也具有更大的发展潜力。

而本体的描述语言也多种多样：主要有RDF和RDF-S、DAML、OWL等。

使用本体表示医学术语可以提升数据整合能力：建立强大、可互操作的医疗信息系统；满足重用共享传输医疗数据的需求；提供基于不同语义标准的统计聚合。

医学领域本体的构建，需要深入分析医学术语的结构和概念，才能将晦涩甚至是跨语言的医学知识有效地表达出来。

目前的医学知识本体库有：医学概念知识库LinkBase，TAMBIS本体库(TaO)等等。

知识图谱的节点个数影响着网络的结构复杂度及推理的效率和难度。

知识表示学习借助机器学习，将研究对象的语义信息表示为稠密低维向量，有效解决数据稀疏问题，从而提升知识融合和推理性能[。

低维向量表示是一种分布式表示（distributed representation），它模仿人脑中使用多个神经元存储对象的工作机制，使用多维度向量表示对象的语义信息。

医疗数据中的关键信息提取技术综述

医疗数据中的关键信息提取技术综述医疗数据中的关键信息提取技术综述随着医疗领域的快速发展，医疗数据的规模和复杂性也在不断增加。

在这些庞大的医疗数据中，往往包含着丰富的各种疾病信息、患者病史以及医疗资源等重要的关键信息。

为了更好地利用这些信息，医疗数据中的关键信息提取技术应运而生。

关键信息提取是指从文本数据中自动抽取关键信息或实体的过程。

对于医疗数据而言，关键信息提取可用于识别疾病名称、病人信息、医疗术语等有意义的实体。

通过关键信息提取，可以提高医疗数据的可用性和价值，为医疗决策和研究提供了重要的支持。

医疗数据中的关键信息提取技术可以分为两类：基于机器学习的方法和基于规则的方法。

基于机器学习的方法使用训练数据集来训练模型，然后使用该模型对新的数据进行分类或抽取。

这些方法通常涉及特征选择、特征表示和分类器设计等步骤。

目前较为常见的机器学习方法包括支持向量机（SVM）、朴素贝叶斯（Naive Bayes）和深度学习等。

基于规则的方法则通过人工定义一系列规则来进行信息抽取。

这些规则通常基于医学领域的专业知识和语义规则。

例如，可以通过正则表达式或模式匹配的方式来识别特定的医疗术语或实体。

基于规则的方法具有较高的准确性和可解释性，但对于复杂的数据结构和文本语义的理解能力有限。

此外，还有一些混合方法结合了机器学习和规则的优点。

比如，可以使用机器学习方法训练一个分类器来区分不同的实体类型，然后使用规则来进一步限定提取的结果。

这样可以在一定程度上提高关键信息提取的准确性和效率。

除了提取关键信息，医疗数据中的关键信息提取技术还需要考虑数据的隐私和安全。

医疗数据是敏感的个人信息，因此在处理医疗数据时需要遵守相关的法律法规，确保数据的隐私和安全。

一些方法如数据脱敏和数据加密等可以用于保护医疗数据的隐私。

综上所述，医疗数据中的关键信息提取技术是一项重要的研究课题。

通过提取医疗数据中的关键信息，可以帮助医生和研究人员更好地理解疾病信息和患者病史，从而改善医疗决策和研究。

基于UMLS的医学资源库语义扩展检索系统架构

ＳｅｍＲｅｐ用来提取生物词汇和短语中的语义类型。ＵＭＬＳ提供了ＷＥＢＡＰＩ来访问这三个工具，也可以下载这些工具的安装程序本
地安装使用。在这些工具中，ＭｅｔａＭａｐ是ＳＫＲ工具的核心，可以作为用户和超级叙词表之间的桥梁。
一
于这些词表之间的映射结构，使这些不同的术语系统之间能够彼此转换。ＵＭＬＳ主要由超级叙词表、语义网络、专家词典三个组件
构成。
超级叙词表是ＵＭＬＳ的基础。是由来自各种受控词表的概念和术语以及它们之间的关系所构成的集合；超级叙词表中收录
ｉｄ（乙酰水杨酸）、Ｃａｎｃｅｒ（癌症）和Ｍａｌｉｇｎａｎｔｏｆｎｅｏｐｌａｓｍ（恶性肿瘤）、Ｓｃａｒ（伤疤）和Ｃｉｃａｔｒｉｘ（疤痕）分别都是同义词，但是各自都是完
全不同的关键词。所以按照关键词搜索不可避免的会影响搜索的查全率和查准率。
除了上述工具以外，ＵＭＩＳ的超级叙词表和语义网络中的数据可以通过两种方式直接访问，一种是安装ＭｅｔａｍｏｐｈｏｒＳｖｓ程序，
在生物医学领域中，名词和术语比较多，一词多义现象和多词一义现象很多。除此之外，还有大量的术语之间的语义联系，比
如词的上下位关系，关联关系，难以通过关键词搜索表现出来。所以，在搜索模块中，有必要引人一个生物医学领域统一的可控术

一体化医学语言系统 (UNIFIED MEDICAL LANGUAGE SYSTEM, UMLS)

和相关文献分散于不同数据库等问题造成的检索困难。
In The Beginning… in 1986 that is… NLM Created…
The Unified Medical Language System, a longterm research & development project to build a “Unified” Medical Language System
第一节：概述
知识源：包括四种，即超级词表、语义网络、信息源图谱和专家词典。
超级词表是生物医学的概念、术语、词汇及其涵义、等级范畴的集成。
语义网络是为建立概念、术语间相互关系而设计的，它为超级词表中的所有概念标明了类别和语义类型。
信息源图谱是一个有关各种生物医学数据库的范围、位置、词表、语法及获取条件的信息。
专家词典则包括英语词汇数据库及其配套程序。相互联系，结合使用的一个整体。
UMLS Distribution
Annual updates since 1990 Plan to distribute quarterly updates Free, but requires a license agreement Full UMLS available: ▪ CD-ROM ▪ ftp from the Knowledge Source Server ▪ Application Programming Interface (API) ▪ Knowledge Source Server (KSS)
一体化医学语言系统
（Unified Medical Language Syste什么？它是干什么用的？它由哪些部分组成？各个部分的结构是什么？什么是CUI、LUI、SUI？什么是语义类型？什么是语义关系？在什么具体情况下可以使用它？

一体化医学语言系统概述及其对规范中国医学术语的借鉴作用-腾修

一体化医学语言系统及其对规范我国医学术语的借鉴作用朱彦慧腾吉斯（全国科学技术名词审定委员会，北京100717）摘要：由美国国立卫生院开发创立的一体化医学语言系统已成为世界上最全面的医学术语系统，它包括四个组成部分：元叙词表、语义网络、专家词典与相关词典项目、支持性软件工具，并拥有17个语言版本。

一体化医学语言系统不仅为全球使用者搜索文献提供便捷，也为我国电子病历的实施提供术语学基础。

关键词：一体化医学语言系统，术语The UMLS and Its Reference to Standardize Chinese Medical TerminologiesZHU Y anhui Tengjisi( National Committee for Terms in Sciences and Technologies, Beijing, China 100717) Abstract: Has been developed for over two decades by U.S. National Institute of Health, with its 17 linguistic versions, the Unified Medical Language System (UMLS) has become the most universal medical terminology system. It includes the Metathesaurus, Semantic Network, SPECIALIST Lexicon and associate lexicon program, supporting software tools. The UMLS provides convenience for literature retrieval and the implementation of the national electronic medical record.Keywords: UMLS; terminology在当前众多的术语数据库中，一体化医学语言系统（the Unified Medical Language System）以收词量大，涵盖面广，语言版本多而备受瞩目。

中医药学语言系统

超级叙词表可视为一个概念名词的知识库，是由生物医学领域中许多不同索引典或分类表中所抽取出来的词目所组成。
超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。 1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的、能表达33万多个概念的739439个词汇；到目前超级叙词表收录了 100多万个生物医学概念、共500多万个词。这些概念和词来自100多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等，如医学主题词词表（Medical Subject Headings，MeSH）及其葡萄牙语、西班牙语、法语、德语、俄语等各种译本、医学系统术语表（Systematized Nomenclature of Medicine，SNOMED）、国际疾病分类修订第10版（International Classification of Diseases , 10th Revision , ICD-10）及其他各版、LOINC（Logical Observation Identifiers Names and Codes）、临床药物标准术语（RxNorm）等。
等级关系链 is a
相关关系链 associated _with 物理上相关（physically related to）
功能上相关（functionally related to）
概念上相关（conceptually related to）空间上相关（Spatially related to）
时间上相关（temporally related to）
统一的医学语言系统是计算机化的情报检索语言集成系统，它不仅是语言翻译、自然语言处理及语言规范化的工具，而且是实现跨数据库检索的词汇转换系统，它可以帮助用户在联接情报源，包括数字化的病案记录、书目数据库、事实数据库以及专家系统的过程中，对其中的电子式生物医学情报作统一的检索。

医学一体化语言系统(UMLS)

S0016668 Atrial Fibrillation (preferred)
S0016669 Atrial Fibrillations
L0004327 (synonym) Auricular Fibrillation Auricular Fibrillations
S0016899 Auricular Fibrillation (preferred)

概念组织：叙词表是依据概念（concept）或涵义（meaning）组织起来的，其根本目的是将相同概念的交替名称和不同形式联系在一起，并识别不同概念之间的联系。因此，可以说概念是超级叙词表组织系统的中心。保留原有词表中概念与关系，同时增加了一个新的关联。整合成一个庞大的可控的知识库。对于同一概念的不同术语以及不同的变异形式，超级叙词表采用三级结构模式，即概念（I 级）-术语（II 级）-词串（III 级），将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念，超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。
二、UMLS的组成
超级叙词表（Metathesaurus）
语义网络（
Semantic Network）情报源图谱（Information sources Map ISM）专家词典（Specialist Lexicon）四个部分组成。这四部分紧密联系、不可分割，构成了一个有机的整体。
(4)词表的不完备性影响了标引的质量。词表的更新赶不上时代发展的步伐。庞大的词表，使标引速度大大地降低。 (5 )标引员与检索员都必需熟悉词表才能工作，使用非常不便。因此，必须发展使用电脑来进行自动标引。早在1956年，美国的 H.P.Luhn就开始了文献自动标引的试验； 60年代初，美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。中医药文献数据库在多年的建库过程中，深刻体会到标引工作的复杂性与耗时、人、财量。

中国医学语言体系整体进度

中国医学语言体系整体进度1目标和意义该研究第一阶段的目标是建立一个基于计算机管理的“统一的中国医学语言系统”,该系统由中国医学用语数据库、中国医学用语语义网络系统、中国医学用语与标引检索语言对应转换系统3个部分组成。

该系统将为实现中文生物医学文献计算机标引和分类,加快文献处理速度,提升文献处理的准确性和一致性提供良好的支撑环境;同时将最大限度地跨越语言表达的差异性和相关信息的分散性,为生物医学信息一体化检索提供有效的帮助。

该系统的实现将使传统的中文医学文献处理和检索发生根本性的变革。

2国内外研究现状美国国立医学图书馆自1986年开始研制统一的医学语言系统(UnifiedMedicalLanguageSystem,UMLS),其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。

该系统由超级叙词表、语义网络、信息资源及专用词典组成。

其中超级叙词表囊括了“MedicalSubjectHeadings”(医学主题词表)在内的词表、分类表70余种,涵盖了生物医学概念73万项,相关名称15万条。

该系统在计算机辅助文献标引、研制开发相关文献的数据库及具有辅助检索功能的IGM和PubMed信息检索系统方面发挥了巨大作用,提升了计算机自动处理的水准,极大地方便了用户的查询。

国内科技信息界自20世纪90年代后相继进行了分类—主题词一体化词表的研制工作,如国家图书馆编制的《中图法—汉语主题词对照表》,中国医学科学院信息所与图书馆编制的《中图法与MeSH、中医药学主题词对照表》等。

它们的最大特点是标引数据时,可同时完成文献的主题标引和分类标引,并提升了标引的速度和一致性。

3系统的构成与功能3.1中国医学用语数据库该数据库来源于10余种生物医学词表、词典及分类表,可分为以下几种类型。

3.1.1叙词表。

如《医学主题词表》,《中医药学主题词表》,《统一的医学语言系统—超级叙词表》(UMLSMetathesaurus等。

中医药学语言系统研究综述

中医药学语言系统研究综述于彤;贾李蓉;刘静;杨硕;董燕;朱玲【期刊名称】《中国中医药图书情报杂志》【年(卷),期】2015(039)006【摘要】Traditional Chinese Medicine Language System (TCMLS) is a large-scale language system which has been developed by Information Institute of Traditional Chinese Medicine of China Academy of Chinese Medical Sciences combined with 13 TCM research institutes and colleges and universities since 2002. Based on Unified Medical Language System (UMLS), TCMLS was developed according to the language features and subject system characteristics of TCM field. Then by using the design philosophy and method of Ontology, TCMLS has been finally established. With more than a decade of development, the technical system of TCMLS has reached maturity, and the related researches were getting increasingly in-depth and systemic. This article reviewed the development history and related literature of TCMLS, and analyzed existing problems and future development directions.%中医药学语言系统(TCMLS)是由中国中医科学院中医药信息研究所联合全国 13 家中医药科研单位和高等院校于 2002 年开始研制的大型术语系统.它是在统一医学语言系统(UMLS)的基础上,根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成.经过10余年的发展,TCMLS的技术体系日趋成熟,相关研究也越来越深入和系统化.通过回顾TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和未来的发展方向.【总页数】5页(P56-60)【作者】于彤;贾李蓉;刘静;杨硕;董燕;朱玲【作者单位】中国中医科学院中医药信息研究所,北京 100700;中国中医科学院中医药信息研究所,北京 100700;中国中医科学院中医药信息研究所,北京 100700;中国中医科学院中医药信息研究所,北京 100700;中国中医科学院中医药信息研究所,北京 100700;中国中医科学院中医药信息研究所,北京 100700【正文语种】中文【相关文献】1.ISO发布《中医药学语言系统语义网络框架》和《中医药文献元数据》两项国际标准 [J],2.ISO首发两项中医药信息国际标准--《中医药学语言系统语义网络框架》和《中医药文献元数据》 [J], 《中国中医药报》3.ISO技术规范"中医药学语言系统语义网络框架"的应用研究 [J], 于彤;崔蒙;李海燕;刘静;杨硕;贾李蓉4.基于中医药学语言系统的知识问答系统的设计与构建 [J], 贾李蓉; 刘丽红; 刘静; 高博5.基于中医药学语言系统的知识问答系统设计 [J], 贾李蓉;高博;刘静;刘丽红因版权原因，仅展示原文概要，查看原文内容请购买。

上海中医药大学科技信息中心

学习和理解
理解什么是中医药一体化语言系统（TCMLS） TCMLS的作用：对数据库建设的支持；
建立并补充结构化数据库建库所需的标准表；与可控词表的关联关系，实现自动标引的抽词；实现中医药临床诊疗系统中数据与数值规范化应用。
学习和理解
理解什么是中医药一体化语言系统（TCMLS） TCMLS的作用：对检索查询的支持；
任务与目标
目标：
中医药一体化语言系统的建立将创建一种以高度专业化、综合化的超级知识库为基础的集各种功能于一体的情报检索语言模式。
对现有中医药学科的所有信息进行整合，将现有的中医药标准化语言与术语等按其特有模式存储，并且按统一方式进行处理，为实现中医药数据信息向知识信息过渡奠定基础。
项目执行
逐步完善由于中医药一体化语言系统还是处在一个起步阶段，很多问题不是一蹴而就的，需要不断的学习、理解、讨论和调整才能逐步完善，因此其建立是一个比较漫长的过程。
收获
自我提高
开展了UMLS与TCMLS的比较研究，作为研究生教育和培养的一个内容，进行了相关课题的研究和硕士研究生论文的撰写，开展了专题讲座，获得了较好的评价；
学习和理解
理解什么是一体化语言系统（UMLS）如：
UMLS表示的是什么？它是干什么用的？它由哪些部分组成？各个部分的结构是什么？什么是语义类型？什么是语义关系？在什么具体情况下可以使用它？
学习和理解
什么是一体化语言系统（UMLS）背景：
美国国立医学图书馆(NLM)1986年开始组织研究和开发的一项长期项目。
学习和理解
理解什么是中医药一体化语言系统（TCMLS） TCMLS与UMLS的异同：

国际疾病分类

国际疾病分类国际疾病分类(ICD)是标准的诊断工具，流行病学，卫生管理和临床用途。

这包括人口群体的总体健康状况的分析。

它是用来监测疾病和其他健康问题的发生和流行。

它是用来，分类疾病和其他健康问题记录在多种类型的健康和生命的记录，包括死亡证明和健康记录。

除了使存储和检索的诊断信息，为临床，流行病学和质量的目的，这些记录也为世卫组织会员国的国家的死亡率和发病率统计的编制提供了基础。

它是用来报销和资源分配决策的国家。

ICD-10的第四十三届世界卫生大会通过1990年5月，从1994年开始投入使用世卫组织会员国。

11日修订的分类工作已经开始，将持续到2015年。

SNOMED (Systematized Nomenclature of Human and Veterinary Medicine referenceTerminology) 是为了满足医学信息处理的广泛要求，在原SNOMED3.5版的基础上加入新的设计理念，于2000年面世的新产品。

SNOMED RT的设计思想、基本构成、应用前景以及它与原SNOMED 3.5版、UMLS及其它医学术语标准的关系。

医学系统命名法,临床术语，是当前国际上广为使用的一种临床医学术语标准。

这套术语集，提供了一套全面统一的医学术语系统，涵盖大多数方面的临床信息，如疾病、所见、操作、微生物、药物等，可以协调一致地在不同的学科、专业和照护地点之间实现对于临床数据的标引、存储、检索和聚合，便于计算机处理。

同时，它还有助于组织病历内容，减少临床照护和科学研究工作中数据采集、编码及使用方式的变异。

对于临床医学信息的标准化和电子化起着十分重要的作用。

采用SNOMED CT的计算机应用程序示例电子病历计算机化医嘱录入，如电子处方或实验室检验项目申请录入重症监护病房远程监控实验室检验结果报告急诊室表格记录癌症报告基因数据库SNOMED临床术语(SNOMED CT)是最全面的，多语种的临床医疗术语在世界上。

一体化医学语言系统UMLS概述

55
1 2
专家辞典是超级叙词表建立和维护所需的生物医学词汇库
3
• 是在NLM自然语言专家处理系统(NLP)项目基础上研发的，覆盖范围包括常见的英语单词和生物医学词汇，含有约45万条生物医学及常用英语词汇条目，80余万条词汇变化形式。
句法： • 将若干词组合
起来创建出某种含义；
词法： • 词的变化规则、
L0018681 headache
A1641293 Cranial Pain （MeSH） S1680378 Crania8053 HEAD PAIN CEPHALGIA（DxP） S0375902 HEAD PAIN CEPHALGIA
distinct concept name
distinct normalized concept names sources (distinct source families by language) sources contributing concept names languages contributing concept names
足词性变化需求。
9
通过语义网络和词法工具，将不同来源的术语集最终集成到超级叙词表中
第一步
第二步
第三步
第四步
第五步
• 使用词法工具 • 将同义词术语
（Lexical
分组到概念中
Tools）处理术
语和代码
• 通过语义网络中的语义类型对概念进行分类
• 结合源词汇表 • 以通用格式
（vocabularie
3
来源术语 AUI
超
级
字符串
SUI
叙
词
表
概
念原型化术语 LUI

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

过程
1986-1988的第一阶段，其研究和开发的重点是调查用户需求、开发研究工具、确定UMLS的性能及其实施方案、界定系统组成等。在此阶段主要界定了UMLS的三个组成部分即超级叙词表、语义网络、情报源图谱，并且进行了包括Mesh、 SNOMED、CMIT和PDQ词表在内的联接试验。
1989-1991年为UMLS的发展阶段，其开发的重点是迅速研制和发行三个UMLS产品的试验版，同时继续开展用户调查和 UMLS功能开发。
到相同的Term identifier (LUIs)；同理“Auricular Fibrillation”和
“Auricular Fibrillations”也会同样被指引到另一个term identifier
(LUIs)。而当系统检视term identifier时会发现“Artial Fibrillation” 和
来源：这些概念和词来自60 多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等，如Mesh表及其葡萄牙语、西班牙语、法语、德语、俄语等各种译本、《医学系统化术语表》、《国际疾病分类》修订第 10 版及其他各版、《护理诊断分类》、麻省总医院研制开发的DX plain专家系统、《多兰氏图解医学辞典》、《校1 对词表》3.1 版等。
1
概念组织：
叙词表是依据概念（concept）或涵义（meaning）组织起来的，其根本目的是将相同概念的交替名称和不同形式联系在一起，并识别不同概念之间的联系。因此，可以说概念是超级叙词表组织系统的中心。保留原有词表中概念与关系，同时增加了一个新的关联。整合成一个庞大的可控的知识库。
涵会被错误指引的问题。然而在以后的版本中，有关处理同形异义的问题，可能会采用限定词的方式，如“cold (temperature)”, “cold (disease)”等。
1
Concepts (CUIs)
C0009264 cold temperature
FIGURE 2.
Terms (LUIs)
1
(1)工作量大。因为其工作繁难，国外的信息检索系统中有75%的运行费用要用于人工标引。 (2)效率低。标引员要正确标引一篇文献，往往要耗时一个半小时以上。
(3)一致性差。美国的Cleverton曾做过一些试验，他指出：两组人为同一主题编出的叙词表，其中词的同一率仅60%。两位有经验的标引员用同一叙词表对同一篇文献进行标引，其标引词的同一率仅有30%左右。两个在同一库中用同一检索系统检索同一问题的人，检索出的结果的同一率仅有40%。两位科研人员根据同一提问判断一组指定文献的相关性，其同一率不会超过60%。
医学一体化语言系统UMLS
前言
20世纪中叶是情报语言学研究中人工语言发展的鼎盛时期，20世纪末叶是人工语言与自然语言相结合的新兴阶段。
自然语言由于存在词汇的同义、多义现象，词汇的模糊性和不确定性，词汇量的巨大，词间关系不明晰等问题，不可能单纯使用它进行检索，所以需要用一种受控检索语言对检索和标引所用的词汇进行控制，把用户的语言和标引人员的语言统一起来。由于信息量的扩充，给人工语言的处理带来了很大的困难。
S0026353 Cold
S0026747 Common Cold
S0007171 Cold <2>
S0026353 Cold
不同概念间关联的建立
在Meta中展示了不同概念间的各种关系，而这些关系的建立，有些是取自原有的索引表架构，有些则是在建构Meta时所赋与的。例如“Atrial Fibrillation” （心房纤维颤动）和“Arrhythmia”（心律失常）在MeSH 中是以层级架构来展示二词间的隶属关系。但“Atrial Fibrillation”在本质上也是一种“Arrhythmia” 在MeSH 中却没有被展现，此即Meta在建构时所新添的关系。另外，有时也会有来自其它索引典所建立起来的概念关系应用到Meta上。例如概念词“Paroxysmal Atrial Fibrillation” （阵发性心房纤维颤动）在Meta中被指引为“Atrial Fibrillation” 的下位词(Narrowed term)，即是取自MeSH, ICD-9, SNOMED等索引表中所建立的架构。
92年至今为应用阶段，1996年UMLS新增了一个组成部分即 “专家词典”。在此阶段，许多研究机构利用UMLS 进行基于 Internet的应用开发，如决策支持系统DX plain、文献检索系统 Web medicine、临床Web搜索系统Clin web、医学世界检索 Medical world search以及集成化的Med weaver等。同时进行了NLM/AHCPR大规模词汇测试。
1
一、UMLS的建立与发展过程
建立目的：
旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读情报资源指南系统，其目的在于提高计算机程序“理解” 用户提问中生物医学词汇语义的能力，并利用这种理解帮助用户检索和获取相关的机读情报。UMLS是计算机化的情报检索语言集成系统，它不仅是语言翻译、自然语言处理及语言规范化的工具，而且是实现跨数据库检索的词汇转换系统，它可以帮助用户在联接情报源，包括计算机化的病案记录、书目数据库、事实数据库以及专家系统的过程中对其中的电子式生物医学情报作一体化检索。是使医疗卫生专业人员和研究工作者能够通过多种交互检索程序，克服由于不同系统语言差异性和不同数据库相关情报的分散性所造成的诸多情报检索问题，帮助用户从电子病案系统、书目数据库、图像数据库、事实数据库、专家系统等各种联机情报源中检索和获取综合性或特定性的情报信息。主要解决：1）同一概念由于不同的人或在不同的数据库中可能会有不同的表达方式； 2）数据库系统分散所1造成的检索不完整的问题。
1
Hale Waihona Puke （ 1 ）超级叙词表超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。“Meta”意即超越、含盖。
1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的能表达33万多个概念的739439个词汇，2001年12版收录了83万个概念，190万个词。到 2002 年，第 13 版超级叙词表收录了 776940 个概念共 210万个词。
或语文上拼字的不同，凡是有差异者均视为一个独
立的字符串，而分别赋予不同的字符串识别码
(unique string identifier, 简称SUI)。由于Meta实际
上是由英文款目所构成的，所以不同词型间表达相
同概念的语词要能连结在一起，就必须依赖一般形
式识别码术语码(common term identifier, 简称LUI)
类推。
1
1
Meta利用LUIs来串接SUIs及CUIs。但是这种处理方式有可
能导致一个字符串若含有多种意义时，可能会被错误指引。尤其是Meta中包含多个索引表系统，此类状况当然可能发生。
举例：字符串Cold的含义可能指温度上的冷，也可能是指一般感冒，因此在SUIs中将其分别定义为cold (1)、cold (2)，在String部份就会产生四个与cold近似的字。因cold、 cold (1)、cold (2)在拼字上仅有些许差异，故被指引到同一个LUI，相对的Common Cold则被指定为另一个LUI。而检视Term identifier时，根据语词含义，再分别指引到所属含义的CUIs，其中Cold因语义模糊，所以被指引到二个 Concept identifier，系统以此方式解决同一字符串不同内
的指引。
1
1
Concept (CUI)
Terms (LUIs)
C0004238 Atrial Fibrillation (preferred) Atrial Fibrillations Auricular Fibrillation Auricular Fibrillations
L0004238 Atrial Fibrillation (preferred) Atrial Fibrillations
1
(4)词表的不完备性影响了标引的质量。词表的更新赶不上时代发展的步伐。庞大的词表，使标引速度大大地降低。
(5 )标引员与检索员都必需熟悉词表才能工作，使用非常不便。因此，必须发展使用电脑来进行自动标引。早在1956年，美国的 H.P.Luhn就开始了文献自动标引的试验； 60年代初，美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。
中医药文献数据库在多年的建库过程中，深刻体会到标引工作的复杂性与耗时、人、财量。
1
为实现自动标引与自由检索，以及数据库的深层次加工与数据挖掘。现行方法有二个方面。
数据库结构的拆分与细化。语言处理。
美国国立医学图书馆研制了统一的医学语言系统（Unified Medical Language System,UMLS），其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式，有用的信息分散在不同的数据库系统中。
对于同一概念的不同术语以及不同的变异形式，超级叙词表采用三级结构模式，即概念（I 级）-术语（II 级）-词串（III 级），将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念，超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。
L0215040 cold temperature
L0009264 Cold <1> Cold
C0009443 Common Cold
L0009443 Common Cold
L0009264 Cold <2> Cold
1
Strings (SUIs)