基于本体的临床试验数据语义查询_黄必清

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于本体的临床试验数据语义查询_黄必清
ISSN 1000-
0054CN 11-2223/N 清华⼤学学报(⾃然科学版)J Tsinghua Univ(Sci &Tech),2012年第52卷第1期2012,Vol.52,No.110
/2547-
54基于本体的临床试验数据语义查询
黄必清1, 王 涛1, 朱 鹏1, 薛 霄1, 吴 芸

(1.清华⼤学国家CIMS⼯程技术研究中⼼,北京100084;2.徐州雷奥医疗设备有限公司,徐州221116
)收稿⽇期:2011-03-
16基⾦项⽬:国家“⼗⼀五”科技⽀撑计划资助项⽬
(2008BAH24B01,2008BAH24B03
)作者简介:黄必清(1966—)
,男,湖北,副教授。

E-mail:hbq@tsing
hua.edu.cn摘 要:临床试验数据的描述中多⾃然语⾔、多专业医学术语的特点使得⽤户难以通过⾃定义的关键字快速定位所需的资源。

该⽂采⽤基于本体的⽅法实现对于临床试验数据的语义查询。

该系统的实现步骤如下:使⽤OWL(Web on-tology language)构建基于ICD-10和ICMJE标准的本体,包含疾病和临床试验类;从Clinical Trials注册库获取临床试验数据,
标注为本体中的临床试验类实例;建⽴临床试验实例与疾病实例的联系;借助SPARQL实现对于临床试验数据结构化的查询。

使⽤上述⽅法,
⽤户能够通过疾病实例和相关属性的关键字,
表达结构化的语义查询条件,精确定位所需的临床试验。

与传统的仅基于关键字匹配的查询⽅法相⽐,该⽅法所表达的查询条件能够更加准确地描述⽤户的查询需求。

关键词:语义查询;本体;⽹络本体语⾔(OWL);SPARQL中图分类号:TP 
391⽂献标志码:A
⽂章编号:1000-0054(2012)01-0047-
08Ontology-based semantic query 
for clinical trialsHUANG Biqing1,WANG Tao1,ZHU Peng
1,XUE Xiao1,WU Yun2
(1.National CIMS Engineering Research Center,Tsinghua University,Beijing 
100084,China;2.Xuzhou LEO Medical Equipments Co.,Xuzhou 221116,China)Abstract:The extensive medical terminology used to describe clinicaltrials complicates keyword searches to locate resources.This paperpresents an ontology-based semantic query system for clinical trialdescriptions.This system uses the Web ontology language(OWL)to create the ontology 
based on ICD-10and ICMJE(the ontologyincludes a clinical trial class and a disease class),retrieves clinicaltrial data from ClinicalTrials.gov,annotates the data as instances ofthe clinical trial class and creates relati
onships between the clinicaltrials and diseases to enable structured semantic clinical trial queriesusing SPARQL.Through this method,users can use disease andproperty keywords to express the structured semantic query andlocate the resources.The query conditions generated by this methodmore accurately meet the users needs than traditional queries.Key 
words:semantic query;ontology;Web ontology language(OWL);SPARQL
随着医学和公共卫⽣事业的发展,以及临床试验相关的医学知识不断增长,⼈们需要对其进⾏有效的管理。

世界卫⽣组织定义:临床试验是指以⼈为对象的前瞻性研究,
预先将受试者或受试⼈群分配⾄接受⼀种或多种医疗⼲预,
以评价医疗⼲预对健康结局的影响[
1]。

通过对临床试验进⾏注册,将临床试验的相关信息公开,便于相关部门进⾏监督、管理。

同时,其他临床试验研究机构还可以通过访问这些信息,避免进⾏不必要的重复试验。

另外,患者可以通过了解临床试验信息,⾃愿选择其中的试验参加。

⽬前,全世界有多个临床试验注册库。

Clinical
Trials注册库[2]
是由美国国⽴卫⽣研究院(NIH)
下的国⽴医学图书馆(NLM)
和美国⾷品药物管理局(FDA)
进⾏开发和维护,按照世界卫⽣组织国际医学杂志编辑委员会(ICMJE)所制定标准[3]
进⾏数据发布的临床试验公共注册平台,也是由美国政府构建的第⼀个临床试验注册库。

该注册库⽬前包含174个国家的103 
109个临床试验数据。

在临床试验注册库中进⾏数据查询时,由于临床试验往往针对某⼀类或多类疾病,
因此⽤户⼀般也是希望查找与某⼀类疾病相关联的临床试验。

但是,很多⽤户由于缺乏相关医学知识,很难准确描述疾病名称,因此需要能够实现语义查询,通过疾病概念定位所需查找的临床试验。

同时,临床试验数据包含⼤量信息如试验标题、开始时间、相关疾病、⼲预⼿段、负责⼈、联系⽅式等,传统的基于关键字全⽂匹配的查找⽅式很难满⾜⽤户的查询需求,因此对临床试验进⾏查询时,
还需要能够实现结构化的
48 
清华⼤学学报(⾃然科学版)
2012,52(1
)查询,定位相关属性符合要求的数据。

⽬前,世界上多个研究机构采⽤医学本体概念对医学数据进⾏标注,
从⽽实现基于本体的语义查询。

Shah等使⽤描述癌症相关概念的医学本体NCI 
Thesaurus对斯坦福⼤学组织微阵列数据库中的⼈体组织样本数据进⾏标注,并实现基于该本体
的数据查询[4]。

另外,Shah等还使⽤统⼀医学语
⾔系统(unified medical language system,UMLS)中的本体概念对美国国家⽣物医学信息学中⼼基因表达式库(gene exp
ression omnibus,GEO)中的基因表达式和蛋⽩表达式数据进⾏标注[
5]。

⽽由美国国家医学本体中⼼开发和维护的基于本体的医学知
识管理平台BioPortal[6]
实现了医学本体的统⼀管
理,
并进⼀步借助医学本体概念对⽂献、试验、图像等多种类型和来源的数据进⾏标注,从⽽实现医学数据的有效集成和管理。

结合上述医学领域本体及基于本体的医学数据语义查询的应⽤需求和研究背景,本⽂构建包含临床试验和疾病类的本体,获取Clinical Trials注册库中的临床试验数据,将其标注为本体中临床试验类的实例,建⽴临床试验实例与疾病实例的关系,从⽽实现了基于本体的临床试验数据的语义查询,使得⽤户能够通过疾病实例和相关属性的关键字定位所需的临床试验。

1 本体相关概念
本体原本是⼀个哲学概念,上世纪90年代开始,随着⼈⼯智能的发展⽽被⽤于⾃然语⾔处理、知识表⽰等研究领域。

⽬前,对于本体的概念有
着不同的解释,⽐较公认的本体定义由Gruber于
1993年提出:“
本体是对共享的概念进⾏形式化的显⽰规范说明”[7]
,即本体包含着基本的4层含义[
8]
:1
)概念模型,即本体由概念组成,⽽概念是对客观世界共性存在的抽象描述;
2)显式,即本体的概念具有明确的定义和约束;

)形式化,即本体通过规范的语⾔表述,对计算机可读;
4)共享,即本体表达的是被⼴泛公认和接受的知识。

本体的组成包含概念、关系、函数、公理和实例
5个部分[9]。

概念对事物进⾏描述,
定义事物的属性;关系、函数和公理表述概念之间的内在联系;实
例表⽰概念在客观世界中实际存在的个体,从⽽实现知识的表⽰。

临床试验数据与其他领域知识相⽐,具有数据
量⼤、
⾃然语⾔描述多的特点[10]。

因此,⽬前众多科研机构使⽤本体技术对医学知识进⾏结构化表
⽰,实现知识管理、数据集成和决策⽀持[
11]。

⽬前,应⽤较⼴的医学本体有国际医学疾病分类体系
ICD-10[12]、基因本体GO[13]
、⼈体解剖学本体FMA[1
4]
等。

2 基于本体的临床试验数据语义查询
基于本体的医学临床试验数据语义查询系统功能架构如图1所⽰,由本体构建、数据抓取、数据标注和语义查询4个模块组成。

图1 系统功能架构
在本体构建中,
采⽤ICMJE标准和ClinicalTrials注册库⽬前的格式构建临床试验本体类,该类包含了⼲预措施、对⽐研究、试验假设、⾸要试验指标、次要试验指标等数值属性,同时还包含了值域是疾病类的对象属性“About_disease
”,表⽰某临床试验实例与某⼏类疾病实例相关。

对于疾病类,采⽤国际医学疾病分类体系ICD-10构建疾病分类和层次关系,采⽤ICD-
10中具体的疾病名称作为疾病类的实例。

采⽤Web本体描述语⾔OWL[1
5]
来对上述本体进⾏描述。

本体的构建过程使⽤了由斯坦福⼤
黄必清,等: 基于本体的临床试验数据语义查询
49 
学医学信息⼩组开发的本体设计软件Protég
é[16]。

在数据抓取中,采⽤HTTP协议中的GET⽅法获取Clinical Trials注册库中记录临床试验数据的HTML⽂件。

在数据标注中,对包含临床试验详细信息的HTML⽂件进⾏解析,
从HTML⽂件各数据项中抽取出与临床试验类各属性相对应的数据。

构建临床试验实例,将抽取出的数据作为实例各数据属性
的属性值。

采⽤概念识别[
17]
⽅法,从临床试验实例的相应数据属性中识别出其中所包含的疾病实例,建⽴临床试验实例与疾病实例的相关关系。

在语义查询中,使⽤SPARQL查询语⾔[1
8]
对临床试验实例进⾏结构化的语义查询,查询条件包括与临床试验实例相关的疾病实例以及临床试验实例的属性值。

3 关键功能和技术⽅案
3.1 基于ICD-
10和ICMJE标准的本体构建⽬前,ICMJE制定了临床试验数据的各项标准,规定在⼀个基本的临床试验中,应⾄少包含以下数据:唯⼀标识符、⼲预措施、对⽐研究、试验假设、⾸要试验指标、次要试验指标、纳⼊标准、关键试验数据(如注册时间和开始时间等)、研究⽬的、资⾦来源、联系⽅式等。

Clinical Trials注册库在该委员会所指定的标准下,制定了相应的临床试验注册数
据格式[
19]。

按照ICMJE标准以及Clinical 
Trials注册库中已有的数据格式,构建临床试验本体类,如图2所⽰。

该类包含了多个数据属性,按照Clinical Trail注册库中已有的数据格式,可分为4个属性,分别是跟踪信息属性(tracking information)、描述信息属性(descriptive information)、录⼊信息属性(re-cruitment information)和管理信息属性(adminis-
trative information)。

这4个属性的定义域是“Clinical_trial”类,值域是字符串类型。

将ClinicalTrials注册库中的各数据项作为上述4个数据属性
的⼦属性。

临床试验本体类4个主属性及其⼦属性的说明如下:
1)跟踪信息属性包含了临床试验开始时间、结束时间、最近更新时间等时间节点⼦属性,临床试验最初和当期的⾸要试验指标、
次要试验指标,以及修改历史等⼦属性,⽤于跟踪整个临床试验的进展过程。

2)描述信息属性包含了临床试验的标题、摘要、描述、试验类型、试验阶段、试验设计、所针对疾病、⼲预措施等⼦属性,
对整个临床试验的内容、⽅法、⽬的进⾏具体的描述。

其中,“Condition”属性记录了该临床试验针对的疾病;“Intervention”属性记录了该临床试验所采⽤的⼲预措施,包括药物、设备等。


)录⽤信息属性包含了临床试验的录⽤状态、录⽤标准、联系⽅式等⼦属性。


)管理信息属性包含了临床试验的唯⼀标识符、试验责任⽅、试验资助⽅、试验注册信息提供者等⼦属性。

图2 Clinical_trial概念各属性
50 
清华⼤学学报(⾃然科学版)
2012,52(1
)同时,
构建“About_disease”对象属性,该属性的定义域仍是“Clinical_trial”类,值域是“Disease”类型,⽤于表⽰临床试验与其所针对疾病的相关关系。

⽬前,国际上较为通⽤的疾病分类体系是ICD-10。

参考ICD-
10,构建疾病本体。

按照ICD10的分类,将疾病分为21个⼦类,包括循环系统疾病类、呼吸系统疾病类、消化系统疾病类、神经系统疾病类
等。

在21个疾病⼦类的基础上,对疾病种类、疾病名称等进⾏细分,建⽴疾病本体类层次。

例如,⼼⼒衰竭(heart failure)这⼀类疾病属于循环系统疾病类(diseases of the circulatory system)下的其他类型⼼脏病(other forms of heart disease)这⼀⼦类中,同时,⼼⼒衰竭包含了充⾎性⼼⼒衰竭、⼀般性⼼⼒衰竭、
左⼼衰竭这3个疾病实例。

关于循环系统疾病、⼼⼒衰竭及相关实例之间的关系如图3所⽰。

图3 ⼼⼒衰竭类及其实例
采⽤Protég
é进⾏本体的构建。

本体采⽤⽹络本体语⾔(Web ontology language,OWL)进⾏描述。

OWL以描述逻辑为基础,并在RDF(resourcedescrip
tion framework)的基础上,添加了更多的建模元语,因此具备着较强的推理能⼒和描述能⼒。

使⽤OWL对循环系统疾病、⼼⼒衰竭等疾病类,以及⼀般性⼼⼒衰竭、左⼼衰竭等⼼⼒衰竭类实例进⾏描述的内容如图4所⽰。

<owl:Class 
rdf:ID="Other_forms_of_heart_disease"><rdfs:subClassOf>
<o
wl:Classrdf:ID="Diseases_of_the_circulatory_sy
stem"/></rdfs:subClassOf></owl:Class><owl:Class 
rdf:ID="Heart_failure"><rdfs:subClassOf> <o
wl:Classrdf:about="#Other_forms_of_heart_disease
"/></rdfs:subClassOf></owl:Class><Heart_failure rdf:ID="Left_ventricular_failure"/><Heart_failure rdf:ID="Heart_failure_unspecified"/><Heart_failure rdf:ID="Cong
estive_heart_failure"/>图4 OWL描述疾病类及其实例
3.2 数据提取和标注
Clinical 
Trials注册库中,每个临床试验数据的详细信息都由⼀个HTML⽂件显⽰。

从Clinical
Trials注册库中,随机选取了4 000个临床试验数据,通过HTTP协议的GET⽅法对这些临床试验
数据所在的⽹页进⾏访问,
获取⽹页内容。

在本体中,构建临床试验实例,将从⽹页中抽取出的数据项具体值标注为与该数据项名称相对应的临床试验实例数据属性的属性值。

在创建临床试验实例并对数据属性进⾏标注的基础上,对临床试验实例与疾病实例之间关系进⾏标注,因此需要⾸先从临床试验实例相关属性值⽂本中,采⽤⾃然语⾔处理⽅法识别出其中所包含的疾病概念。

开放⽣物医学标注器(open biomedical annota-tor,OBA)由美国国⽴医学本体中⼼(NCBO)
开发,能够实现对数据中的本体概念进⾏⾃动识别[20-
21]。

该⼯具提供了Web服务,
可以进⾏远程调⽤,因此本⽂通过调⽤OBA的Web服务,⾃动识别临床试验实例“Condition”、“Brief_Title”、“Official_Ti-tle”、“Brief_Summary”和“Detailed_Description”属性值中的疾病概念。

对于识别出的概念,OBA会给出不同的权重,权重值由1到10。

例如,在直接识别中,如果识别出⽂本中包含某概念的⾸选名称,则该概念权重值为10;如果识别出⽂本中包含某概念的同义词,

黄必清,等: 基于本体的临床试验数据语义查询51
该概念权重值为8;在语义扩展中,对于已识别概念的直接⽗概念,其权重值为8。

如果识别出的疾病概念来⾃ICD-10,则从已构建的本体中选取与该疾病概念在标识符上相⼀致的疾病实例,从⽽将该疾病实例作为“About_dis-ease”对象属性的属性值,建⽴临床试验实例与疾病实例之间的关系。

同时,将OBA给出的权重值作为该疾病实例对于所识别的数据属性中的⽂本内容的权重值W
Concept。

另外,对于识别出的疾病实例,本体中与其同属⼀个疾病类的实例也可看作与属性中的⽂本内容相关,可以作为⽂本内容中所包含的疾病实例,但权重值应较低,在本系统中赋值为5。

在系统中,进⾏概念识别的⽂本包括“Condi-tion”、“Brief_Title”等临床试验本体类数据属性,
其中,“Condition”属性记录了临床试验所针对的疾病名称。

由“Condition”属性中的⽂本内容识别出的疾病实例与临床试验的相关度最⾼;“Brief_Ti-tle”、“Official_Title”、“Brief_Summary”、“De-tailed_Description”中的疾病实例与临床试验的相关度相对较低。

因此,对于识别出的概念也根据其所在临床试验本体类属性给出不同的权重值WProperty。

对于“Condition”属性,WProperty为1;对于有关标题的“Brief_Title”和“Official_Title”属性,WProperty为0.8;对于有关试验描述的“Brief_Sum-mary”和“Detail_Description”属性,WProperty为0.6。

标注结果的权重值W
Annotation
的计算公式如下:
WAnnotation=WConceptWProperty.
对于计算出的权重以“疾病实例|所在临床试验属性|权重值”的格式记录在临床试验实例的“comment”属性中。

标注完成后,临床试验实例使⽤OWL进⾏描述部分如图5所⽰。

<Clinical_trial rdf:ID="NCT00905944">
<rdfs:comment>
Left_ventricular_failure|Condition|10
</rdfs:comment>
<About_disease
rdf:resource="#Left_ventricular_failure"/>
<Brief_Title>
Exercise in Patients With a Biventricular Pacemaker
</Brief_Title>
<Condition>
Left Ventricular Failure
</Condition>
</Clinical_trial>
图5 OWL描述临床试验实例
在上述标注结果中,“Brief_Title”数据属性值为“Exercise in Patients With a Biventricular Pace-maker”,“Condition”数据属性值为“Left Ventricu-lar Failure”(左⼼衰竭),“About_disease”对象属性值为“Left_ventricular_failure”这⼀疾病实例,并在“rdfs:comment”标签中说明“About_disease”对象属性值中,“Left_ventricular_failure”这⼀疾病实例是从“Condition”对象属性值中识别,并且由于是直接识别,其权重值为10。

3.3 基于SPARQL的语义查询
语义查询是⼀个图匹配的过程,查询条件可以⽤有向图表⽰,图中每⼀条边表⽰属性类型,每⼀条边的2个端节点表⽰类或属性值[22]。

例如,图6表⽰查找与左⼼衰竭(left ventricular failure)这⼀疾病实例相关,同时在“Brief_Title”这⼀属性的属性值中包含“双⼼室起搏器”(biventricular pacemak-er)短语、在“Brief_Summary”这⼀属性的属性值中包含“物理性能”(physical performance)短语的临床试验实例的查询图。

图6 语义查询图
⽬前应⽤较为⼴泛的语义查询语⾔是由W3C(world wide Web consortium)推荐的SPARQL语⾔。

SPARQL⽤于查询RDF三元组数据,由于OWL是在RDF的基础上发展⽽来,因此,SPAR-QL也可以⽤于查询OWL⽂件。

图6的查询图使⽤SPARQL语⾔表⽰如图7所⽰。

PREFIX c:<http://www.cims.com/ct.owl#>
PREFIX xsd:<http://www.w3.org/2001/XMLSchema#>SELECT?clinical_trial
FROM<http://www.cims.com/ct.owl>
WHERE

ct c:About_disease c:Left_ventricular_failure.
ct c:Brief_Titlet.ct c:Brief_Summarys.
FILTER(REGEX(xsd:string(?t),′biventricularpacemaker′,′i′)&&REGEX(xsd:string(?s),′physi-cal performance′,′i′))

图7 SPARQL⽰例
52 
清华⼤学学报(⾃然科学版)
2012,52(1
)SPARQL的语法与关系数据库语⾔SQL的类似。

在图7的SELECT查询语句中,⾸先定义命名空间前缀,
⽤以说明类、属性或实例所在的命名空间。

在“SELECT”语句中说明查询的对象和对象所在的命名空间。

查询条件在“WHERE”语句中说明,以“类-属性-属性值”的三元组形式进⾏表⽰,类、属性所在的命名空间通过前缀指定,并使⽤过滤器(FIL-
TER)
实现在指定的属性中进⾏基于关键字的查找。

4 系统实现和查询案例
系统开发遵循模块重⽤原则[23]
,采⽤B/S
架构,使⽤Java语⾔在Eclip
se平台下进⾏开发,Web服务器采⽤Tomcat5.0。

系统实现架构分为
数据层、
本体层、逻辑层和操作层,如图8所⽰。

图8 系统实现架构
在数据层,
系统使⽤开源的HTTP协议客户端编程⼯具包HTTPClient[24]
从ClinicalTrial注册库获取临床试验数据,
并仍以HTML⽂件格式将临床试验数据保存在本地。

在本体层中,使⽤Protégé进⾏本体构建。

同时,Protég
é中还提供了对本体进⾏操作的应⽤编程接⼝Protég
éOWL API[25]。

使⽤开源的HMTL⽂件解析⼯具包HTMLPars-
er[2
6]
从临床试验数据HTML⽂件中解析出其中的数据项,并使⽤Protég
éOWL API读取已构建的本体,并创建临床试验本体类的实例,将解析出的数据项作为实例相应的属性值写⼊本体。

另外,调⽤OBA的Web服务从临床试验实例的相关属性值中
识别出疾病实例,
建⽴临床试验实例与疾病实例之间的联系。

在逻辑层,处理⽤户在操作层所选择的操作,根据⽤户的操作⽣成不同的SPARQL查询语
句。

Jena[27]
是由HP实验室开发的⽤于构建语义⽹应⽤的Java框架,包含SPARQL查询引擎,
⽽Protég
éOWL API封装了Jena,因此仍使⽤ProtégéOWL API读取已写⼊实例的本体,并调⽤SPARQL查询引擎实现对本体类和实例的查询。

⽤户界⾯见图9,⽤户可以在界⾯左侧浏览本体中的疾病概念,在界⾯右侧输⼊查询条件,查询条件包括临床试验本体类各属性值中的关键字以及疾病实例,
查询结果在界⾯右下侧显⽰。

在图9的系统界⾯图中,显⽰了图6所⽰语义查询图的查询结果,
即符合查询要求的临床试验实例为NCT00905944。

该实例的简要标题“Exercisein Patients With a Biventricular 
Pacemaker”中包含“biventricular pacemaker”,简要摘要“The investi-gators will evaluate the effects of an exercise p
ro-gram on the physical performance…”中包含“phys-ical p
erformance”。

因为“Condition”属性值为“LeftVentricular Failure”,所以通过概念识别,其相关疾病实例也为“Left ventricular 
failure”。

如果查找简要摘要中包含“heart disease”且与“Cong
estive heart failure”相关的临床试验注册数据,则返回8条查询结果,其中,临床试验NCT00000607的“Condition”属性值为“Cardiovascular 
Diseases;Heart Diseases;Heart Failure;Heart Failure,Con-g
estive”,包含了“Heart Failure,Congestive”,因此,
黄必清,等: 基于本体的临床试验数据语义查询
53 
图9 系统界⾯
通过概念识别,其相关疾病实例为“Congestiveheart 
failure”,且权重值为10,排名靠前。

⽽临床试验NCT00000547的“Detailed_Description”属性值中包含了“left ventricular failure”,描述了该临床试验⽤于研究某治疗⽅法容易最终导致左⼼衰竭的问题,使⽤疾病实例“Left ventricular failure”作为相关疾病属性值时,
权重值为10×0.6=6,⽽使⽤疾病实例“Congestive heart failure”作为相关疾病属性值时,权重值为5×0.6=3,因此,在该查询中,NCT00000607排名靠后。

查询结果排名顺序与各临床试验和查询条件的匹配程度相⼀致。

5 结 论
传统查询⼀般仅基于关键字的匹配,需要⽤户⼿⼯输⼊疾病名称。

输⼊的名称难以统⼀和规范,降低了查询的查全率。

另外,基于关键字的匹配难以描述具有语义的复杂查询条件,也影响了查询的查准率。

本⽂通过构建临床试验和疾病本体类,对临床试验数据实现基于本体的结构化语义查询,便于⽤户通过疾病实例或临床试验属性值关键字定位所需查找的临床试验。

临床试验数据的各数据项如相关疾病、⼲预⼿段、录⽤标准等⼤都采⽤⾃然语⾔进⾏描述,这些内容没有采⽤形式化的语⾔进⾏描述,缺乏语义,不利于被计算机理解和利⽤,也不便于⽤户进⾏查询。

本⽂识别出了相关疾病中的疾病概念,建⽴了临床试验与疾病之间的关系,从⽽可通过疾病实例定位临床试验注册数据。

下⼀步⼯作中,可以构建包含药物、设备等概念的⼲预⼿段本体和包含年龄、地区等概念的录⽤标准本体,
建⽴临床试验与药物、地区等概念的关系,从⽽实现更多功能的语义查询。

参考⽂献 (References
)[1]World Health Org
anization.ICTRP,international clinicaltrials registry p
latform[Z/OL].[2011-03-15].http://www.who.int/ictrp
/zh/.[2]US National Institutes of H
ealth.ClinicalTrials.gov[Z/OL].[2011-03-15].http://clinicaltrials.gov/.[3]Ang
elis C,Drazen J M,Frizelle F A,et al.Clinical trialteg
istration:a statement from the international committee ofmedical journal editors[J].CMAJ,2004,171(6):606-607.[4]Shah N H,Rubin D L,Supekar K S,et al.Ontology
-basedannotation and query of tissue microarray 
data[C]//AMIAAnnual Symposium Proceedings.Washing
ton,DC:PubMed,2006:709-713.[5]Shah N H,Jonquet C,Chiang 
A P,et al.Ontology-drivenindexing of public datasets for translational bioinformatics[J].BMC Bioinformatics,2009,10(Suppl 2):S1.[6]Noy 
N F,Shah N H,Whetzel P L,et al.BioPortal:ontologies and integ
rated data resources at the click of amouse[J].Nucleic Acids Research,2009,37(2):170-173.[7]Gruber T R.A translation approach to portable ontology
specifications[J].Knowledge Acq
uisition,1993,5:199-220.
54 
清华⼤学学报(⾃然科学版)
2012,52(1
)[8]Perez A,Benjamins V.Overview of knowledge sharing 
andreuse components:ontologies and problem-solving 
methods[C]//Proceedings of the IJCAI-99Workshop 
on Ontologiesand Problem-solving Methods.Stockholm:CEUR,1991:1-15.[9]Studer R,Benjamins V,Fensel D.Knowledge engineering
:principles and methods[J].Data &Knowledge Engineering,1998.25(1-2):161-
197.[10]Hernandez T,Kambhampati S.Integration of biolog
icalsources:current systems and challenges ahead[J].SIGMODRec,2004,33(3):51-
60.[11]Bodenreider O.Biomedical ontolog
ies in action:role inknowledge management,data integration and decisionsupport[J].Yearb Med Inf
orm,2008:67-79.[12]World Health Org
anization.ICD,international classificationof diseases[Z/OL].[2011-03-15].http://www.who.int/classifications/icd/en/. 
[13]Gene Ontology 
Consortium.The Gene Ontology(GO)project in2006[J].Nucleic Acids Research,2006,34:322-326.[14]Rosse C,Mejino J L F.A reference ontology for biomedicalinformatics:the foundational model of anatomy[J].Journal ofBiomedical Inf
ormatics,2003,36(6):478-500. [15]W3C.OWL web ontology l
anguage overview[Z/OL].[2011-03-15].http://www.w3.org/TR/owl-features/.[16]Noy N F,Sintek M,Decker S,et al.Creating 
semantic webcontents with Protege-2000[J].Intelligent Systems,IEEE,2001,16(2):60-
71.[17]Shah N H,Bhatia N,Jonquet C,et al.Comp
arison ofconcept recognizers for building t
he Open BiomedicalAnnotator[J].BMC Bioinformatics,2009,10(9):S14.[18]W3C.SPARQL query l
anguage for RDF[Z/OL].[2011-03-15].http://www.w3.org/TR/rdf-sparql-query
/.[19]于河,刘建平.国际临床试验注册概述[J].中西医结合学
报,2007,5(3):234-
242.YU He,LIU Jianping.A review of international clinical t rialregistration[J].Journal of Chinese Integrative Medicine,2007,5(3):234-242.(in 
Chinese)[20]Daniel L,Rubin S E,Lewis C J,et al.National center 
forbiomedical ontology:advancing b
iomedicine throughstructured organization of scientific knowledg
e[J].OMICS:a Journal of Integrative Biology,2006,10(2):185-198.[21]Jonquet C,Shah N H,Musen M A.The op
en biomedicalannotator[C]//AMIA Summit on TranslationalBioinformatics.San Francisco:PubMed,2009:56-
60.[22]ZHANG Lei,LIU Qiaoling,ZHANG Jie,et al.Semp
lore:an IR approach to scalable hybrid query 
of semantic web data[C]//Proceedings of the 6th International The Semantic Weband 2nd Asian Conference on Asian Semantic Web 
Conference.Busan,Korea:Springer-Verlag,2007:652-665.[23]XUE Xiao,YAO Lina,LUO Junwei.The reuse policy 
indeveloping multi-agent system[J].International Journal ofDistributed Sensor Networks,2009,5(1):82-
82.[24]Apache Software Foundation.Http
Client[Z/OL].[2011-03-15].http://hc.apache.org/httpcomponents-client-ga/.[25]Stanford Center for Biomedical Informatics R
esearch.Protégé-OWL API[Z/OL].[2011-03-15].http://protege.stanford.edu/plug
ins/owl/api/.[26]Maven.HTML parser[Z/OL].[2011-03-15].http
://htmlparser.sourceforge.net/.[27]HP Labs.Jena[Z/OL].[2011-03-15].http://jena.sourceforg
e.net
/.櫰櫰櫰櫰櫰櫰櫰櫰櫰櫰櫰櫰櫰櫰毱



科技简讯
《清华⼤学学报(⾃然科学版)》荣获重要奖励2项

011年中国科技论⽂统计结果发布会于2011年12⽉2⽇在北京国际会议中⼼举⾏。

《清华⼤学学报(⾃然科学版)》(以下简称学报中⽂版)在⼯程与技术类⼤学学报中的综合评价总分排名第⼀,再次被授予“中国百种杰出学术期刊”称号,从⽽蝉联了该重要奖项。

中国科学技术信息研究所2011年根据中国学术期刊的变化趋势和实际状况,对期刊的指标权重进⾏了重新核定,对2010年中国学术期刊的总被引频次、影响因⼦、即年指标、平均引⽂率等多项指标进⾏了评价,并在此基础上推出2010年“
中国百种杰出学术期刊”。

学报中⽂版同时被评为“第2届中国精品科技期刊”。

国家科技部⾃2000年以来,先后⽴项进⾏了“中国精品科技期刊战略研究”和“中国精品科技期刊服务与保障系统”的研究⼯作,提出了打造精品科技期刊的概念,以提升中国科技期刊的整体⽔平。

2008年,学报中⽂版曾被评为“⾸届中国精品科技期刊”。

该奖项每3年评选⼀次,每次遴选300种科技期刊。

(http://news.tsing
hua.edu.cn)。

相关文档
最新文档