基于数据挖掘的中医药数据预处理方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11)1
I 3)1 14)while(++p!=nul)
圈1正交分解算法 由于药剂量为“少量”、“适量”的药一般起调节药口味、
滋补作用,为了更利于数据挖掘,减少分类的属性,先将此 类药品从方剂组成中删除,并不影响疗效,在数据挖掘之后,
将对方剂进行修正。经以上流程处理,表1中第1条记录的
方剂组成将变成如表2中的形式。
1992106111
解热;抗炎;感冒; 葛根2509;北豆根1509;自茅根l 509;
上呼吸道感染;发 板兰根(板蓝根)2009;薄荷1009;白花
热;咽;喉
蛇舌草2509;红花509;蝉蜕509;生
石膏3509;芦根1509;金银花1009
中药材有l 000 1 200余种,其中常用药材大约500
I)string+=Formula;i=0:
2)do{
3)if(+p==’;’){ 4)string pf=本“;”与前一个“:”问的字符串 5)if(pfO有数字字符){ 6)Medicine=pf中数字字符前的字符串 7)Quantity=pf中数字字符开始的字符串 8)if(‘(‘存在于Medicine中) 9)M[i][O]=Medicine’(’前的字符串; 10)M【i儿01-Medicine;M【ij【1]=quantity;
叫=—1 0r0“…(W—jxr/—j)
∑(Wixtli) l
其中:i,j∈[1,n];oj为方剂中第J味药的相对药剂量; wj为准确数值后的第j味药的药剂量; rli为第i味药的有效成份含量系数;
一281—
2.2.5模糊化处理 经过以上的处理,中药名按顺序用编码表示,药剂量有
了一个合适的数值,但是各味药的药剂量是不同的,也就导 致了一个问题:药剂量形成了一连续的数值型变量。一方面, 不利于分类数据挖掘对药剂量的处理;另一方面,用某一味 药在某一方剂中的药剂量形成规则过于片面化,影响了规则 的质量。为此,我们借用模糊集理论,首先用k一中心点聚 类方法从所有的药剂量中找到3个模糊区域的中心点,然后 用我们设计的隶属函数将每一味药的剂量转为模糊集,这样 既满足分类数据挖掘的要求又不失普遍性。
各步聚顺序是确定的,改变则会影响处理的结果。
’
(
I
方剂规范
L 化后数据
.
◆
①离散化数值
②异名处理 ③概化归约 ④ 药剂量加权 ⑤模糊化处理
圈2药搁量规范化步聚 2.2.1离散化数值
该步骤设计为离散化处理表2中的药剂量。提取药剂量 中的数值信息,对其进行如下公式的计算:
f药剂量; 若药剂量已经是离散型数值
(1)如何从长文本字段中分离出病症、药名及药剂量?
(2)为保证各属性含义唯一,如何处理“同药异名”问题?
(3)药剂量的数值和度量表示混乱,如何合理处理数值及
寻找一个科学的度量单位?
(4)为更好地实施分类,如何尽量减少一个方剂中的药味
数而又不影响结果正确性?
基金项目:国家“863”计划基金资助项目(2002AA412020) 作者筒介:朱金伟(1981—),男,硕士,主研方向:数据挖掘;鞠时 光,教授、博导;辛燕,硕士、讲师, 收稿日期:2005—10—30 E-mail:weally26@sohu.corn
即对于同一记录,如果中药a∈SUB,那么a与N同来源、
药性相当。通过对中药词典的检索,把专利数据中的药名分
别与中药词典中的正名与别名匹配,用该药物的编码来标识
药名,这样“同药异名”便得以解决,具体过程见图3中的
Merger算法。
1)读取一条Formula信息; 2)for each Mi∈Formula,将Mi分别与中药 词典中的中文正名、别名、子类药集进行匹配; if Mi=NJ则Mi=IDj;if Mi∈BK则Mi=IDx; ifMi∈SUBL则Mi=IDL; 3)合并方剂中同一味药的剂量, ifMi=Mj则Wi=Wi+Wj,清除Mj与wj; 4)Formula’按Mi的编码顺序进行快速排序;
万方数据
风俗习惯等,可能会产生多种别名,因此,同一中药在不同
医学工作者的单方中可能以不同的名称出现,我们的专利数
据库是手工录入的,于是存有“同药异名”的数据。
为了解决此问题,引入了“中药词典”这一映射表。中
药词典所包含的内容如表3所示。
表3中药词兵
编码(ID)
Z72
中文正名 fN)
薄荷
别名(B)
蕃荷菜,升阳菜,
在我们的数据中,药剂量是以质量为衡量的,我们的挖 掘结果最终还是要体现在药效上。然而中药的药性比较复杂, 全面考虑有四气和五味、归经、升降沉浮及有毒、无毒等方 面,均对药效产生了影响。为了得出的结果更合理,我们将 每味药的有效成份含量系数与药质量相乘的结果作为药剂 量,对药剂量进行了修正,更准确地从数值上体现药效。最 后,为符合数据挖掘的需求,用方剂中药的百分含量来代替 药剂量,计算公式如下:
(1)治疗疾病、方剂组成属性均为长文本格式,文本内用”;”分 隔,含量随药名之后。
(2)由于中草药的分布范围较广,同一中草药不同地域的名称不 同,造成了“同药异名”的结果。
(3)药剂量有离散型(如2509),有连续型(如31.10%~57.70%), 还有模糊型(如适量、少量)以及无药剂量;药剂量的度量有质量、百
万方数据
分比、份数以及只有数值无单位。 表I愿始中药专科羹据
专利号(AP)
治疗病症(Thef)
方剂组成(Formula)
1993110219
盛冒;流感;
大青叶31.10一57.70%;双花(金银
流行性腮腺炎
花)15 4-28 6%;羌活7.7-14.3%;大黄
7 7-14.3%;拳参7.7—14-3%
圈3Merger算法 2.2.3概化归约
方剂组成中存在的多药一来源问题,无疑会加重数据挖 掘的负担,因此我们采用了数据归约技术,得到数据集的压 缩表示,它比源数据集小得多,但仍然保持原数据的完整性, 这样在归约的数据集上挖掘将更有效,并能产生相同或几乎 相同的分析结果。
我们设计了Merger算法检索中药词典实现了异名处理 和归约处理。设经离散化数值处理后的方剂Formula中共有 n味药,方剂组成为(Mi,Wil l<i<n),其中Mi是某一味药的 药名,Wi是该药对应的离散化过的药剂量值。算法如下: 2.2.4药剂量加权
600种H】。方剂组成中存在多药一来源,如“薄荷油”、“薄荷
Baidu Nhomakorabea
梗”、“薄荷叶”同源于“薄荷”,药性相当。 用于实施分类数据挖掘的事务数据库需具备以下2个
条件:
条件1 事务中各项(方剂中的中药名)的含义唯一,即若
Im=In当且仅当m=n;
条件2事务中的项(中药名)按字典次序排序。
中药数据的特点给数据挖掘带来的问题有:
第32卷 第15期
Vbl.32
№lS
·开发研究与设计技术·
计算机工程
Computer Engineering 文章编号t 1000--3428(2006)15--0280---03
媳标识码t A
2006年8月
August 2006
中田分类号t TP274+.2
基于数据挖掘的中医药数据预处理方法
朱金伟,鞠时光,辛燕
药剂量2 1~mi—n=+m—a~x:若药剂量为连续型数值,表示为【IIIin,“m。1
舍弃数值后面的单位(如g、kg、份、%),用一无单位的 确定数值表示药剂量,如表2中“大青叶”的药剂量“31.10%-。 57.70%”,经处理后为“44.4”。 2.2.2异名处理
对于同一种中药,随着时代的变迁,不同的地理环境、
(江苏大学计算机学院,镇江212013)
摘要:中药文化的地区差异带来了中医药数据的众多不确定性,为解决基于数据挖掘的新药研制决策支持系统的数据问题,提出了一套 规范原始中医药数据的处理方法。应用了数据归约技术、聚类的方法、模糊集理论改进了中医药数据的质量,使得在预处理后的中药方剂 数据库中成功挖掘出重要规则,为研制中药新药提供了有力的决策支持。 关奠诃:数据预处理;数据挖掘;数据归约;模糊集;隶属函数
中药专利数据库是建设知识发现系统的基础,如何在其 上进行有效的数据挖掘是工作的关键。而数据挖掘对数据的 要求比较高,因此数据预处理便至关重要。根据统计,在一 个完整的数据挖掘过程中,数据预处理要花费60%左右的时 间,而后的挖掘工作仅占总工作量的10%左右…。由于中医 药历史悠久,再加之我国幅员辽阔,形成了地域性的中医药 文化,带来了数据的不完整性、不一致性、异常等,加大了 数据预处理的难度。
Data Mining Based Approach to Preprocessing TCM Data Set
ZHU Jinwei,JU Shiguang,XIN Yan (Computer School,Jiangsu University,Zhenjiang 212013)
[Abstract]Region’S differences of TCM’S culture lead to much uncertainty in TCM,to solve the data problem of decision support system for new medicine development based on data mining,a series of processing methods tO standardize the original TCM data are proposed.Data reduction technology,clustering analysis and fuzzy set theory are applied to improve the quality of TCM data.getting important rules from the preprocessed TCM database,and providing powerful decision support for exploring new medicine.
子类药集 (SUB)
薄荷梗,薄荷叶,薄荷露, 薄荷油,…
Z869 朱砂根
山豆根,地杨梅, 浪伞根,… 朱砂根叶,矮茎朱 砂根,…
中药词典中收录了现有的国家标准中药材,列出了中药
的唯一索引编码、中文正名以及该味中药的别名和子类药集。
一味中药的多个另U名,均以列入于别名(B)属性;子类药集
(SUB)属性则使“多药一来源”现象可以在词典中得到查询,
裹2经方嗣规范化后蒙曩形式
AP
Z215
z5“
Z326
z187
Z459
19931 10219 Io 29M+0.71HI M 10 71L+o.29MIo.71L+0.29MIo.71L+0.29Ml
2.2萄剂量规范化
为实现数值型的数据挖掘,我们设计了一系列药剂量的 处理方法来继续处理“方剂组成”信息,步聚如图2所示。
针对以上问题,采用聚类的方法、数据归约技术、模糊 集理论等给出了一套适合中医药数据特点的预处理方法,再 通过数据挖掘得到了有用规则,为新药研制提供决策支持。
l中药数据特点
中药专利数据共有2万多条记录,每一条记录包含专利 号、专利名称、发明人、发明人所在地、治疗病症、方剂组 成等属性。从中抽取出感兴趣的属性,数据的格式如表1所 示。从表中可以发现中医药数据的特点:
2中药数据顶处理
为解决上述问题,顺利对中医药数据进行分类数据挖掘, 我们提出了相应的一套预处理方法,分为3大步:(1)方剂规 范化;(2)药剂量规范化;(3)病症分离。 2.1方荆规范化
方剂规范化主要完成方剂组成正交分解和消除冗余的处 理。属性“方剂组成”是一个长文本类型的字段,由一些无 规则的数据组成,不利于数据挖掘的进行,因此,须对其进 行正交分解,将每一味中药及其剂量分别存放,将“()”中 的异名消除,以及清除不重要药名消息。具体操作如图1。
|Key words|Data preprocessing;Data mining;Data reduction;Fuzzy set;Membership function
经过上千年的发展和积累了丰富的经验,中医药成了我 国的国粹。国家对中医药信息化的重视,已经建成和完善了 大量的中医药数据库。为充分利用这些珍贵的中药专利数据, 我们已经初步设计了基于数据挖掘的新药研制决策支持系 统,从数据中提取有价值的规则信息,以期打破中医药数据 堆积而信息贫乏的局面,为新药的研制提供智能决策支持, 促进中医药事业的发展。
I 3)1 14)while(++p!=nul)
圈1正交分解算法 由于药剂量为“少量”、“适量”的药一般起调节药口味、
滋补作用,为了更利于数据挖掘,减少分类的属性,先将此 类药品从方剂组成中删除,并不影响疗效,在数据挖掘之后,
将对方剂进行修正。经以上流程处理,表1中第1条记录的
方剂组成将变成如表2中的形式。
1992106111
解热;抗炎;感冒; 葛根2509;北豆根1509;自茅根l 509;
上呼吸道感染;发 板兰根(板蓝根)2009;薄荷1009;白花
热;咽;喉
蛇舌草2509;红花509;蝉蜕509;生
石膏3509;芦根1509;金银花1009
中药材有l 000 1 200余种,其中常用药材大约500
I)string+=Formula;i=0:
2)do{
3)if(+p==’;’){ 4)string pf=本“;”与前一个“:”问的字符串 5)if(pfO有数字字符){ 6)Medicine=pf中数字字符前的字符串 7)Quantity=pf中数字字符开始的字符串 8)if(‘(‘存在于Medicine中) 9)M[i][O]=Medicine’(’前的字符串; 10)M【i儿01-Medicine;M【ij【1]=quantity;
叫=—1 0r0“…(W—jxr/—j)
∑(Wixtli) l
其中:i,j∈[1,n];oj为方剂中第J味药的相对药剂量; wj为准确数值后的第j味药的药剂量; rli为第i味药的有效成份含量系数;
一281—
2.2.5模糊化处理 经过以上的处理,中药名按顺序用编码表示,药剂量有
了一个合适的数值,但是各味药的药剂量是不同的,也就导 致了一个问题:药剂量形成了一连续的数值型变量。一方面, 不利于分类数据挖掘对药剂量的处理;另一方面,用某一味 药在某一方剂中的药剂量形成规则过于片面化,影响了规则 的质量。为此,我们借用模糊集理论,首先用k一中心点聚 类方法从所有的药剂量中找到3个模糊区域的中心点,然后 用我们设计的隶属函数将每一味药的剂量转为模糊集,这样 既满足分类数据挖掘的要求又不失普遍性。
各步聚顺序是确定的,改变则会影响处理的结果。
’
(
I
方剂规范
L 化后数据
.
◆
①离散化数值
②异名处理 ③概化归约 ④ 药剂量加权 ⑤模糊化处理
圈2药搁量规范化步聚 2.2.1离散化数值
该步骤设计为离散化处理表2中的药剂量。提取药剂量 中的数值信息,对其进行如下公式的计算:
f药剂量; 若药剂量已经是离散型数值
(1)如何从长文本字段中分离出病症、药名及药剂量?
(2)为保证各属性含义唯一,如何处理“同药异名”问题?
(3)药剂量的数值和度量表示混乱,如何合理处理数值及
寻找一个科学的度量单位?
(4)为更好地实施分类,如何尽量减少一个方剂中的药味
数而又不影响结果正确性?
基金项目:国家“863”计划基金资助项目(2002AA412020) 作者筒介:朱金伟(1981—),男,硕士,主研方向:数据挖掘;鞠时 光,教授、博导;辛燕,硕士、讲师, 收稿日期:2005—10—30 E-mail:weally26@sohu.corn
即对于同一记录,如果中药a∈SUB,那么a与N同来源、
药性相当。通过对中药词典的检索,把专利数据中的药名分
别与中药词典中的正名与别名匹配,用该药物的编码来标识
药名,这样“同药异名”便得以解决,具体过程见图3中的
Merger算法。
1)读取一条Formula信息; 2)for each Mi∈Formula,将Mi分别与中药 词典中的中文正名、别名、子类药集进行匹配; if Mi=NJ则Mi=IDj;if Mi∈BK则Mi=IDx; ifMi∈SUBL则Mi=IDL; 3)合并方剂中同一味药的剂量, ifMi=Mj则Wi=Wi+Wj,清除Mj与wj; 4)Formula’按Mi的编码顺序进行快速排序;
万方数据
风俗习惯等,可能会产生多种别名,因此,同一中药在不同
医学工作者的单方中可能以不同的名称出现,我们的专利数
据库是手工录入的,于是存有“同药异名”的数据。
为了解决此问题,引入了“中药词典”这一映射表。中
药词典所包含的内容如表3所示。
表3中药词兵
编码(ID)
Z72
中文正名 fN)
薄荷
别名(B)
蕃荷菜,升阳菜,
在我们的数据中,药剂量是以质量为衡量的,我们的挖 掘结果最终还是要体现在药效上。然而中药的药性比较复杂, 全面考虑有四气和五味、归经、升降沉浮及有毒、无毒等方 面,均对药效产生了影响。为了得出的结果更合理,我们将 每味药的有效成份含量系数与药质量相乘的结果作为药剂 量,对药剂量进行了修正,更准确地从数值上体现药效。最 后,为符合数据挖掘的需求,用方剂中药的百分含量来代替 药剂量,计算公式如下:
(1)治疗疾病、方剂组成属性均为长文本格式,文本内用”;”分 隔,含量随药名之后。
(2)由于中草药的分布范围较广,同一中草药不同地域的名称不 同,造成了“同药异名”的结果。
(3)药剂量有离散型(如2509),有连续型(如31.10%~57.70%), 还有模糊型(如适量、少量)以及无药剂量;药剂量的度量有质量、百
万方数据
分比、份数以及只有数值无单位。 表I愿始中药专科羹据
专利号(AP)
治疗病症(Thef)
方剂组成(Formula)
1993110219
盛冒;流感;
大青叶31.10一57.70%;双花(金银
流行性腮腺炎
花)15 4-28 6%;羌活7.7-14.3%;大黄
7 7-14.3%;拳参7.7—14-3%
圈3Merger算法 2.2.3概化归约
方剂组成中存在的多药一来源问题,无疑会加重数据挖 掘的负担,因此我们采用了数据归约技术,得到数据集的压 缩表示,它比源数据集小得多,但仍然保持原数据的完整性, 这样在归约的数据集上挖掘将更有效,并能产生相同或几乎 相同的分析结果。
我们设计了Merger算法检索中药词典实现了异名处理 和归约处理。设经离散化数值处理后的方剂Formula中共有 n味药,方剂组成为(Mi,Wil l<i<n),其中Mi是某一味药的 药名,Wi是该药对应的离散化过的药剂量值。算法如下: 2.2.4药剂量加权
600种H】。方剂组成中存在多药一来源,如“薄荷油”、“薄荷
Baidu Nhomakorabea
梗”、“薄荷叶”同源于“薄荷”,药性相当。 用于实施分类数据挖掘的事务数据库需具备以下2个
条件:
条件1 事务中各项(方剂中的中药名)的含义唯一,即若
Im=In当且仅当m=n;
条件2事务中的项(中药名)按字典次序排序。
中药数据的特点给数据挖掘带来的问题有:
第32卷 第15期
Vbl.32
№lS
·开发研究与设计技术·
计算机工程
Computer Engineering 文章编号t 1000--3428(2006)15--0280---03
媳标识码t A
2006年8月
August 2006
中田分类号t TP274+.2
基于数据挖掘的中医药数据预处理方法
朱金伟,鞠时光,辛燕
药剂量2 1~mi—n=+m—a~x:若药剂量为连续型数值,表示为【IIIin,“m。1
舍弃数值后面的单位(如g、kg、份、%),用一无单位的 确定数值表示药剂量,如表2中“大青叶”的药剂量“31.10%-。 57.70%”,经处理后为“44.4”。 2.2.2异名处理
对于同一种中药,随着时代的变迁,不同的地理环境、
(江苏大学计算机学院,镇江212013)
摘要:中药文化的地区差异带来了中医药数据的众多不确定性,为解决基于数据挖掘的新药研制决策支持系统的数据问题,提出了一套 规范原始中医药数据的处理方法。应用了数据归约技术、聚类的方法、模糊集理论改进了中医药数据的质量,使得在预处理后的中药方剂 数据库中成功挖掘出重要规则,为研制中药新药提供了有力的决策支持。 关奠诃:数据预处理;数据挖掘;数据归约;模糊集;隶属函数
中药专利数据库是建设知识发现系统的基础,如何在其 上进行有效的数据挖掘是工作的关键。而数据挖掘对数据的 要求比较高,因此数据预处理便至关重要。根据统计,在一 个完整的数据挖掘过程中,数据预处理要花费60%左右的时 间,而后的挖掘工作仅占总工作量的10%左右…。由于中医 药历史悠久,再加之我国幅员辽阔,形成了地域性的中医药 文化,带来了数据的不完整性、不一致性、异常等,加大了 数据预处理的难度。
Data Mining Based Approach to Preprocessing TCM Data Set
ZHU Jinwei,JU Shiguang,XIN Yan (Computer School,Jiangsu University,Zhenjiang 212013)
[Abstract]Region’S differences of TCM’S culture lead to much uncertainty in TCM,to solve the data problem of decision support system for new medicine development based on data mining,a series of processing methods tO standardize the original TCM data are proposed.Data reduction technology,clustering analysis and fuzzy set theory are applied to improve the quality of TCM data.getting important rules from the preprocessed TCM database,and providing powerful decision support for exploring new medicine.
子类药集 (SUB)
薄荷梗,薄荷叶,薄荷露, 薄荷油,…
Z869 朱砂根
山豆根,地杨梅, 浪伞根,… 朱砂根叶,矮茎朱 砂根,…
中药词典中收录了现有的国家标准中药材,列出了中药
的唯一索引编码、中文正名以及该味中药的别名和子类药集。
一味中药的多个另U名,均以列入于别名(B)属性;子类药集
(SUB)属性则使“多药一来源”现象可以在词典中得到查询,
裹2经方嗣规范化后蒙曩形式
AP
Z215
z5“
Z326
z187
Z459
19931 10219 Io 29M+0.71HI M 10 71L+o.29MIo.71L+0.29MIo.71L+0.29Ml
2.2萄剂量规范化
为实现数值型的数据挖掘,我们设计了一系列药剂量的 处理方法来继续处理“方剂组成”信息,步聚如图2所示。
针对以上问题,采用聚类的方法、数据归约技术、模糊 集理论等给出了一套适合中医药数据特点的预处理方法,再 通过数据挖掘得到了有用规则,为新药研制提供决策支持。
l中药数据特点
中药专利数据共有2万多条记录,每一条记录包含专利 号、专利名称、发明人、发明人所在地、治疗病症、方剂组 成等属性。从中抽取出感兴趣的属性,数据的格式如表1所 示。从表中可以发现中医药数据的特点:
2中药数据顶处理
为解决上述问题,顺利对中医药数据进行分类数据挖掘, 我们提出了相应的一套预处理方法,分为3大步:(1)方剂规 范化;(2)药剂量规范化;(3)病症分离。 2.1方荆规范化
方剂规范化主要完成方剂组成正交分解和消除冗余的处 理。属性“方剂组成”是一个长文本类型的字段,由一些无 规则的数据组成,不利于数据挖掘的进行,因此,须对其进 行正交分解,将每一味中药及其剂量分别存放,将“()”中 的异名消除,以及清除不重要药名消息。具体操作如图1。
|Key words|Data preprocessing;Data mining;Data reduction;Fuzzy set;Membership function
经过上千年的发展和积累了丰富的经验,中医药成了我 国的国粹。国家对中医药信息化的重视,已经建成和完善了 大量的中医药数据库。为充分利用这些珍贵的中药专利数据, 我们已经初步设计了基于数据挖掘的新药研制决策支持系 统,从数据中提取有价值的规则信息,以期打破中医药数据 堆积而信息贫乏的局面,为新药的研制提供智能决策支持, 促进中医药事业的发展。