基于数据挖掘探讨类风湿关节炎证—症—法—方药规律
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于数据挖掘探讨类风湿关节炎证—症—法—方药规律
作者:沈姗姗郑光展俊平贺丹吕爱平姜淼
来源:《风湿病与关节炎》2013年第10期
【摘要】目的:基于文本挖掘数据,探讨类风湿关节炎的证-症-法-方药规律。
方法:在中国生物医学文献数据库中收集涉及类风湿关节炎关键词的所有文献数据,通过降噪处理以及基于敏感关键词频数统计的数据分层算法,挖掘类风湿关节炎的证型、症状、治法、方剂及中药规律,并对这些规律进行一维频次的解释及二维网络图的展示。
结果:文本挖掘的类风湿关节炎临床证型表现虚实夹杂,以痰瘀痹阻、寒热错杂、肝肾亏虚、肝肾阴虚、气血不足证常见,相关脏腑多涉及肝、肾、脾;症状挖掘结果中频数较高的肿胀疼痛、晨僵、强直、功能障碍、关节畸形与临床实际相吻合,侧面从数据上佐证了文本挖掘的可参考性;方药的选择体现了活血通络、活血化瘀、理气化痰、清热解毒、益气养血、滋补肝肾的治疗原则。
结论:通过文本挖掘回溯文献,并结合人工阅读降噪,能够比较客观的总结类风湿关节炎的证-症-法-方药规律,为临床医师诊疗提供有益的探索与参考依据,同时也为中医临床数据客观化提供一种特定的解决途径与方法。
【关键词】关节炎,类风湿;数据挖掘;证候;症状;治法;方剂;中药
类风湿关节炎(rheumatoid arthritis,RA)是一种以侵蚀性关节炎为主要表现的全身性系统性自身免疫疾病,主要病理改变是滑膜炎症。
其病因和发病机制至今尚未明确,有较高的致残率,是危害人类健康生活的主要疾病之一。
RA属中医学“痹证”范畴,因其难治性以及关节肿胀疼痛等特点,又有“顽痹”“历节风”之称。
中医药在治疗RA方面积累了丰富经验并已取得良好的效果。
本文利用课题组逐渐成熟的文本挖掘(text mining)技术[1],系统地探索RA的中医临床相应规律。
1 材料与方法
1.1 文本数据收集在中国生物医学文献数据库(Chinese Biomedical Literature Database,CBM)中以缺省[智能]状态下检索“类风湿关节炎”,共得到文献6763篇(检索日期:2013年3月7日),其中涉及的中医药文献(与汤药、中成药、针灸、推拿、按摩、药物外敷、穴位贴敷、药膳、中医理疗等治疗有关)达4000多篇,约占检索获取文献总数的61%,最后依次下载所有文献并保存。
1.2 文本数据处理将收集来的数据,按照下载先后顺序,整合到一个平面文件(后缀txt)里面,以ANSI编码格式保存。
然后,利用专有的文本提取工具(软件著作权,软著登字第0261882号,登记号2010SR073409),对下载的非结构化txt文本数据进行信息提取,保存成格式化的、便于大型关系型数据库(Microsoft SQL Server,以下简称SQL)处理的格式,然后
导入SQL中进行下一步的挖掘分析。
算一次,据此构建算法进行数据清洗工作[1]。
清洗完毕后的数据,既可以挖掘对象的一维频次,也可以得到挖掘对象二维关系,进行可视化呈现。
抽出高频次的主要关键词对,运用Cytoscape 2.8软件进行可视化处理,形成可视化网络图,然后结合专业知识进行解析,一旦发现不合理结果,即回溯原文献数据集,如果是噪音,仍按算法进行噪音清洗,直至噪音降到满意为止。
最后结果再一次可视化成图,结合专业知识进行最终解析。
2 挖掘结果解析
2.1 证型挖掘结果文本挖掘共提取到一维频数结果76个证型,提取到388项证型组合,选择前10个证型列出(括号内为文献篇数,以下同)肝肾阴虚(23)、肾阴虚(23)、寒热错杂(21)、风寒湿痹(15)、痰瘀互结(14)、寒湿阻络(12)、肝肾亏虚(11)、风湿热痹(10)、湿热瘀阻(10)、湿热阻络(9)。
由于构建词表及挖掘词的包含关系,出现以上结果重复现象,挖掘词越短,挖掘到的频次越高。
结果基本反映了RA证型特征,肝肾阴虚、肾阴虚、寒热错杂最多,其次为风寒湿痹、痰瘀互结。
进而构建RA证型频次大于3的证型两两组合,参与构建的网络关系图。
见图1。
图1 RA证型网络图
图中圆圈内为证型名称,连线代表证型两两之间联系。
证型连线愈多,代表该证型与疾病关联程度越高,越处于核心位置;圆圈越大,代表该证型在文献中出现频次越高,其权重越大。
肝肾阴虚、肾阴虚、痰瘀互结、寒热错杂圆圈最大,其相应文献频次最高。
其中肝肾阴虚或肾阴虚-寒热错杂的频次为6。
左侧椭圆内涉及痰浊、血瘀的证型,包括痰瘀互结、痰瘀阻络、瘀血阻络、痰瘀痹阻的证型;中间椭圆为虚证,包括肝肾阴虚、肾阴虚、肝肾亏虚、气血两虚证型;右侧椭圆涉及证候要素为“湿”的证型,包括湿热阻络、寒湿阻络及风寒湿痹、风湿热痹。
归纳这些证型可以看出,RA虚实夹杂,主要以肝肾阴虚、气血两虚、痰瘀互结、寒热错杂为主;相关脏腑涉及肝、肾、脾。
2.2 症状挖掘结果文本挖掘的症状,既包含西医临床,也包含中医临床报告症状。
文本挖掘共提取到症状136项,选择前10项列出:肿胀(678)、晨僵(412)、强直(377)、关节肿胀(370)、压痛(321)、畸形(312)、关节疼痛(310)功能障碍(158)、关节肿痛(120)、发热(101)。
由上述症状可知,RA是一种以关节受损为主要表现的疾病,并伴有炎性活动所致的发热症状。
进一步文本挖掘提取到74项症状组合,选取频次≥10的主要组合构建症状网络图,见图2。
RA临床表现主要为:炎症诱发的关节肿胀疼痛以及早期即出现的晨僵症状(左侧圈);肿胀疼痛久治不愈而出现的关节功能障碍、活动受限并最终出现关节变形、畸形改变(右侧圈)。
由此可知,RA是一种与炎症相关并导致关节病变逐渐加重的风湿性疾病。
2.3 治法挖掘结果文本挖掘共提取到治法27项,选择前10项列出:活血祛瘀(44)、活血通络(32)、清热解毒(18)、益气养血(7)、滋补肝肾(5)、清热活血(5)、健脾化湿(4)、清利湿热(3)、调和气血(3)、化瘀止痛(2)。
上述一维频数挖掘结果反映出RA的治疗涵盖了“八法”中的和、清、消、补四法,并以消即活血为常见治法。
文本挖掘提取到的46项治法组合构建治法网络图,见图3。
图3 RA治法网络图
结果显示,活血化瘀、活血通络、理气化痰、清热解毒、益气养血、滋养肾阴是RA临床最常见治法。
右侧椭圆中治法针对的是湿和热证候要素为主的证型,中间椭圆内体现的是扶正治法,主要立足于滋补肝肾以及养气养血方面,左侧椭圆内体现的主要是活血化瘀的治法,这里挖掘的主要治法与上述挖掘出的主要证型基本上前后呼应。
通过文本挖掘,我们能够更直观的把握当前RA的主要治法,为临床医生提供有益的文献参考价值。
2.4 方剂挖掘结果文本挖掘共提取到相关方剂名称50个,选择前10项列出:桂枝芍药知母汤(20)、独活寄生汤(13)、蠲痹汤(10)、乌头汤(7)、宣痹汤(6)、四妙勇安汤(6)、身痛逐瘀汤(4)、四神丸(4)、四物汤(4)、三痹汤(4)。
文本挖掘共提取到方剂组合15项,组合频次均为1,其构成的方剂网络图,见图4。
方剂联合运用中,联用频数3以上的有:蠲痹汤(4)、乌头汤(3)、小活络丹(3)、独活寄生汤(3)、桂枝芍药知母汤(3)。
其中,小活络丹可以活血化痰通络适用于痰瘀痹阻的证型,独活寄生汤功用补肝肾、益气血、祛风湿,适用于肝肾亏虚、气血不足的证型,桂枝芍药知母汤功用通阳散寒、祛风除湿,佐以清热,适用于寒热错杂的证型。
椭圆内的蠲痹汤、乌头汤、附子汤、黄芪桂枝五物汤、桂枝汤都具有温经散寒的作用,适用于寒湿痹证的治疗。
2.5 中药挖掘结果文本挖掘共提取到相关中药155味,选取频数相对较高的前10味排序:雷公藤(246)、芍药(92)、青风藤(44)、桂枝(40)、知母(25)、独活(23)、当归(21)、青蒿(20)、丹参(19)、制附子(18)。
通过降噪处理得出,中药挖掘一维频次结果中雷公藤最高,说明当前文献报道的RA中医药治疗中,雷公藤成为临床医师常用的核心药物,且现代药理研究已证实雷公藤提取物具有消炎镇痛[2-3]、免疫抑制[4-5]和保护关节软骨的作用[6-10],是治疗RA的有效药物。
虽此药有大毒,但一般临床用量较小,多控制在15 g以内,同时先于他药煎煮至少1 h以上,并有方中其他药物的相互佐治,足以获得减毒增效的作用[11]。
文本挖掘共提取到的中药组合1332项,选取频次≥4的组合,构建中药网络图,见图5。
当归、白芍、独活、制附子频次较高,为治疗RA的核心药物。
川芎、熟地黄、桂枝等次之。
挖掘到的药物按配伍组方来区分:中间运用的是制附子、当归、白芍、黄芪、防风、川芎,为方剂蠲痹汤中的主药,而当归、白芍、独活、防风、川芎、熟地黄、茯苓、桑寄生、甘草等为独活寄生汤的主药,左边椭圆内桂枝、制附子、知母、白芍均为桂枝芍药知母汤的主
药,这3个方和上述方剂文本挖掘中的一维频数的结果相一致,说明了此为治疗RA的常用药。
另外从药性上解读,祛风湿、温经通络药物以制附子、独活、防风、桂枝为主,调和气血药以当归、白芍、川芎为核心。
3 讨论
文本挖掘技术是以统计数理分析、计算语言学为理论基础,服务于医药、生物、文献研究等学科的新兴的交叉学科[12]。
通过在大量文献中进行的信息抽取、语词识别、发现知识间的关联等[13],能够有效地找到所需信息,并发现隐藏的知识信息,解决了由于文档的数量庞大、缺乏组织整理以及格式多种多样而不能充分利用这些数据的现实问题,它能对海量数据进行整合、分析,获得的结果更具有代表性、可信度更高[14]。
在中医药领域,此方法从某种层次上可促进中医临床研究和中药复方研发等多个方面的发展[15],为中西医结合研究提供了新的思路和途径,并且结果更加客观,可重复性强[16]。
RA属中医学“痹病”范畴,与古籍中“历节病”“风湿”“鹤膝风”等的描述相似。
中医认为,正虚卫外不固是痹症发生的内在基础,感受外邪是引发本病的外在条件,风、寒、湿、热、痰、瘀痹阻经络气血是基本病机。
由于痹症有风寒湿痹、风湿热痹、痰瘀痹阻、肝肾亏虚等若干证型,且各证型间常相互夹杂虚实并见,根据中医整体观念,辨证施治的原则,以祛邪通络同时兼顾养血活血(即所谓的“治风先治血,血行风自灭”)为基本治则,病久感邪深重损伤脏腑时,则以调养气血、补益肝肾为主。
本研究针对从CBM收集到RA的相关文献6763篇,采用课题组逐渐成熟的文本挖掘技术[1],结合回溯原文献,人工阅读降噪,对RA从证型、症状、治法、方剂、中药规律方面进行挖掘,挖掘的结果既看到它们在文献中的频次,又可以发现它们各自在关联网络中的分布规律。
从挖掘的结果来看,RA寒热虚实夹杂,日久者虚证多见,相关脏腑涉及肝、脾、肾;证候方面以肝肾阴虚、肾阴虚、寒热错杂为主,从二维图形来看,主要分为肝肾阴虚、肾阴虚、痰瘀互结、寒热错杂4大类;RA症状挖掘结果主要划分为2部分:炎症诱发的关节肿胀疼痛症状;肿胀疼痛久而不愈而出现的关节功能障碍、活动受限并最终出现关节变形、畸形改变等。
方药的使用则体现了祛风除湿、活血通络以及日久补益气血、调补肝肾的治法,临床遣方蠲痹汤、独活寄生汤、桂枝芍药知母汤等,与挖掘出的证型结果相互对应,证型-症状-治法-方药4方面有很多互相呼应和印证的地方,基本反映了RA这种疾病的证药相应规律。
但是,不排除一些噪音的产生,这可能和临床应用中的一些专家自拟方或者经验方有关联,经过返查原文献,证明确实存在着这种现象。
文本挖掘的结果,选取高频数的参与网络关系图的构建,展示临床上的常见证候、常用药物的使用情况,直接客观的反映临床研究的现状。
回溯原文献,人工阅读评价,使得结果更加客观,一维频次和二维网络构图,从不同角度显示挖掘对象在文献数据集中的分布,均有不同的意义。
因此,通过这种优化的文本挖掘组合,能够比较客观的总结中医病、证、药的规律,为医师临床诊疗提供有益的探索与参考依据,也为中医临床数据客观化提供一种特定的解决途径与方法。
4 参考文献
[1] Zheng G,Jiang M,He XJ,et al.Discrete derivative:a data slicing algorithm for exploration of sharingbiological networks between rheumatoid arthritis and coronary heart
disease[J].BioData Min,2011,4:18.
[2] Wang B,Ma L,Tao X,et al.Triptolide anactive component of the Chinese herbal remedy Tripterygium wilfordii Hook F,inhibits production of nitricoxide by decreasing inducible nitricoxide synthase gene transcription[J].Arthritis Rheum,2004,50(9):2995-3003.
[3] Maekawa K,Yoshikawa N,Du J,et al.The molecular mechanism of inhibition of interleukin-1beta-induced cyclooxygenase-2 expression in human synovial cells by Tripterygium wilfordii Hook F extract[J].Inflamm Res,1999,48(11):5751.
[4] Ma J,Dey L,Yang H,et al.Anti-inflammatory and immunosuppressive compounds from Tripterygium wilfordii[J].Phytochemistry,2007,68(8):1172-1178.
[5] Zhou J,Xiao C,Zhao L,et al.The effect of triptolide on CD4+ and CD8+ cells in Peyer s’ patch of SD rats with collagen induced arthritis[J]. International immunopharmacology,2006,6(2):198-203.
[6] Chen BJ.Triptolide,A novel immunosuppressive and anti-inflammatory agent purified from
a Chinese her
b Tripterygiumwilfordii Hook F[J].Leuk Lymphoma,2001,42(3):253-265.
[7] Liacini A,Sylvester J,Zafarullah M.Triptolide suppresses Proinflammatory cytokine-induced matrix metalloproteinase and aggrecanase-1 gene expression in
chondrocytes[J].BiochemBiophys Res Commun,2005,327(1):320-327.
[8] Lin N,Sato T,Ito A.Triptolide,a novel diterpenoid tri epoxide from Tripterygium wilfordii Hook f, suppresses the production and gene expression of pro-matrix metalloproteinases 1 and 3 and augments those of tissue inhibitors of metalloproteinases 1 and 2 in human synovial fibroblasts[J].Arthritis Rheum,2001,44(9):2193.
[9] Tao X,Schulze-KoopsH,Ma L.Effects of Triptery-gium wilfordii hook F extracts on induction of cyclooxygenase 2 activity and prostag l and in E2 production[J].Arthritis Rheum,1998,41(1):130-138.
[10] Lin N,Liu C,Xiao C,et al.Triptolide, aditerpenoid triepoxide, suppresses inflammation and cartilage destruction in collagen-induced arthritis mice[J].
BiochemPharmacol,2007,73(1):136-146.
[11] 施栋磊,朱华旭,潘林梅,等.中药配伍雷公藤减毒作用的研究进展[J].中国药事,2009,23(11):
1136-1140.
[12] 薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报:自然科学版,2005,19(4):59-63.
[13] LamirelS JC,Al Shehabi S,Hoffmann M,et al.Intelligent Patent Analysis Through the Use of a Neural Network:Experiment of Multi-viewpoint Analysis with the MultiSOM Model[C]. Proceedings of the ACL-2003 workshop on Patent corpus processing-Volume 20. Association for Computational Linguistics,2003,20:7-23.
[14] Rodriguez-Esteban R.Biomedical text mining and its applications[J].PLOS Compute Biol,2009,5(12):1000597.
[15] Zheng G.Two Dimensions Data Slicing Algorithm, a New Approach in Mining Rules of Literature in Traditional Chinese Medicine, in Communications in Computer and Information Science[J].Springer-Verlag Berlin Heidelberg,2011:161-174.
[16] Li S,Zhang ZQ,Wu LJ,et al.Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrine-immune network[J].IET SystBiol,2007,1(1):51-60.。